al_module

Modulo para utilização do argilla em conjunto com active learning

Criando venv

python -m venv venv

Ativando a venv

source venv/bin/activate

Instalando dependências

pip install -r requirements.txt

Execução

python3 main.py

Configuração

O arquivo `config.json` é utilizado para configurar todos os aspectos do sistema, as seguinte chave são usadas para configuração:

owner: contêm as informações necessarias para autenticação no argilla, devem ser definidos a chave de api e workspace de um usuario com permissão de criação de dataset no argilla.
active_learning_config: é definido o metodo de query utilizado o numero de amostras por batch enviados para o argilla e um numero maximo de iterações.
training_config: são definidos o numero de epocas por rodada do active learning, o tamanho de lote e se será um treinamento multi-label ou não.
model_config: é definido o modelo de sentence transformer a ser utilizado no treinamento.
dataset_config: é definido o nome do dataset no argilla e o caminho do arquivo .csv com os dados a serem utilizados.

OBS: o nome do dataset argilla deve conter apenas letras minusculas e sem caracteres especiais.
inputs: estrutura o dados a serem mostrados no argilla, a chave de cada campo será o nome utilizado no argilla e o valor é a coluna correspondente no .csv definido.

Exemplo: "inputs" : { "OBJETO":"text", "ID-LICITACAO":"_ID-LICITACAO", "ID-ARQUIVO":"_ID-ARQUIVO" }, cada registro no argilla terá esses três campos OBJETO,ID-LICITACAO,ID-ARQUIVO e as colunas correspondentes no dataframe são text,_ID-LICITACAO,_ID-ARQUIVO
training_field: define qual dos campos informado em input será utilizado para treinamento
log_path: define o caminho para os arquivos de log
pretraining: define se será feito ou não pre-treinamento, a busca por dados de pre-treinamento é feito no proprio dataframe, caso haja registro com a coluna _isSend igual a True esses dados serão utilizados como pre-treinamento sem a necessidade de serem passados para o argilla, essa configuração foi implementada no caso de haver registros já rotulados sem a necessidade de manda-los para o argilla e resgata-los de volta.
training_labels: define quais label serão usada para treinamento, as labels todas as labels são resgatadas automaticamente das colunas presentes no dataframe, somente não serão labels a coluna text e todas as outras coluna iniciadas com o prefixo _, esse conjunto de labels é utilizado para gerar o dataset no argilla. No entanto não necessariamente todas elas precisam ser utilizadas para treino, aquelas que forem utilizadas precisam ser passadas nesse parametro.

OBS: Caso queira adicionar qualquer coluna do dataframe basta adicionar o prefixo _ para a coluna ser ignorada.
metricas_pth: define a pasta onde será salvo os arquivo de metricas, são três arquivos gerados metricas_front.csv que avaliam o modelo para o proximo lote rotulado que ainda não foi treinado pelo active_learning a cada rodada, metricas_back.csv avalia para todo o conjunto de dados já treinado, metricas_teste.csv avalia o modelo para um conjunto de teste predefinido.

OBS: Atualmente as metricas calculadas são: acuracia,fi-score,hamming-loss,precisão,recall e confiança de pesquisa
model_pth: define a pasta onde o modelo será salvo, a cada rodada de active learning uma nova versão do modelo é salva.

teste_pth: define o caminho do arquivo de teste, o arquivo de teste deve ser um arquivo de bytes pickle onde os dados de teste estão previamente rotulados e no formato TextDataset.

Exemplo:

from test_construct import createTextDataset
createTextDataset('test_ml.csv',["label_1","label_2"],True)

(function) def createTextDataset(
  path_test: str,
  training_labels: list,
  multi_label: bool
) -> None
Creates a text dataset from a CSV file and saves it as a pickle file.

Args:

path_test (str): The path to the CSV file.
training_labels (list): A list of labels for the training data.
multi_label (bool): A boolean indicating whether the dataset has multiple labels.
Returns:

None

url: link para uma instancia do argilla funcional a ser utilizada.
workspace_user: workspace utilizado para enviar os dados de casa conjunto, note que o workspace já deve existir e usarios pertencentes a ele poderão rotular os dados.
data_storage: define a pasta onde os dados rotulados serão salvos, registro.csv mantêm apenas os registro rotulados onde _isSend será true, historico.csv mantêm os registros rotulados e não rotulados.
earlyStopping(opcional): define o comportamento de earlyStopping, os parametros possivels são target_metric,patience,threshold , caso a metrica assistida em target_metric não melhore depois de patience rodadas, o treinamento é parado. No caso de threshold se a metrica ultrapassar esse valor o treinamento é iterrompido, ambos patience e threshold são opcionais mas caos nenhum seja informado nunca havera condição de parada de earlyStopping.
active_learning : define se de fato será usado active learning, caso seja false todos os dados serão enviados juntos para o argilla e não acontecerá treinamento.

OBS Foi considerado o comportamento da metrica hamming loss que funciona de forma inversa a das outras.

Dataframe exemplo

text	_link	_dt_criacao	label_1	label_2
"Algo deve está aqui"	(http://example.com)	2022-05-10	0	0

Name		Name	Last commit message	Last commit date
Latest commit History 28 Commits
.gitignore		.gitignore
DatasetArtificialGen.py		DatasetArtificialGen.py
LICENSE		LICENSE
README.md		README.md
_text.ipynb		_text.ipynb
activeLearning.py		activeLearning.py
argilla_functions.py		argilla_functions.py
config.json		config.json
config_example.json		config_example.json
configuration.py		configuration.py
dataset_class.py		dataset_class.py
main.py		main.py
metrics.py		metrics.py
model_conf.py		model_conf.py
requirements.txt		requirements.txt
test_construct.py		test_construct.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

al_module

Criando venv

Ativando a venv

Instalando dependências

Execução

Configuração

O arquivo `config.json` é utilizado para configurar todos os aspectos do sistema, as seguinte chave são usadas para configuração:

Dataframe exemplo

About

Releases 7

Packages

Languages

License

LordWaif/al_module

Folders and files

Latest commit

History

Repository files navigation

al_module

Criando venv

Ativando a venv

Instalando dependências

Execução

Configuração

O arquivo config.json é utilizado para configurar todos os aspectos do sistema, as seguinte chave são usadas para configuração:

Dataframe exemplo

About

Resources

License

Stars

Watchers

Forks

Releases 7

Packages 0

Languages

O arquivo `config.json` é utilizado para configurar todos os aspectos do sistema, as seguinte chave são usadas para configuração:

Packages