import numpy as np
import pandas as pd

from datasets import load_dataset,Dataset
from transformers import AutoTokenizer, DataCollatorWithPadding
from transformers import TrainingArguments
from transformers import AutoModelForSequenceClassification
from transformers import Trainer
from datasets import load_metric


train = pd.read_csv('treino_bert_filter.csv')
teste = pd.read_csv('teste_bert_filter.csv')


def encode(x):
    if x == 2:
        return 1
    else:
        return 0


train['label'] = train['label'].apply(encode)
teste['label'] = teste['label'].apply(encode)


dataset_train = Dataset.from_pandas(train)
dataset_teste = Dataset.from_pandas(teste)


checkpoint = "pierreguillou/bert-base-cased-squad-v1.1-portuguese"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)


def tokenize_function(example):
    return tokenizer(example["sentence1"],example["sentence2"], truncation=True,max_length=512)


tokenized_train = dataset_train.map(tokenize_function, batched=True)
tokenized_test = dataset_teste.map(tokenize_function, batched=True)


data_collator = DataCollatorWithPadding(tokenizer=tokenizer)


result = []


def compute_metrics(eval_preds):
    metric = load_metric("accuracy")
    logits, labels = eval_preds
    predictions = np.argmax(logits, axis=-1)
    result.append(predictions)
    return metric.compute(predictions=predictions, references=labels)


training_args = TrainingArguments("test-trainer", evaluation_strategy="epoch")


training_args.report_to = []


model = AutoModelForSequenceClassification.from_pretrained("viniaraujoo/bert_transparencia_brasil", num_labels=3)


trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_train,
    eval_dataset=tokenized_test,
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)


%%time
trainer.train()

The following columns in the training set  don't have a corresponding argument in `BertForSequenceClassification.forward` and have been ignored: sentence2, Unnamed: 0, sentence1.
***** Running training *****
  Num examples = 6899
  Num Epochs = 3
  Instantaneous batch size per device = 8
  Total train batch size (w. parallel, distributed & accumulation) = 8
  Gradient Accumulation steps = 1
  Total optimization steps = 2589

Saving model checkpoint to test-trainer\checkpoint-500
Configuration saved in test-trainer\checkpoint-500\config.json
Model weights saved in test-trainer\checkpoint-500\pytorch_model.bin
tokenizer config file saved in test-trainer\checkpoint-500\tokenizer_config.json
Special tokens file saved in test-trainer\checkpoint-500\special_tokens_map.json
The following columns in the evaluation set  don't have a corresponding argument in `BertForSequenceClassification.forward` and have been ignored: sentence2, Unnamed: 0, sentence1.
***** Running Evaluation *****
  Num examples = 1554
  Batch size = 8
Saving model checkpoint to test-trainer\checkpoint-1000
Configuration saved in test-trainer\checkpoint-1000\config.json
Model weights saved in test-trainer\checkpoint-1000\pytorch_model.bin
tokenizer config file saved in test-trainer\checkpoint-1000\tokenizer_config.json
Special tokens file saved in test-trainer\checkpoint-1000\special_tokens_map.json
Saving model checkpoint to test-trainer\checkpoint-1500
Configuration saved in test-trainer\checkpoint-1500\config.json
Model weights saved in test-trainer\checkpoint-1500\pytorch_model.bin
tokenizer config file saved in test-trainer\checkpoint-1500\tokenizer_config.json
Special tokens file saved in test-trainer\checkpoint-1500\special_tokens_map.json
The following columns in the evaluation set  don't have a corresponding argument in `BertForSequenceClassification.forward` and have been ignored: sentence2, Unnamed: 0, sentence1.
***** Running Evaluation *****
  Num examples = 1554
  Batch size = 8
Saving model checkpoint to test-trainer\checkpoint-2000
Configuration saved in test-trainer\checkpoint-2000\config.json
Model weights saved in test-trainer\checkpoint-2000\pytorch_model.bin
tokenizer config file saved in test-trainer\checkpoint-2000\tokenizer_config.json
Special tokens file saved in test-trainer\checkpoint-2000\special_tokens_map.json
Saving model checkpoint to test-trainer\checkpoint-2500
Configuration saved in test-trainer\checkpoint-2500\config.json
Model weights saved in test-trainer\checkpoint-2500\pytorch_model.bin
tokenizer config file saved in test-trainer\checkpoint-2500\tokenizer_config.json
Special tokens file saved in test-trainer\checkpoint-2500\special_tokens_map.json
The following columns in the evaluation set  don't have a corresponding argument in `BertForSequenceClassification.forward` and have been ignored: sentence2, Unnamed: 0, sentence1.
***** Running Evaluation *****
  Num examples = 1554
  Batch size = 8


Training completed. Do not forget to share your model on huggingface.co/models =)

Wall time: 13min 8s

TrainOutput(global_step=2589, training_loss=0.05833678047092507, metrics={'train_runtime': 788.9425, 'train_samples_per_second': 26.234, 'train_steps_per_second': 3.282, 'total_flos': 5165725772096190.0, 'train_loss': 0.05833678047092507, 'epoch': 3.0})


trainer.evaluate()

The following columns in the evaluation set  don't have a corresponding argument in `BertForSequenceClassification.forward` and have been ignored: sentence2, Unnamed: 0, sentence1.
***** Running Evaluation *****
  Num examples = 1554
  Batch size = 8

{'eval_loss': 0.7818707227706909,
 'eval_accuracy': 0.8758043758043758,
 'eval_runtime': 19.4201,
 'eval_samples_per_second': 80.02,
 'eval_steps_per_second': 10.041,
 'epoch': 3.0}


predictions_labels = result[1]


from ml_things import plot_dict, plot_confusion_matrix, fix_text
plot_confusion_matrix(y_true=teste['label'], y_pred=predictions_labels, 
                      classes=['Nao Atendido','Atendido'], normalize=True, 
                      magnify=0.1,
                      );

Normalized confusion matrix


trainer.model.push_to_hub("tbrasil/classificador_de_atendimento_2_classes_v1.1")

C:\Users\LMD\anaconda3\lib\site-packages\ipykernel\ipkernel.py:287: DeprecationWarning: `should_run_async` will not call `transform_cell` automatically in the future. Please pass the result to `transformed_cell` argument and any exception that happen during thetransform in `preprocessing_exc_tuple` in IPython 7.17 and above.
  and should_run_async(code)
Configuration saved in tbrasil/classificador_de_atendimento_2_classes_v1.1\config.json
Model weights saved in tbrasil/classificador_de_atendimento_2_classes_v1.1\pytorch_model.bin

'https://huggingface.co/tbrasil/classificador_de_atendimento_2_classes_v1.1/commit/147ae7455fb7891fbcef6e27de67badb01055d22'

Epoch	Training Loss	Validation Loss	Accuracy
1	0.136200	0.935629	0.851995
2	0.040200	0.830477	0.878378
3	0.019900	0.781871	0.875804

Tokenização¶

Importando as metrica de avaliaçao¶

Treinamento do Modelo¶

Avaliaçao dos Resultados¶

Updade do modelo¶