Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

README.md +125 -3
config.json +89 -0
merges.txt +0 -0
model.safetensors +3 -0
special_tokens_map.json +51 -0
tokenizer.json +0 -0
tokenizer_config.json +64 -0
trainer_state.json +426 -0
training_args.bin +3 -0
vocab.json +0 -0

README.md CHANGED Viewed

@@ -1,3 +1,125 @@
----
-license: apache-2.0
----

+---
+library_name: transformers
+base_model: roberta-large-emopillars-contextless
+metrics:
+- f1
+model-index:
+- name: roberta-large-emopillars-contextless-isear
+  results: []
+---
+# roberta-large-emopillars-contextless-isear
+This model is a fine-tuned version of [roberta-large-emopillars-contextless](https://huggingface.co/alex-shvets/roberta-large-emopillars-contextless) on [ISEAR dateset](https://paperswithcode.com/dataset/isear).
+<img src="https://huggingface.co/datasets/alex-shvets/images/resolve/main/emopillars_color_2.png" width="450">
+## Model description
+The model is a multi-label classifier over 28 emotional classes for a context-less scenario, fine-tuned on a dataset of 7 classes (_anger_, _disgust_, _fear_, _sadness_, _joy_, _shame_, _guilt_). It detects emotions in the entire input (including context if provided).
+## How to use
+Here is how to use this model:
+```python
+>>> import torch
+>>> from transformers import pipeline
+>>> model_name = "roberta-large-emopillars-contextless-isear"
+>>> threshold = 0.5
+>>> emotions = ["admiration", "amusement", "anger", "annoyance", "approval", "caring", "confusion",
+>>>             "curiosity", "desire", "disappointment", "disapproval", "disgust", "embarrassment",
+>>>             "excitement", "fear", "gratitude", "grief", "joy", "love", "nervousness", "optimism",
+>>>             "pride", "realization", "relief", "remorse", "sadness", "surprise", "neutral"]
+>>> label_to_emotion = dict(zip(list(range(len(emotions))), emotions))
+>>> emotion_to_isear = {
+>>>     "anger": "anger",
+>>>     "disgust": "disgust",
+>>>     "fear": "fear",
+>>>     "sadness": "sadness",
+>>>     "joy": "joy",
+>>>     "embarrassment": "shame",
+>>>     "remorse": "guilt"
+>>> }
+>>> device = torch.device("cuda" if torch.cuda.is_available() else "CPU")
+>>> pipe = pipeline("text-classification", model=model_name, truncation=True,
+>>>                  return_all_scores=True, device=-1 if device.type=="cpu" else 0)
+>>> # input in a format f"{text}"
+>>> utterances = ["Ok is it just me or is anyone else getting goosebumps too???",
+>>>               "Don’t know what to do",
+>>>               "When a car is overtaking another and I am forced to drive off the road."]
+>>> outcome = pipe(utterances)
+>>> dominant_classes = [
+>>>     [prediction for prediction in example if prediction['score'] >= threshold and
+>>>      label_to_emotion[int(prediction['label'])] in emotion_to_isear]
+>>>     for example in outcome
+>>> ]
+>>> for example in dominant_classes:
+>>>     print(", ".join([
+>>>         "%s: %.2lf" % (emotion_to_isear[label_to_emotion[int(prediction['label'])]], prediction['score'])
+>>>         for prediction in sorted(example, key=lambda x: x['score'], reverse=True)
+>>>     ]))
+fear: 0.90
+sadness: 0.91
+anger: 1.00
+```
+## Training data
+The training data consists of 6013 samples of the [ISEAR dataset](https://paperswithcode.com/dataset/isear).
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 2e-05
+- train_batch_size: 4
+- eval_batch_size: 8
+- seed: 752
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 8.0
+### Framework versions
+- Transformers 4.45.0.dev0
+- Pytorch 2.4.0a0+gite3b9b71
+- Datasets 2.21.0
+- Tokenizers 0.19.1
+## Evaluation
+Scores for the evaluation on the test split (20% of the ISEAR dataset):
+| **class** | **precision**| **recall** | **f1-score** | **support** |
+| :--- | :---: | :---: | :---: | ---: |
+| anger | 0.67 | 0.65 | 0.66 | 209 |
+| disgust | 0.75 | 0.72 | 0.74 | 232 |
+| fear | 0.88 | 0.81 | 0.84 | 205 |
+| sadness | 0.71 | 0.78 | 0.74 | 198 |
+| joy | 0.93 | 0.93 | 0.93 | 219 |
+| shame | 0.64 | 0.66 | 0.65 | 222 |
+| guilt | 0.75 | 0.72 | 0.73 | 218 |
+| **micro avg** | 0.76 | 0.75 | 0.76 | 1503 |
+| **macro avg** | 0.76 | 0.75 | 0.76 | 1503 |
+| **weighted avg** | 0.76 | 0.75 | 0.76 | 1503 |
+| **samples avg** | 0.75 | 0.75 | 0.75 | 1503 |
+For more details on the evaluation, please visit our [GitHub repository](https://github.com/alex-shvets/emopillars).
+## Disclaimer
+<details>
+<summary>Click to expand</summary>
+The model published in this repository is intended for a generalist purpose and is available to third parties. This model may have bias and/or any other undesirable distortions.
+When third parties deploy or provide systems and/or services to other parties using this model (or using systems based on this model) or become users of the model, they should note that it is their responsibility to mitigate the risks arising from its use and, in any event, to comply with applicable regulations, including regulations regarding the use of Artificial Intelligence.
+In no event shall the creator of the model be liable for any results arising from the use made by third parties of this model.
+</details>

config.json ADDED Viewed

	@@ -0,0 +1,89 @@

+{
+  "_name_or_path": "roberta_mistfull_64batch_10epochs752",
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "finetuning_task": "text-classification",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "0",
+    "1": "1",
+    "2": "10",
+    "3": "11",
+    "4": "12",
+    "5": "13",
+    "6": "14",
+    "7": "15",
+    "8": "16",
+    "9": "17",
+    "10": "18",
+    "11": "19",
+    "12": "2",
+    "13": "20",
+    "14": "21",
+    "15": "22",
+    "16": "23",
+    "17": "24",
+    "18": "25",
+    "19": "26",
+    "20": "27",
+    "21": "3",
+    "22": "4",
+    "23": "5",
+    "24": "6",
+    "25": "7",
+    "26": "8",
+    "27": "9"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "0": 0,
+    "1": 1,
+    "10": 2,
+    "11": 3,
+    "12": 4,
+    "13": 5,
+    "14": 6,
+    "15": 7,
+    "16": 8,
+    "17": 9,
+    "18": 10,
+    "19": 11,
+    "2": 12,
+    "20": 13,
+    "21": 14,
+    "22": 15,
+    "23": 16,
+    "24": 17,
+    "25": 18,
+    "26": 19,
+    "27": 20,
+    "3": 21,
+    "4": 22,
+    "5": 23,
+    "6": 24,
+    "7": 25,
+    "8": 26,
+    "9": 27
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "multi_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.0.dev0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:635c484e65e729288eb407ac8dd17bddf4fa5cdb7d567955a6ef56ab1628d8bf
+size 1421602016

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,64 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "mask_token": "<mask>",
+  "max_length": 128,
+  "model_max_length": 512,
+  "pad_to_multiple_of": null,
+  "pad_token": "<pad>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "</s>",
+  "stride": 0,
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "truncation_side": "left",
+  "truncation_strategy": "longest_first",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,426 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 8.0,
+  "eval_steps": 500,
+  "global_step": 12032,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.3324468085106383,
+      "grad_norm": 0.3100210130214691,
+      "learning_rate": 1.9168882978723405e-05,
+      "loss": 0.0604,
+      "step": 500
+    },
+    {
+      "epoch": 0.3324468085106383,
+      "eval_f1": 0.7222991689750693,
+      "eval_loss": 0.051721904426813126,
+      "eval_runtime": 17.61,
+      "eval_samples_per_second": 85.349,
+      "eval_steps_per_second": 10.676,
+      "step": 500
+    },
+    {
+      "epoch": 0.6648936170212766,
+      "grad_norm": 1.4195618629455566,
+      "learning_rate": 1.833776595744681e-05,
+      "loss": 0.0531,
+      "step": 1000
+    },
+    {
+      "epoch": 0.6648936170212766,
+      "eval_f1": 0.7194194885970975,
+      "eval_loss": 0.05466139316558838,
+      "eval_runtime": 17.5929,
+      "eval_samples_per_second": 85.432,
+      "eval_steps_per_second": 10.686,
+      "step": 1000
+    },
+    {
+      "epoch": 0.9973404255319149,
+      "grad_norm": 1.0888991355895996,
+      "learning_rate": 1.7506648936170213e-05,
+      "loss": 0.0519,
+      "step": 1500
+    },
+    {
+      "epoch": 0.9973404255319149,
+      "eval_f1": 0.737983375496928,
+      "eval_loss": 0.04508286714553833,
+      "eval_runtime": 17.6072,
+      "eval_samples_per_second": 85.363,
+      "eval_steps_per_second": 10.677,
+      "step": 1500
+    },
+    {
+      "epoch": 1.3297872340425532,
+      "grad_norm": 0.06017958000302315,
+      "learning_rate": 1.667553191489362e-05,
+      "loss": 0.0319,
+      "step": 2000
+    },
+    {
+      "epoch": 1.3297872340425532,
+      "eval_f1": 0.745473180731124,
+      "eval_loss": 0.05267561972141266,
+      "eval_runtime": 17.5974,
+      "eval_samples_per_second": 85.41,
+      "eval_steps_per_second": 10.683,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6622340425531914,
+      "grad_norm": 5.658984184265137,
+      "learning_rate": 1.584441489361702e-05,
+      "loss": 0.0361,
+      "step": 2500
+    },
+    {
+      "epoch": 1.6622340425531914,
+      "eval_f1": 0.7482853223593965,
+      "eval_loss": 0.05346440523862839,
+      "eval_runtime": 17.5948,
+      "eval_samples_per_second": 85.423,
+      "eval_steps_per_second": 10.685,
+      "step": 2500
+    },
+    {
+      "epoch": 1.9946808510638299,
+      "grad_norm": 2.0736632347106934,
+      "learning_rate": 1.5013297872340426e-05,
+      "loss": 0.0322,
+      "step": 3000
+    },
+    {
+      "epoch": 1.9946808510638299,
+      "eval_f1": 0.7512027491408935,
+      "eval_loss": 0.05298233404755592,
+      "eval_runtime": 17.6025,
+      "eval_samples_per_second": 85.385,
+      "eval_steps_per_second": 10.68,
+      "step": 3000
+    },
+    {
+      "epoch": 2.327127659574468,
+      "grad_norm": 0.005054426845163107,
+      "learning_rate": 1.4182180851063831e-05,
+      "loss": 0.0174,
+      "step": 3500
+    },
+    {
+      "epoch": 2.327127659574468,
+      "eval_f1": 0.7525218560860794,
+      "eval_loss": 0.07012591511011124,
+      "eval_runtime": 17.5942,
+      "eval_samples_per_second": 85.426,
+      "eval_steps_per_second": 10.685,
+      "step": 3500
+    },
+    {
+      "epoch": 2.6595744680851063,
+      "grad_norm": 0.475389301776886,
+      "learning_rate": 1.3351063829787235e-05,
+      "loss": 0.0218,
+      "step": 4000
+    },
+    {
+      "epoch": 2.6595744680851063,
+      "eval_f1": 0.7464694014794889,
+      "eval_loss": 0.0661526769399643,
+      "eval_runtime": 17.6058,
+      "eval_samples_per_second": 85.37,
+      "eval_steps_per_second": 10.678,
+      "step": 4000
+    },
+    {
+      "epoch": 2.992021276595745,
+      "grad_norm": 0.06960093975067139,
+      "learning_rate": 1.2519946808510639e-05,
+      "loss": 0.0215,
+      "step": 4500
+    },
+    {
+      "epoch": 2.992021276595745,
+      "eval_f1": 0.7512864493996569,
+      "eval_loss": 0.06172482669353485,
+      "eval_runtime": 17.6025,
+      "eval_samples_per_second": 85.385,
+      "eval_steps_per_second": 10.68,
+      "step": 4500
+    },
+    {
+      "epoch": 3.324468085106383,
+      "grad_norm": 0.00278457417152822,
+      "learning_rate": 1.1688829787234044e-05,
+      "loss": 0.0111,
+      "step": 5000
+    },
+    {
+      "epoch": 3.324468085106383,
+      "eval_f1": 0.7572621035058431,
+      "eval_loss": 0.08673229813575745,
+      "eval_runtime": 17.6012,
+      "eval_samples_per_second": 85.392,
+      "eval_steps_per_second": 10.681,
+      "step": 5000
+    },
+    {
+      "epoch": 3.6569148936170213,
+      "grad_norm": 0.18681606650352478,
+      "learning_rate": 1.0857712765957446e-05,
+      "loss": 0.0118,
+      "step": 5500
+    },
+    {
+      "epoch": 3.6569148936170213,
+      "eval_f1": 0.7567567567567568,
+      "eval_loss": 0.08375687897205353,
+      "eval_runtime": 17.6087,
+      "eval_samples_per_second": 85.356,
+      "eval_steps_per_second": 10.677,
+      "step": 5500
+    },
+    {
+      "epoch": 3.9893617021276597,
+      "grad_norm": 0.149847149848938,
+      "learning_rate": 1.0026595744680852e-05,
+      "loss": 0.0137,
+      "step": 6000
+    },
+    {
+      "epoch": 3.9893617021276597,
+      "eval_f1": 0.7489075630252101,
+      "eval_loss": 0.07563214004039764,
+      "eval_runtime": 17.6009,
+      "eval_samples_per_second": 85.393,
+      "eval_steps_per_second": 10.681,
+      "step": 6000
+    },
+    {
+      "epoch": 4.321808510638298,
+      "grad_norm": 0.003993071615695953,
+      "learning_rate": 9.195478723404257e-06,
+      "loss": 0.0067,
+      "step": 6500
+    },
+    {
+      "epoch": 4.321808510638298,
+      "eval_f1": 0.747245409015025,
+      "eval_loss": 0.09123753011226654,
+      "eval_runtime": 17.6029,
+      "eval_samples_per_second": 85.384,
+      "eval_steps_per_second": 10.68,
+      "step": 6500
+    },
+    {
+      "epoch": 4.654255319148936,
+      "grad_norm": 0.002212055493146181,
+      "learning_rate": 8.36436170212766e-06,
+      "loss": 0.0084,
+      "step": 7000
+    },
+    {
+      "epoch": 4.654255319148936,
+      "eval_f1": 0.7503337783711616,
+      "eval_loss": 0.08904670178890228,
+      "eval_runtime": 17.6094,
+      "eval_samples_per_second": 85.352,
+      "eval_steps_per_second": 10.676,
+      "step": 7000
+    },
+    {
+      "epoch": 4.986702127659575,
+      "grad_norm": 0.010206693783402443,
+      "learning_rate": 7.5332446808510636e-06,
+      "loss": 0.0066,
+      "step": 7500
+    },
+    {
+      "epoch": 4.986702127659575,
+      "eval_f1": 0.7481629926519706,
+      "eval_loss": 0.09713348001241684,
+      "eval_runtime": 17.6091,
+      "eval_samples_per_second": 85.354,
+      "eval_steps_per_second": 10.676,
+      "step": 7500
+    },
+    {
+      "epoch": 5.319148936170213,
+      "grad_norm": 0.0045317914336919785,
+      "learning_rate": 6.702127659574469e-06,
+      "loss": 0.005,
+      "step": 8000
+    },
+    {
+      "epoch": 5.319148936170213,
+      "eval_f1": 0.7595865288429476,
+      "eval_loss": 0.0952615961432457,
+      "eval_runtime": 17.6003,
+      "eval_samples_per_second": 85.396,
+      "eval_steps_per_second": 10.682,
+      "step": 8000
+    },
+    {
+      "epoch": 5.651595744680851,
+      "grad_norm": 0.0027383090928196907,
+      "learning_rate": 5.871010638297873e-06,
+      "loss": 0.0032,
+      "step": 8500
+    },
+    {
+      "epoch": 5.651595744680851,
+      "eval_f1": 0.752435337588176,
+      "eval_loss": 0.10410240292549133,
+      "eval_runtime": 17.6009,
+      "eval_samples_per_second": 85.393,
+      "eval_steps_per_second": 10.681,
+      "step": 8500
+    },
+    {
+      "epoch": 5.98404255319149,
+      "grad_norm": 13.284900665283203,
+      "learning_rate": 5.039893617021277e-06,
+      "loss": 0.0034,
+      "step": 9000
+    },
+    {
+      "epoch": 5.98404255319149,
+      "eval_f1": 0.748834110592938,
+      "eval_loss": 0.10824441909790039,
+      "eval_runtime": 17.6038,
+      "eval_samples_per_second": 85.379,
+      "eval_steps_per_second": 10.68,
+      "step": 9000
+    },
+    {
+      "epoch": 6.316489361702128,
+      "grad_norm": 0.04516634717583656,
+      "learning_rate": 4.208776595744681e-06,
+      "loss": 0.003,
+      "step": 9500
+    },
+    {
+      "epoch": 6.316489361702128,
+      "eval_f1": 0.7523489932885906,
+      "eval_loss": 0.1027175560593605,
+      "eval_runtime": 17.6036,
+      "eval_samples_per_second": 85.38,
+      "eval_steps_per_second": 10.68,
+      "step": 9500
+    },
+    {
+      "epoch": 6.648936170212766,
+      "grad_norm": 0.0026772848796099424,
+      "learning_rate": 3.377659574468085e-06,
+      "loss": 0.0024,
+      "step": 10000
+    },
+    {
+      "epoch": 6.648936170212766,
+      "eval_f1": 0.7510829723425525,
+      "eval_loss": 0.10764423757791519,
+      "eval_runtime": 17.6186,
+      "eval_samples_per_second": 85.308,
+      "eval_steps_per_second": 10.671,
+      "step": 10000
+    },
+    {
+      "epoch": 6.9813829787234045,
+      "grad_norm": 0.0036624702624976635,
+      "learning_rate": 2.5465425531914894e-06,
+      "loss": 0.0018,
+      "step": 10500
+    },
+    {
+      "epoch": 6.9813829787234045,
+      "eval_f1": 0.7535845281760587,
+      "eval_loss": 0.10941769182682037,
+      "eval_runtime": 17.5982,
+      "eval_samples_per_second": 85.406,
+      "eval_steps_per_second": 10.683,
+      "step": 10500
+    },
+    {
+      "epoch": 7.3138297872340425,
+      "grad_norm": 0.0005808394053019583,
+      "learning_rate": 1.7154255319148937e-06,
+      "loss": 0.0016,
+      "step": 11000
+    },
+    {
+      "epoch": 7.3138297872340425,
+      "eval_f1": 0.7588510354041417,
+      "eval_loss": 0.11245912313461304,
+      "eval_runtime": 17.6057,
+      "eval_samples_per_second": 85.37,
+      "eval_steps_per_second": 10.678,
+      "step": 11000
+    },
+    {
+      "epoch": 7.6462765957446805,
+      "grad_norm": 0.0013273729709908366,
+      "learning_rate": 8.84308510638298e-07,
+      "loss": 0.0009,
+      "step": 11500
+    },
+    {
+      "epoch": 7.6462765957446805,
+      "eval_f1": 0.7561057209769153,
+      "eval_loss": 0.11294491589069366,
+      "eval_runtime": 17.6034,
+      "eval_samples_per_second": 85.381,
+      "eval_steps_per_second": 10.68,
+      "step": 11500
+    },
+    {
+      "epoch": 7.9787234042553195,
+      "grad_norm": 0.002082614693790674,
+      "learning_rate": 5.319148936170213e-08,
+      "loss": 0.0007,
+      "step": 12000
+    },
+    {
+      "epoch": 7.9787234042553195,
+      "eval_f1": 0.7553475935828877,
+      "eval_loss": 0.11238062381744385,
+      "eval_runtime": 17.6206,
+      "eval_samples_per_second": 85.298,
+      "eval_steps_per_second": 10.669,
+      "step": 12000
+    },
+    {
+      "epoch": 8.0,
+      "step": 12032,
+      "total_flos": 4.483356451828531e+16,
+      "train_loss": 0.01690695836027481,
+      "train_runtime": 2479.1734,
+      "train_samples_per_second": 19.403,
+      "train_steps_per_second": 4.853
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 12032,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.483356451828531e+16,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ed0e0c0e86cad25a1fa7038639910f9b8ae3db8f7b86b1dd0745425af810f6ad
+size 5240

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff