Model save

Browse files

Files changed (5) hide show

README.md +67 -0
generation_config.json +6 -0
logs/events.out.tfevents.1755782777.05fbb06cf10f.14096.0 +2 -2
model.safetensors +1 -1
trainer_state.json +148 -0

README.md ADDED Viewed

	@@ -0,0 +1,67 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: google-t5/t5-small
+tags:
+- generated_from_trainer
+model-index:
+- name: t5-small-openassistant-chat-final-2
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# t5-small-openassistant-chat-final-2
+This model is a fine-tuned version of [google-t5/t5-small](https://huggingface.co/google-t5/t5-small) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 3.1257
+- Rougel: 0.0828
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 36
+- eval_batch_size: 4
+- seed: 42
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 288
+- optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: linear
+- num_epochs: 6
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rougel |
+|:-------------:|:-----:|:----:|:---------------:|:------:|
+| 3.7576        | 1.0   | 184  | 3.2561          | 0.0764 |
+| 3.4768        | 2.0   | 368  | 3.1922          | 0.0811 |
+| 3.4223        | 3.0   | 552  | 3.1580          | 0.0835 |
+| 3.3925        | 4.0   | 736  | 3.1399          | 0.0825 |
+| 3.3752        | 5.0   | 920  | 3.1297          | 0.0830 |
+| 3.3685        | 6.0   | 1104 | 3.1257          | 0.0828 |
+### Framework versions
+- Transformers 4.55.2
+- Pytorch 2.8.0+cu126
+- Datasets 4.0.0
+- Tokenizers 0.21.4

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.55.2"
+}

logs/events.out.tfevents.1755782777.05fbb06cf10f.14096.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d94e1e1a877d7d48b6297d2d34ffde430e61a3cefc7c49495938e74aa10c6a65
-size 8660

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb0e4c9804a22cd61676e9d79c9868e83b7ee1221cf6bec90515b16c0906acab
+size 9546

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38b63a231abeeeb9afcf864271eb6340f774475b3c2a42ec8de5788ce2643ca2
 size 241988648

 version https://git-lfs.github.com/spec/v1
+oid sha256:77c1f7a90226e70eb5113166a2ea491bf2afb8c5ddbd898b5c11bc989036be75
 size 241988648

trainer_state.json ADDED Viewed

	@@ -0,0 +1,148 @@

+{
+  "best_global_step": 1104,
+  "best_metric": 3.125730276107788,
+  "best_model_checkpoint": "/kaggle/working/t5_openassistant_chat/checkpoint-1104",
+  "epoch": 6.0,
+  "eval_steps": 500,
+  "global_step": 1104,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.36105069518089294,
+      "learning_rate": 4.171195652173913e-05,
+      "loss": 3.7576,
+      "step": 184
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 3.256053924560547,
+      "eval_rougeL": 0.07640182692431968,
+      "eval_runtime": 103.7583,
+      "eval_samples_per_second": 13.281,
+      "eval_steps_per_second": 3.325,
+      "step": 184
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.3874160647392273,
+      "learning_rate": 3.33786231884058e-05,
+      "loss": 3.4768,
+      "step": 368
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 3.192178964614868,
+      "eval_rougeL": 0.08106104899729127,
+      "eval_runtime": 102.3175,
+      "eval_samples_per_second": 13.468,
+      "eval_steps_per_second": 3.372,
+      "step": 368
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.39288660883903503,
+      "learning_rate": 2.504528985507246e-05,
+      "loss": 3.4223,
+      "step": 552
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 3.1580183506011963,
+      "eval_rougeL": 0.08353733643223961,
+      "eval_runtime": 102.4521,
+      "eval_samples_per_second": 13.45,
+      "eval_steps_per_second": 3.367,
+      "step": 552
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.4270136058330536,
+      "learning_rate": 1.671195652173913e-05,
+      "loss": 3.3925,
+      "step": 736
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 3.1398727893829346,
+      "eval_rougeL": 0.08246789128825052,
+      "eval_runtime": 101.7931,
+      "eval_samples_per_second": 13.537,
+      "eval_steps_per_second": 3.389,
+      "step": 736
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.4153004288673401,
+      "learning_rate": 8.378623188405797e-06,
+      "loss": 3.3752,
+      "step": 920
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 3.129657030105591,
+      "eval_rougeL": 0.08303174888320114,
+      "eval_runtime": 101.9403,
+      "eval_samples_per_second": 13.518,
+      "eval_steps_per_second": 3.384,
+      "step": 920
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.3171236515045166,
+      "learning_rate": 4.528985507246377e-08,
+      "loss": 3.3685,
+      "step": 1104
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 3.125730276107788,
+      "eval_rougeL": 0.08282438404189152,
+      "eval_runtime": 101.4418,
+      "eval_samples_per_second": 13.584,
+      "eval_steps_per_second": 3.401,
+      "step": 1104
+    },
+    {
+      "epoch": 6.0,
+      "step": 1104,
+      "total_flos": 2.148361619845939e+16,
+      "train_loss": 3.4654945152393286,
+      "train_runtime": 5654.7517,
+      "train_samples_per_second": 56.143,
+      "train_steps_per_second": 0.195
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1104,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.148361619845939e+16,
+  "train_batch_size": 36,
+  "trial_name": null,
+  "trial_params": null
+}