Init

Browse files

Files changed (11) hide show

added_tokens.json +1 -0
config.json +7 -1
merges.txt +0 -0
optimizer.pt +0 -3
pytorch_model.bin +2 -2
scheduler.pt +0 -3
special_tokens_map.json +1 -0
tokenizer_config.json +1 -0
trainer_state.json +0 -159
training_args.bin +2 -2
vocab.json +0 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"[newline]": 50258, "[endprompt]": 50257}

config.json CHANGED Viewed

@@ -24,7 +24,13 @@
   "summary_proj_to_labels": true,
   "summary_type": "cls_index",
   "summary_use_proj": true,
   "transformers_version": "4.4.0.dev0",
   "use_cache": true,
-  "vocab_size": 50261
 }

   "summary_proj_to_labels": true,
   "summary_type": "cls_index",
   "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
   "transformers_version": "4.4.0.dev0",
   "use_cache": true,
+  "vocab_size": 50259
 }

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:acebdef50ffbd51aa7eba84a85c10d16f5ffd223212cebff2ffb47994cb5afcc
-size 995635311

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1131c66d971e666343bfea1500d8e2b64fd499f50acb19c9c1e0ed3fac1b87fb
-size 510420239

 version https://git-lfs.github.com/spec/v1
+oid sha256:35974f45a3382c792a1dcc53171516ff910d892aa394d138e4a037d3e784538c
+size 510414095

scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:6ff339a60a0e7de8676c841e72a1a4a72ef9890e55879d85140e63458ebdf0b5
-size 623

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<\|endoftext\|>", "eos_token": "<\|endoftext\|>", "unk_token": "<\|endoftext\|>", "pad_token": "<\|endoftext\|>"}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "<\|endoftext\|>", "bos_token": "<\|endoftext\|>", "eos_token": "<\|endoftext\|>", "add_prefix_space": false, "model_max_length": 1024, "name_or_path": "gpt2"}

trainer_state.json DELETED Viewed

@@ -1,159 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 1.9748106591865358,
-  "global_step": 2200,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.18,
-      "learning_rate": 4.765037593984963e-05,
-      "loss": 12.2573,
-      "step": 200
-    },
-    {
-      "epoch": 0.18,
-      "eval_loss": 2.7165932655334473,
-      "eval_runtime": 138.6905,
-      "eval_samples_per_second": 13.483,
-      "step": 200
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 4.295112781954887e-05,
-      "loss": 2.6565,
-      "step": 400
-    },
-    {
-      "epoch": 0.36,
-      "eval_loss": 2.7028679847717285,
-      "eval_runtime": 135.8765,
-      "eval_samples_per_second": 13.762,
-      "step": 400
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 3.825187969924812e-05,
-      "loss": 2.6054,
-      "step": 600
-    },
-    {
-      "epoch": 0.54,
-      "eval_loss": 2.677929162979126,
-      "eval_runtime": 138.76,
-      "eval_samples_per_second": 13.477,
-      "step": 600
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 3.355263157894737e-05,
-      "loss": 2.6296,
-      "step": 800
-    },
-    {
-      "epoch": 0.72,
-      "eval_loss": 2.667823553085327,
-      "eval_runtime": 138.8745,
-      "eval_samples_per_second": 13.465,
-      "step": 800
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 2.8853383458646617e-05,
-      "loss": 2.6148,
-      "step": 1000
-    },
-    {
-      "epoch": 0.9,
-      "eval_loss": 2.6645262241363525,
-      "eval_runtime": 138.612,
-      "eval_samples_per_second": 13.491,
-      "step": 1000
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 2.4154135338345866e-05,
-      "loss": 2.5843,
-      "step": 1200
-    },
-    {
-      "epoch": 1.08,
-      "eval_loss": 2.6597423553466797,
-      "eval_runtime": 138.5965,
-      "eval_samples_per_second": 13.492,
-      "step": 1200
-    },
-    {
-      "epoch": 1.26,
-      "learning_rate": 1.9454887218045115e-05,
-      "loss": 2.5548,
-      "step": 1400
-    },
-    {
-      "epoch": 1.26,
-      "eval_loss": 2.653554677963257,
-      "eval_runtime": 138.5895,
-      "eval_samples_per_second": 13.493,
-      "step": 1400
-    },
-    {
-      "epoch": 1.44,
-      "learning_rate": 1.4755639097744361e-05,
-      "loss": 2.5588,
-      "step": 1600
-    },
-    {
-      "epoch": 1.44,
-      "eval_loss": 2.6523187160491943,
-      "eval_runtime": 138.5665,
-      "eval_samples_per_second": 13.495,
-      "step": 1600
-    },
-    {
-      "epoch": 1.62,
-      "learning_rate": 1.005639097744361e-05,
-      "loss": 2.5814,
-      "step": 1800
-    },
-    {
-      "epoch": 1.62,
-      "eval_loss": 2.64888858795166,
-      "eval_runtime": 138.6375,
-      "eval_samples_per_second": 13.488,
-      "step": 1800
-    },
-    {
-      "epoch": 1.8,
-      "learning_rate": 5.357142857142857e-06,
-      "loss": 2.569,
-      "step": 2000
-    },
-    {
-      "epoch": 1.8,
-      "eval_loss": 2.6475982666015625,
-      "eval_runtime": 138.5945,
-      "eval_samples_per_second": 13.493,
-      "step": 2000
-    },
-    {
-      "epoch": 1.97,
-      "learning_rate": 6.578947368421053e-07,
-      "loss": 2.5401,
-      "step": 2200
-    },
-    {
-      "epoch": 1.97,
-      "eval_loss": 2.6439733505249023,
-      "eval_runtime": 138.082,
-      "eval_samples_per_second": 13.543,
-      "step": 2200
-    }
-  ],
-  "max_steps": 2228,
-  "num_train_epochs": 2,
-  "total_flos": 2.691387690319872e+16,
-  "trial_name": null,
-  "trial_params": null
-}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f28fc4851c0fe326ff8bc868398e502a63697d53ab65c181be81540246f26330
-size 2351

 version https://git-lfs.github.com/spec/v1
+oid sha256:9242a2fd730a1a61211d2d4a4ccc8736864c1cb6da794b183154e8fa50fcde1a
+size 2287

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff