ErrorAI commited on
Commit
d25b196
·
verified ·
1 Parent(s): 17b001d

Training in progress, step 918, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:fb3724c874ea65782d8dcd4cb5c3209c89ff98f654f1190a20ab5fa9de8602ff
3
  size 4731640
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9fc08b3e12e93453c3437c5d80f8e665cbc6b1891b45b334267b216ac44adba1
3
  size 4731640
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:bbcbb0ae8f5791ad43b6585f30b8675ce7b11665e8aa85d4cd2b157c82c0a59d
3
  size 2505850
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:baefa897c80cb28f962d6f6c10e561afc3a6b3a5b81bfbbabc2cf29bbb7eef05
3
  size 2505850
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:eccaa3eca2e911dfe6c95134e6dab45713a2d23ff2880dd37ecc335fd49e8a8f
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c3510beba863a9deb50722a39a0fb21d656405f07be0052a6c1f899750afb4ec
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7e4c2fbcfa9fc7eb2f52e6e150e8b4f82c141787d028ff20f699dcb142cbe5fb
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ac062936ee06e2256ab1d2e8c72a29d901eb09b82eaa639f49140d904b17d3d4
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.7516339869281046,
5
  "eval_steps": 230,
6
- "global_step": 690,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -4869,6 +4869,1602 @@
4869
  "eval_samples_per_second": 145.229,
4870
  "eval_steps_per_second": 72.802,
4871
  "step": 690
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4872
  }
4873
  ],
4874
  "logging_steps": 1,
@@ -4883,12 +6479,12 @@
4883
  "should_evaluate": false,
4884
  "should_log": false,
4885
  "should_save": true,
4886
- "should_training_stop": false
4887
  },
4888
  "attributes": {}
4889
  }
4890
  },
4891
- "total_flos": 2341481805250560.0,
4892
  "train_batch_size": 2,
4893
  "trial_name": null,
4894
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.0,
5
  "eval_steps": 230,
6
+ "global_step": 918,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
4869
  "eval_samples_per_second": 145.229,
4870
  "eval_steps_per_second": 72.802,
4871
  "step": 690
4872
+ },
4873
+ {
4874
+ "epoch": 0.7527233115468409,
4875
+ "grad_norm": 880.0890502929688,
4876
+ "learning_rate": 2.9289321881345254e-05,
4877
+ "loss": 12.8765,
4878
+ "step": 691
4879
+ },
4880
+ {
4881
+ "epoch": 0.7538126361655774,
4882
+ "grad_norm": 1300.8441162109375,
4883
+ "learning_rate": 2.9045093461312258e-05,
4884
+ "loss": 12.9364,
4885
+ "step": 692
4886
+ },
4887
+ {
4888
+ "epoch": 0.7549019607843137,
4889
+ "grad_norm": 837.1845092773438,
4890
+ "learning_rate": 2.8801714436958416e-05,
4891
+ "loss": 11.9844,
4892
+ "step": 693
4893
+ },
4894
+ {
4895
+ "epoch": 0.7559912854030502,
4896
+ "grad_norm": 837.4990844726562,
4897
+ "learning_rate": 2.855918772175522e-05,
4898
+ "loss": 12.274,
4899
+ "step": 694
4900
+ },
4901
+ {
4902
+ "epoch": 0.7570806100217865,
4903
+ "grad_norm": 1010.6368408203125,
4904
+ "learning_rate": 2.8317516218971073e-05,
4905
+ "loss": 14.0263,
4906
+ "step": 695
4907
+ },
4908
+ {
4909
+ "epoch": 0.7581699346405228,
4910
+ "grad_norm": 691.3543701171875,
4911
+ "learning_rate": 2.8076702821636867e-05,
4912
+ "loss": 12.8702,
4913
+ "step": 696
4914
+ },
4915
+ {
4916
+ "epoch": 0.7592592592592593,
4917
+ "grad_norm": 884.868896484375,
4918
+ "learning_rate": 2.7836750412511016e-05,
4919
+ "loss": 13.9273,
4920
+ "step": 697
4921
+ },
4922
+ {
4923
+ "epoch": 0.7603485838779956,
4924
+ "grad_norm": 1038.74462890625,
4925
+ "learning_rate": 2.7597661864045233e-05,
4926
+ "loss": 13.7905,
4927
+ "step": 698
4928
+ },
4929
+ {
4930
+ "epoch": 0.761437908496732,
4931
+ "grad_norm": 861.4619140625,
4932
+ "learning_rate": 2.735944003834997e-05,
4933
+ "loss": 13.3323,
4934
+ "step": 699
4935
+ },
4936
+ {
4937
+ "epoch": 0.7625272331154684,
4938
+ "grad_norm": 781.8521118164062,
4939
+ "learning_rate": 2.7122087787160166e-05,
4940
+ "loss": 13.0336,
4941
+ "step": 700
4942
+ },
4943
+ {
4944
+ "epoch": 0.7636165577342048,
4945
+ "grad_norm": 1335.78076171875,
4946
+ "learning_rate": 2.688560795180126e-05,
4947
+ "loss": 12.7611,
4948
+ "step": 701
4949
+ },
4950
+ {
4951
+ "epoch": 0.7647058823529411,
4952
+ "grad_norm": 704.1229248046875,
4953
+ "learning_rate": 2.6650003363154963e-05,
4954
+ "loss": 13.3398,
4955
+ "step": 702
4956
+ },
4957
+ {
4958
+ "epoch": 0.7657952069716776,
4959
+ "grad_norm": 814.8448486328125,
4960
+ "learning_rate": 2.641527684162556e-05,
4961
+ "loss": 12.0726,
4962
+ "step": 703
4963
+ },
4964
+ {
4965
+ "epoch": 0.7668845315904139,
4966
+ "grad_norm": 866.6876220703125,
4967
+ "learning_rate": 2.6181431197105998e-05,
4968
+ "loss": 12.4249,
4969
+ "step": 704
4970
+ },
4971
+ {
4972
+ "epoch": 0.7679738562091504,
4973
+ "grad_norm": 820.3846435546875,
4974
+ "learning_rate": 2.5948469228944318e-05,
4975
+ "loss": 12.3404,
4976
+ "step": 705
4977
+ },
4978
+ {
4979
+ "epoch": 0.7690631808278867,
4980
+ "grad_norm": 1044.1195068359375,
4981
+ "learning_rate": 2.5716393725910215e-05,
4982
+ "loss": 12.7415,
4983
+ "step": 706
4984
+ },
4985
+ {
4986
+ "epoch": 0.7701525054466231,
4987
+ "grad_norm": 731.3047485351562,
4988
+ "learning_rate": 2.5485207466161466e-05,
4989
+ "loss": 12.301,
4990
+ "step": 707
4991
+ },
4992
+ {
4993
+ "epoch": 0.7712418300653595,
4994
+ "grad_norm": 996.6677856445312,
4995
+ "learning_rate": 2.5254913217210886e-05,
4996
+ "loss": 12.2375,
4997
+ "step": 708
4998
+ },
4999
+ {
5000
+ "epoch": 0.7723311546840959,
5001
+ "grad_norm": 1071.778076171875,
5002
+ "learning_rate": 2.5025513735893014e-05,
5003
+ "loss": 12.9786,
5004
+ "step": 709
5005
+ },
5006
+ {
5007
+ "epoch": 0.7734204793028322,
5008
+ "grad_norm": 694.3305053710938,
5009
+ "learning_rate": 2.47970117683313e-05,
5010
+ "loss": 12.5304,
5011
+ "step": 710
5012
+ },
5013
+ {
5014
+ "epoch": 0.7745098039215687,
5015
+ "grad_norm": 568.67626953125,
5016
+ "learning_rate": 2.4569410049905016e-05,
5017
+ "loss": 13.4328,
5018
+ "step": 711
5019
+ },
5020
+ {
5021
+ "epoch": 0.775599128540305,
5022
+ "grad_norm": 781.4323120117188,
5023
+ "learning_rate": 2.434271130521666e-05,
5024
+ "loss": 13.7223,
5025
+ "step": 712
5026
+ },
5027
+ {
5028
+ "epoch": 0.7766884531590414,
5029
+ "grad_norm": 707.454345703125,
5030
+ "learning_rate": 2.411691824805934e-05,
5031
+ "loss": 13.2585,
5032
+ "step": 713
5033
+ },
5034
+ {
5035
+ "epoch": 0.7777777777777778,
5036
+ "grad_norm": 662.977783203125,
5037
+ "learning_rate": 2.389203358138419e-05,
5038
+ "loss": 13.1885,
5039
+ "step": 714
5040
+ },
5041
+ {
5042
+ "epoch": 0.7788671023965141,
5043
+ "grad_norm": 1106.654296875,
5044
+ "learning_rate": 2.3668059997268144e-05,
5045
+ "loss": 12.8549,
5046
+ "step": 715
5047
+ },
5048
+ {
5049
+ "epoch": 0.7799564270152506,
5050
+ "grad_norm": 809.3428955078125,
5051
+ "learning_rate": 2.3445000176881537e-05,
5052
+ "loss": 13.6922,
5053
+ "step": 716
5054
+ },
5055
+ {
5056
+ "epoch": 0.7810457516339869,
5057
+ "grad_norm": 1407.9627685546875,
5058
+ "learning_rate": 2.3222856790456226e-05,
5059
+ "loss": 12.3901,
5060
+ "step": 717
5061
+ },
5062
+ {
5063
+ "epoch": 0.7821350762527233,
5064
+ "grad_norm": 1036.4595947265625,
5065
+ "learning_rate": 2.3001632497253424e-05,
5066
+ "loss": 14.0636,
5067
+ "step": 718
5068
+ },
5069
+ {
5070
+ "epoch": 0.7832244008714597,
5071
+ "grad_norm": 713.0249633789062,
5072
+ "learning_rate": 2.2781329945531936e-05,
5073
+ "loss": 13.3694,
5074
+ "step": 719
5075
+ },
5076
+ {
5077
+ "epoch": 0.7843137254901961,
5078
+ "grad_norm": 946.2935180664062,
5079
+ "learning_rate": 2.2561951772516587e-05,
5080
+ "loss": 12.7461,
5081
+ "step": 720
5082
+ },
5083
+ {
5084
+ "epoch": 0.7854030501089324,
5085
+ "grad_norm": 1000.2520751953125,
5086
+ "learning_rate": 2.2343500604366374e-05,
5087
+ "loss": 14.3916,
5088
+ "step": 721
5089
+ },
5090
+ {
5091
+ "epoch": 0.7864923747276689,
5092
+ "grad_norm": 1008.6942749023438,
5093
+ "learning_rate": 2.2125979056143364e-05,
5094
+ "loss": 13.3091,
5095
+ "step": 722
5096
+ },
5097
+ {
5098
+ "epoch": 0.7875816993464052,
5099
+ "grad_norm": 720.97314453125,
5100
+ "learning_rate": 2.190938973178105e-05,
5101
+ "loss": 12.963,
5102
+ "step": 723
5103
+ },
5104
+ {
5105
+ "epoch": 0.7886710239651417,
5106
+ "grad_norm": 704.6624145507812,
5107
+ "learning_rate": 2.169373522405349e-05,
5108
+ "loss": 13.3057,
5109
+ "step": 724
5110
+ },
5111
+ {
5112
+ "epoch": 0.789760348583878,
5113
+ "grad_norm": 944.1021728515625,
5114
+ "learning_rate": 2.1479018114544026e-05,
5115
+ "loss": 12.621,
5116
+ "step": 725
5117
+ },
5118
+ {
5119
+ "epoch": 0.7908496732026143,
5120
+ "grad_norm": 552.0089111328125,
5121
+ "learning_rate": 2.1265240973614486e-05,
5122
+ "loss": 12.7888,
5123
+ "step": 726
5124
+ },
5125
+ {
5126
+ "epoch": 0.7919389978213508,
5127
+ "grad_norm": 685.5350341796875,
5128
+ "learning_rate": 2.105240636037449e-05,
5129
+ "loss": 13.6543,
5130
+ "step": 727
5131
+ },
5132
+ {
5133
+ "epoch": 0.7930283224400871,
5134
+ "grad_norm": 627.4608764648438,
5135
+ "learning_rate": 2.0840516822650614e-05,
5136
+ "loss": 12.6445,
5137
+ "step": 728
5138
+ },
5139
+ {
5140
+ "epoch": 0.7941176470588235,
5141
+ "grad_norm": 645.2318725585938,
5142
+ "learning_rate": 2.0629574896956126e-05,
5143
+ "loss": 12.6309,
5144
+ "step": 729
5145
+ },
5146
+ {
5147
+ "epoch": 0.7952069716775599,
5148
+ "grad_norm": 888.5296630859375,
5149
+ "learning_rate": 2.0419583108460418e-05,
5150
+ "loss": 11.886,
5151
+ "step": 730
5152
+ },
5153
+ {
5154
+ "epoch": 0.7962962962962963,
5155
+ "grad_norm": 1192.0579833984375,
5156
+ "learning_rate": 2.0210543970958872e-05,
5157
+ "loss": 12.3713,
5158
+ "step": 731
5159
+ },
5160
+ {
5161
+ "epoch": 0.7973856209150327,
5162
+ "grad_norm": 635.3908081054688,
5163
+ "learning_rate": 2.0002459986842825e-05,
5164
+ "loss": 13.2216,
5165
+ "step": 732
5166
+ },
5167
+ {
5168
+ "epoch": 0.7984749455337691,
5169
+ "grad_norm": 657.1572265625,
5170
+ "learning_rate": 1.9795333647069448e-05,
5171
+ "loss": 12.6068,
5172
+ "step": 733
5173
+ },
5174
+ {
5175
+ "epoch": 0.7995642701525054,
5176
+ "grad_norm": 1367.3870849609375,
5177
+ "learning_rate": 1.958916743113214e-05,
5178
+ "loss": 12.8324,
5179
+ "step": 734
5180
+ },
5181
+ {
5182
+ "epoch": 0.8006535947712419,
5183
+ "grad_norm": 1032.5328369140625,
5184
+ "learning_rate": 1.93839638070306e-05,
5185
+ "loss": 12.6028,
5186
+ "step": 735
5187
+ },
5188
+ {
5189
+ "epoch": 0.8017429193899782,
5190
+ "grad_norm": 762.1034545898438,
5191
+ "learning_rate": 1.9179725231241564e-05,
5192
+ "loss": 12.5233,
5193
+ "step": 736
5194
+ },
5195
+ {
5196
+ "epoch": 0.8028322440087146,
5197
+ "grad_norm": 1431.1048583984375,
5198
+ "learning_rate": 1.8976454148689127e-05,
5199
+ "loss": 12.9953,
5200
+ "step": 737
5201
+ },
5202
+ {
5203
+ "epoch": 0.803921568627451,
5204
+ "grad_norm": 1034.8011474609375,
5205
+ "learning_rate": 1.877415299271561e-05,
5206
+ "loss": 13.2373,
5207
+ "step": 738
5208
+ },
5209
+ {
5210
+ "epoch": 0.8050108932461874,
5211
+ "grad_norm": 752.5025024414062,
5212
+ "learning_rate": 1.857282418505253e-05,
5213
+ "loss": 13.1138,
5214
+ "step": 739
5215
+ },
5216
+ {
5217
+ "epoch": 0.8061002178649237,
5218
+ "grad_norm": 911.1949462890625,
5219
+ "learning_rate": 1.8372470135791344e-05,
5220
+ "loss": 12.7149,
5221
+ "step": 740
5222
+ },
5223
+ {
5224
+ "epoch": 0.8071895424836601,
5225
+ "grad_norm": 1050.7984619140625,
5226
+ "learning_rate": 1.8173093243354878e-05,
5227
+ "loss": 12.862,
5228
+ "step": 741
5229
+ },
5230
+ {
5231
+ "epoch": 0.8082788671023965,
5232
+ "grad_norm": 943.8112182617188,
5233
+ "learning_rate": 1.7974695894468384e-05,
5234
+ "loss": 12.6691,
5235
+ "step": 742
5236
+ },
5237
+ {
5238
+ "epoch": 0.809368191721133,
5239
+ "grad_norm": 860.751708984375,
5240
+ "learning_rate": 1.7777280464131197e-05,
5241
+ "loss": 12.9838,
5242
+ "step": 743
5243
+ },
5244
+ {
5245
+ "epoch": 0.8104575163398693,
5246
+ "grad_norm": 812.5382690429688,
5247
+ "learning_rate": 1.7580849315588068e-05,
5248
+ "loss": 12.5751,
5249
+ "step": 744
5250
+ },
5251
+ {
5252
+ "epoch": 0.8115468409586056,
5253
+ "grad_norm": 684.0803833007812,
5254
+ "learning_rate": 1.7385404800301007e-05,
5255
+ "loss": 12.6821,
5256
+ "step": 745
5257
+ },
5258
+ {
5259
+ "epoch": 0.8126361655773421,
5260
+ "grad_norm": 637.1691284179688,
5261
+ "learning_rate": 1.7190949257921196e-05,
5262
+ "loss": 12.704,
5263
+ "step": 746
5264
+ },
5265
+ {
5266
+ "epoch": 0.8137254901960784,
5267
+ "grad_norm": 1279.00146484375,
5268
+ "learning_rate": 1.6997485016260793e-05,
5269
+ "loss": 13.6321,
5270
+ "step": 747
5271
+ },
5272
+ {
5273
+ "epoch": 0.8148148148148148,
5274
+ "grad_norm": 1138.228515625,
5275
+ "learning_rate": 1.680501439126525e-05,
5276
+ "loss": 12.3677,
5277
+ "step": 748
5278
+ },
5279
+ {
5280
+ "epoch": 0.8159041394335512,
5281
+ "grad_norm": 718.772705078125,
5282
+ "learning_rate": 1.6613539686985458e-05,
5283
+ "loss": 13.3372,
5284
+ "step": 749
5285
+ },
5286
+ {
5287
+ "epoch": 0.8169934640522876,
5288
+ "grad_norm": 960.2557373046875,
5289
+ "learning_rate": 1.642306319555027e-05,
5290
+ "loss": 11.9433,
5291
+ "step": 750
5292
+ },
5293
+ {
5294
+ "epoch": 0.818082788671024,
5295
+ "grad_norm": 745.1720581054688,
5296
+ "learning_rate": 1.6233587197138968e-05,
5297
+ "loss": 11.8539,
5298
+ "step": 751
5299
+ },
5300
+ {
5301
+ "epoch": 0.8191721132897604,
5302
+ "grad_norm": 837.4060668945312,
5303
+ "learning_rate": 1.6045113959953985e-05,
5304
+ "loss": 12.3409,
5305
+ "step": 752
5306
+ },
5307
+ {
5308
+ "epoch": 0.8202614379084967,
5309
+ "grad_norm": 854.7937622070312,
5310
+ "learning_rate": 1.585764574019388e-05,
5311
+ "loss": 13.3537,
5312
+ "step": 753
5313
+ },
5314
+ {
5315
+ "epoch": 0.8213507625272332,
5316
+ "grad_norm": 879.7656860351562,
5317
+ "learning_rate": 1.5671184782026106e-05,
5318
+ "loss": 12.7348,
5319
+ "step": 754
5320
+ },
5321
+ {
5322
+ "epoch": 0.8224400871459695,
5323
+ "grad_norm": 941.7662353515625,
5324
+ "learning_rate": 1.548573331756038e-05,
5325
+ "loss": 12.8492,
5326
+ "step": 755
5327
+ },
5328
+ {
5329
+ "epoch": 0.8235294117647058,
5330
+ "grad_norm": 926.8936767578125,
5331
+ "learning_rate": 1.530129356682175e-05,
5332
+ "loss": 12.8661,
5333
+ "step": 756
5334
+ },
5335
+ {
5336
+ "epoch": 0.8246187363834423,
5337
+ "grad_norm": 1937.478271484375,
5338
+ "learning_rate": 1.5117867737724134e-05,
5339
+ "loss": 12.9826,
5340
+ "step": 757
5341
+ },
5342
+ {
5343
+ "epoch": 0.8257080610021786,
5344
+ "grad_norm": 909.1730346679688,
5345
+ "learning_rate": 1.4935458026043959e-05,
5346
+ "loss": 11.884,
5347
+ "step": 758
5348
+ },
5349
+ {
5350
+ "epoch": 0.826797385620915,
5351
+ "grad_norm": 833.2159423828125,
5352
+ "learning_rate": 1.4754066615393668e-05,
5353
+ "loss": 13.1729,
5354
+ "step": 759
5355
+ },
5356
+ {
5357
+ "epoch": 0.8278867102396514,
5358
+ "grad_norm": 1762.9833984375,
5359
+ "learning_rate": 1.457369567719581e-05,
5360
+ "loss": 12.5088,
5361
+ "step": 760
5362
+ },
5363
+ {
5364
+ "epoch": 0.8289760348583878,
5365
+ "grad_norm": 774.0321044921875,
5366
+ "learning_rate": 1.4394347370656836e-05,
5367
+ "loss": 12.6099,
5368
+ "step": 761
5369
+ },
5370
+ {
5371
+ "epoch": 0.8300653594771242,
5372
+ "grad_norm": 833.3447875976562,
5373
+ "learning_rate": 1.4216023842741455e-05,
5374
+ "loss": 11.8071,
5375
+ "step": 762
5376
+ },
5377
+ {
5378
+ "epoch": 0.8311546840958606,
5379
+ "grad_norm": 659.9131469726562,
5380
+ "learning_rate": 1.4038727228146753e-05,
5381
+ "loss": 12.0735,
5382
+ "step": 763
5383
+ },
5384
+ {
5385
+ "epoch": 0.8322440087145969,
5386
+ "grad_norm": 888.9996948242188,
5387
+ "learning_rate": 1.3862459649276715e-05,
5388
+ "loss": 12.47,
5389
+ "step": 764
5390
+ },
5391
+ {
5392
+ "epoch": 0.8333333333333334,
5393
+ "grad_norm": 759.5191040039062,
5394
+ "learning_rate": 1.3687223216216904e-05,
5395
+ "loss": 12.5613,
5396
+ "step": 765
5397
+ },
5398
+ {
5399
+ "epoch": 0.8344226579520697,
5400
+ "grad_norm": 805.9093627929688,
5401
+ "learning_rate": 1.3513020026709023e-05,
5402
+ "loss": 12.0561,
5403
+ "step": 766
5404
+ },
5405
+ {
5406
+ "epoch": 0.835511982570806,
5407
+ "grad_norm": 763.7495727539062,
5408
+ "learning_rate": 1.3339852166125954e-05,
5409
+ "loss": 12.959,
5410
+ "step": 767
5411
+ },
5412
+ {
5413
+ "epoch": 0.8366013071895425,
5414
+ "grad_norm": 610.1506958007812,
5415
+ "learning_rate": 1.3167721707446678e-05,
5416
+ "loss": 12.2513,
5417
+ "step": 768
5418
+ },
5419
+ {
5420
+ "epoch": 0.8376906318082789,
5421
+ "grad_norm": 958.7525634765625,
5422
+ "learning_rate": 1.2996630711231616e-05,
5423
+ "loss": 14.1049,
5424
+ "step": 769
5425
+ },
5426
+ {
5427
+ "epoch": 0.8387799564270153,
5428
+ "grad_norm": 1156.2576904296875,
5429
+ "learning_rate": 1.2826581225597767e-05,
5430
+ "loss": 12.8887,
5431
+ "step": 770
5432
+ },
5433
+ {
5434
+ "epoch": 0.8398692810457516,
5435
+ "grad_norm": 1074.29345703125,
5436
+ "learning_rate": 1.26575752861943e-05,
5437
+ "loss": 13.7254,
5438
+ "step": 771
5439
+ },
5440
+ {
5441
+ "epoch": 0.840958605664488,
5442
+ "grad_norm": 1287.4105224609375,
5443
+ "learning_rate": 1.248961491617826e-05,
5444
+ "loss": 13.033,
5445
+ "step": 772
5446
+ },
5447
+ {
5448
+ "epoch": 0.8420479302832244,
5449
+ "grad_norm": 945.987548828125,
5450
+ "learning_rate": 1.2322702126190156e-05,
5451
+ "loss": 11.7015,
5452
+ "step": 773
5453
+ },
5454
+ {
5455
+ "epoch": 0.8431372549019608,
5456
+ "grad_norm": 763.9169921875,
5457
+ "learning_rate": 1.2156838914330072e-05,
5458
+ "loss": 12.8775,
5459
+ "step": 774
5460
+ },
5461
+ {
5462
+ "epoch": 0.8442265795206971,
5463
+ "grad_norm": 869.27880859375,
5464
+ "learning_rate": 1.1992027266133598e-05,
5465
+ "loss": 12.8051,
5466
+ "step": 775
5467
+ },
5468
+ {
5469
+ "epoch": 0.8453159041394336,
5470
+ "grad_norm": 919.6107177734375,
5471
+ "learning_rate": 1.1828269154548244e-05,
5472
+ "loss": 12.7364,
5473
+ "step": 776
5474
+ },
5475
+ {
5476
+ "epoch": 0.8464052287581699,
5477
+ "grad_norm": 840.4449462890625,
5478
+ "learning_rate": 1.1665566539909623e-05,
5479
+ "loss": 12.2462,
5480
+ "step": 777
5481
+ },
5482
+ {
5483
+ "epoch": 0.8474945533769063,
5484
+ "grad_norm": 875.924072265625,
5485
+ "learning_rate": 1.1503921369918091e-05,
5486
+ "loss": 12.9855,
5487
+ "step": 778
5488
+ },
5489
+ {
5490
+ "epoch": 0.8485838779956427,
5491
+ "grad_norm": 2267.00927734375,
5492
+ "learning_rate": 1.1343335579615467e-05,
5493
+ "loss": 12.9955,
5494
+ "step": 779
5495
+ },
5496
+ {
5497
+ "epoch": 0.8496732026143791,
5498
+ "grad_norm": 934.5510864257812,
5499
+ "learning_rate": 1.118381109136174e-05,
5500
+ "loss": 12.6251,
5501
+ "step": 780
5502
+ },
5503
+ {
5504
+ "epoch": 0.8507625272331155,
5505
+ "grad_norm": 599.7080078125,
5506
+ "learning_rate": 1.1025349814812224e-05,
5507
+ "loss": 12.7546,
5508
+ "step": 781
5509
+ },
5510
+ {
5511
+ "epoch": 0.8518518518518519,
5512
+ "grad_norm": 1287.09912109375,
5513
+ "learning_rate": 1.0867953646894525e-05,
5514
+ "loss": 12.8024,
5515
+ "step": 782
5516
+ },
5517
+ {
5518
+ "epoch": 0.8529411764705882,
5519
+ "grad_norm": 924.6251831054688,
5520
+ "learning_rate": 1.0711624471785986e-05,
5521
+ "loss": 12.9911,
5522
+ "step": 783
5523
+ },
5524
+ {
5525
+ "epoch": 0.8540305010893247,
5526
+ "grad_norm": 904.363525390625,
5527
+ "learning_rate": 1.055636416089102e-05,
5528
+ "loss": 13.8365,
5529
+ "step": 784
5530
+ },
5531
+ {
5532
+ "epoch": 0.855119825708061,
5533
+ "grad_norm": 998.8102416992188,
5534
+ "learning_rate": 1.0402174572818723e-05,
5535
+ "loss": 11.9683,
5536
+ "step": 785
5537
+ },
5538
+ {
5539
+ "epoch": 0.8562091503267973,
5540
+ "grad_norm": 890.9308471679688,
5541
+ "learning_rate": 1.0249057553360742e-05,
5542
+ "loss": 12.8672,
5543
+ "step": 786
5544
+ },
5545
+ {
5546
+ "epoch": 0.8572984749455338,
5547
+ "grad_norm": 944.108642578125,
5548
+ "learning_rate": 1.0097014935468984e-05,
5549
+ "loss": 13.2105,
5550
+ "step": 787
5551
+ },
5552
+ {
5553
+ "epoch": 0.8583877995642701,
5554
+ "grad_norm": 956.6070556640625,
5555
+ "learning_rate": 9.946048539233865e-06,
5556
+ "loss": 12.8339,
5557
+ "step": 788
5558
+ },
5559
+ {
5560
+ "epoch": 0.8594771241830066,
5561
+ "grad_norm": 783.9725341796875,
5562
+ "learning_rate": 9.796160171862367e-06,
5563
+ "loss": 12.0513,
5564
+ "step": 789
5565
+ },
5566
+ {
5567
+ "epoch": 0.8605664488017429,
5568
+ "grad_norm": 678.079833984375,
5569
+ "learning_rate": 9.647351627656543e-06,
5570
+ "loss": 12.4566,
5571
+ "step": 790
5572
+ },
5573
+ {
5574
+ "epoch": 0.8616557734204793,
5575
+ "grad_norm": 795.08154296875,
5576
+ "learning_rate": 9.499624687991871e-06,
5577
+ "loss": 13.0777,
5578
+ "step": 791
5579
+ },
5580
+ {
5581
+ "epoch": 0.8627450980392157,
5582
+ "grad_norm": 1114.5704345703125,
5583
+ "learning_rate": 9.352981121296134e-06,
5584
+ "loss": 12.3807,
5585
+ "step": 792
5586
+ },
5587
+ {
5588
+ "epoch": 0.8638344226579521,
5589
+ "grad_norm": 810.4409790039062,
5590
+ "learning_rate": 9.207422683028066e-06,
5591
+ "loss": 12.0099,
5592
+ "step": 793
5593
+ },
5594
+ {
5595
+ "epoch": 0.8649237472766884,
5596
+ "grad_norm": 659.8233642578125,
5597
+ "learning_rate": 9.062951115656403e-06,
5598
+ "loss": 12.5349,
5599
+ "step": 794
5600
+ },
5601
+ {
5602
+ "epoch": 0.8660130718954249,
5603
+ "grad_norm": 858.1024780273438,
5604
+ "learning_rate": 8.919568148639123e-06,
5605
+ "loss": 12.1748,
5606
+ "step": 795
5607
+ },
5608
+ {
5609
+ "epoch": 0.8671023965141612,
5610
+ "grad_norm": 888.814453125,
5611
+ "learning_rate": 8.777275498402548e-06,
5612
+ "loss": 12.9867,
5613
+ "step": 796
5614
+ },
5615
+ {
5616
+ "epoch": 0.8681917211328976,
5617
+ "grad_norm": 845.94140625,
5618
+ "learning_rate": 8.636074868320987e-06,
5619
+ "loss": 13.1836,
5620
+ "step": 797
5621
+ },
5622
+ {
5623
+ "epoch": 0.869281045751634,
5624
+ "grad_norm": 970.3507080078125,
5625
+ "learning_rate": 8.495967948696192e-06,
5626
+ "loss": 11.6568,
5627
+ "step": 798
5628
+ },
5629
+ {
5630
+ "epoch": 0.8703703703703703,
5631
+ "grad_norm": 865.5740966796875,
5632
+ "learning_rate": 8.35695641673725e-06,
5633
+ "loss": 12.0325,
5634
+ "step": 799
5635
+ },
5636
+ {
5637
+ "epoch": 0.8714596949891068,
5638
+ "grad_norm": 916.9160766601562,
5639
+ "learning_rate": 8.219041936540395e-06,
5640
+ "loss": 13.141,
5641
+ "step": 800
5642
+ },
5643
+ {
5644
+ "epoch": 0.8725490196078431,
5645
+ "grad_norm": 746.8594970703125,
5646
+ "learning_rate": 8.082226159069196e-06,
5647
+ "loss": 13.3162,
5648
+ "step": 801
5649
+ },
5650
+ {
5651
+ "epoch": 0.8736383442265795,
5652
+ "grad_norm": 847.8311157226562,
5653
+ "learning_rate": 7.946510722134692e-06,
5654
+ "loss": 12.9385,
5655
+ "step": 802
5656
+ },
5657
+ {
5658
+ "epoch": 0.8747276688453159,
5659
+ "grad_norm": 1479.700439453125,
5660
+ "learning_rate": 7.811897250375833e-06,
5661
+ "loss": 13.0996,
5662
+ "step": 803
5663
+ },
5664
+ {
5665
+ "epoch": 0.8758169934640523,
5666
+ "grad_norm": 983.4318237304688,
5667
+ "learning_rate": 7.678387355240057e-06,
5668
+ "loss": 13.556,
5669
+ "step": 804
5670
+ },
5671
+ {
5672
+ "epoch": 0.8769063180827886,
5673
+ "grad_norm": 1585.536376953125,
5674
+ "learning_rate": 7.5459826349639436e-06,
5675
+ "loss": 13.0711,
5676
+ "step": 805
5677
+ },
5678
+ {
5679
+ "epoch": 0.8779956427015251,
5680
+ "grad_norm": 818.268310546875,
5681
+ "learning_rate": 7.4146846745541506e-06,
5682
+ "loss": 12.364,
5683
+ "step": 806
5684
+ },
5685
+ {
5686
+ "epoch": 0.8790849673202614,
5687
+ "grad_norm": 732.67626953125,
5688
+ "learning_rate": 7.284495045768325e-06,
5689
+ "loss": 11.9299,
5690
+ "step": 807
5691
+ },
5692
+ {
5693
+ "epoch": 0.8801742919389978,
5694
+ "grad_norm": 785.660888671875,
5695
+ "learning_rate": 7.155415307096458e-06,
5696
+ "loss": 13.0072,
5697
+ "step": 808
5698
+ },
5699
+ {
5700
+ "epoch": 0.8812636165577342,
5701
+ "grad_norm": 1017.672607421875,
5702
+ "learning_rate": 7.027447003742071e-06,
5703
+ "loss": 11.7492,
5704
+ "step": 809
5705
+ },
5706
+ {
5707
+ "epoch": 0.8823529411764706,
5708
+ "grad_norm": 961.2965087890625,
5709
+ "learning_rate": 6.900591667603751e-06,
5710
+ "loss": 12.7767,
5711
+ "step": 810
5712
+ },
5713
+ {
5714
+ "epoch": 0.883442265795207,
5715
+ "grad_norm": 742.8497314453125,
5716
+ "learning_rate": 6.774850817256939e-06,
5717
+ "loss": 11.4043,
5718
+ "step": 811
5719
+ },
5720
+ {
5721
+ "epoch": 0.8845315904139434,
5722
+ "grad_norm": 624.9981079101562,
5723
+ "learning_rate": 6.650225957935552e-06,
5724
+ "loss": 12.2672,
5725
+ "step": 812
5726
+ },
5727
+ {
5728
+ "epoch": 0.8856209150326797,
5729
+ "grad_norm": 779.7870483398438,
5730
+ "learning_rate": 6.5267185815141355e-06,
5731
+ "loss": 11.9513,
5732
+ "step": 813
5733
+ },
5734
+ {
5735
+ "epoch": 0.8867102396514162,
5736
+ "grad_norm": 1622.0540771484375,
5737
+ "learning_rate": 6.40433016648988e-06,
5738
+ "loss": 13.6973,
5739
+ "step": 814
5740
+ },
5741
+ {
5742
+ "epoch": 0.8877995642701525,
5743
+ "grad_norm": 1286.1015625,
5744
+ "learning_rate": 6.283062177965038e-06,
5745
+ "loss": 11.6033,
5746
+ "step": 815
5747
+ },
5748
+ {
5749
+ "epoch": 0.8888888888888888,
5750
+ "grad_norm": 1373.9736328125,
5751
+ "learning_rate": 6.162916067629254e-06,
5752
+ "loss": 13.2463,
5753
+ "step": 816
5754
+ },
5755
+ {
5756
+ "epoch": 0.8899782135076253,
5757
+ "grad_norm": 1360.0540771484375,
5758
+ "learning_rate": 6.043893273742329e-06,
5759
+ "loss": 11.335,
5760
+ "step": 817
5761
+ },
5762
+ {
5763
+ "epoch": 0.8910675381263616,
5764
+ "grad_norm": 1296.9820556640625,
5765
+ "learning_rate": 5.925995221116853e-06,
5766
+ "loss": 12.4607,
5767
+ "step": 818
5768
+ },
5769
+ {
5770
+ "epoch": 0.8921568627450981,
5771
+ "grad_norm": 1495.9398193359375,
5772
+ "learning_rate": 5.809223321101276e-06,
5773
+ "loss": 11.7732,
5774
+ "step": 819
5775
+ },
5776
+ {
5777
+ "epoch": 0.8932461873638344,
5778
+ "grad_norm": 880.9378662109375,
5779
+ "learning_rate": 5.693578971562963e-06,
5780
+ "loss": 12.8642,
5781
+ "step": 820
5782
+ },
5783
+ {
5784
+ "epoch": 0.8943355119825708,
5785
+ "grad_norm": 1063.22216796875,
5786
+ "learning_rate": 5.5790635568714224e-06,
5787
+ "loss": 12.4356,
5788
+ "step": 821
5789
+ },
5790
+ {
5791
+ "epoch": 0.8954248366013072,
5792
+ "grad_norm": 657.4075927734375,
5793
+ "learning_rate": 5.465678447881828e-06,
5794
+ "loss": 12.4044,
5795
+ "step": 822
5796
+ },
5797
+ {
5798
+ "epoch": 0.8965141612200436,
5799
+ "grad_norm": 1261.831787109375,
5800
+ "learning_rate": 5.3534250019184774e-06,
5801
+ "loss": 13.5235,
5802
+ "step": 823
5803
+ },
5804
+ {
5805
+ "epoch": 0.8976034858387799,
5806
+ "grad_norm": 601.0888061523438,
5807
+ "learning_rate": 5.242304562758704e-06,
5808
+ "loss": 11.9985,
5809
+ "step": 824
5810
+ },
5811
+ {
5812
+ "epoch": 0.8986928104575164,
5813
+ "grad_norm": 781.6649780273438,
5814
+ "learning_rate": 5.132318460616625e-06,
5815
+ "loss": 11.9329,
5816
+ "step": 825
5817
+ },
5818
+ {
5819
+ "epoch": 0.8997821350762527,
5820
+ "grad_norm": 1356.27294921875,
5821
+ "learning_rate": 5.023468012127364e-06,
5822
+ "loss": 12.6829,
5823
+ "step": 826
5824
+ },
5825
+ {
5826
+ "epoch": 0.900871459694989,
5827
+ "grad_norm": 929.7411499023438,
5828
+ "learning_rate": 4.915754520331173e-06,
5829
+ "loss": 11.9567,
5830
+ "step": 827
5831
+ },
5832
+ {
5833
+ "epoch": 0.9019607843137255,
5834
+ "grad_norm": 1020.9713745117188,
5835
+ "learning_rate": 4.8091792746578935e-06,
5836
+ "loss": 11.6725,
5837
+ "step": 828
5838
+ },
5839
+ {
5840
+ "epoch": 0.9030501089324618,
5841
+ "grad_norm": 741.8558349609375,
5842
+ "learning_rate": 4.703743550911543e-06,
5843
+ "loss": 12.448,
5844
+ "step": 829
5845
+ },
5846
+ {
5847
+ "epoch": 0.9041394335511983,
5848
+ "grad_norm": 637.9666137695312,
5849
+ "learning_rate": 4.599448611254964e-06,
5850
+ "loss": 12.7454,
5851
+ "step": 830
5852
+ },
5853
+ {
5854
+ "epoch": 0.9052287581699346,
5855
+ "grad_norm": 1003.8346557617188,
5856
+ "learning_rate": 4.496295704194819e-06,
5857
+ "loss": 13.0511,
5858
+ "step": 831
5859
+ },
5860
+ {
5861
+ "epoch": 0.906318082788671,
5862
+ "grad_norm": 819.62451171875,
5863
+ "learning_rate": 4.394286064566511e-06,
5864
+ "loss": 13.2029,
5865
+ "step": 832
5866
+ },
5867
+ {
5868
+ "epoch": 0.9074074074074074,
5869
+ "grad_norm": 1023.1488647460938,
5870
+ "learning_rate": 4.293420913519541e-06,
5871
+ "loss": 12.9151,
5872
+ "step": 833
5873
+ },
5874
+ {
5875
+ "epoch": 0.9084967320261438,
5876
+ "grad_norm": 788.2391967773438,
5877
+ "learning_rate": 4.193701458502807e-06,
5878
+ "loss": 12.7021,
5879
+ "step": 834
5880
+ },
5881
+ {
5882
+ "epoch": 0.9095860566448801,
5883
+ "grad_norm": 837.283447265625,
5884
+ "learning_rate": 4.095128893250156e-06,
5885
+ "loss": 13.0428,
5886
+ "step": 835
5887
+ },
5888
+ {
5889
+ "epoch": 0.9106753812636166,
5890
+ "grad_norm": 1206.6253662109375,
5891
+ "learning_rate": 3.997704397766122e-06,
5892
+ "loss": 12.3555,
5893
+ "step": 836
5894
+ },
5895
+ {
5896
+ "epoch": 0.9117647058823529,
5897
+ "grad_norm": 856.0335083007812,
5898
+ "learning_rate": 3.901429138311763e-06,
5899
+ "loss": 12.2161,
5900
+ "step": 837
5901
+ },
5902
+ {
5903
+ "epoch": 0.9128540305010894,
5904
+ "grad_norm": 840.4730834960938,
5905
+ "learning_rate": 3.80630426739077e-06,
5906
+ "loss": 12.3642,
5907
+ "step": 838
5908
+ },
5909
+ {
5910
+ "epoch": 0.9139433551198257,
5911
+ "grad_norm": 767.2365112304688,
5912
+ "learning_rate": 3.712330923735563e-06,
5913
+ "loss": 12.338,
5914
+ "step": 839
5915
+ },
5916
+ {
5917
+ "epoch": 0.9150326797385621,
5918
+ "grad_norm": 844.8609619140625,
5919
+ "learning_rate": 3.6195102322937545e-06,
5920
+ "loss": 12.4701,
5921
+ "step": 840
5922
+ },
5923
+ {
5924
+ "epoch": 0.9161220043572985,
5925
+ "grad_norm": 808.1879272460938,
5926
+ "learning_rate": 3.5278433042146397e-06,
5927
+ "loss": 12.4012,
5928
+ "step": 841
5929
+ },
5930
+ {
5931
+ "epoch": 0.9172113289760349,
5932
+ "grad_norm": 787.5524291992188,
5933
+ "learning_rate": 3.4373312368358944e-06,
5934
+ "loss": 12.1528,
5935
+ "step": 842
5936
+ },
5937
+ {
5938
+ "epoch": 0.9183006535947712,
5939
+ "grad_norm": 861.0357666015625,
5940
+ "learning_rate": 3.347975113670454e-06,
5941
+ "loss": 13.0016,
5942
+ "step": 843
5943
+ },
5944
+ {
5945
+ "epoch": 0.9193899782135077,
5946
+ "grad_norm": 1098.5736083984375,
5947
+ "learning_rate": 3.259776004393533e-06,
5948
+ "loss": 12.3925,
5949
+ "step": 844
5950
+ },
5951
+ {
5952
+ "epoch": 0.920479302832244,
5953
+ "grad_norm": 1017.1472778320312,
5954
+ "learning_rate": 3.1727349648298267e-06,
5955
+ "loss": 13.2196,
5956
+ "step": 845
5957
+ },
5958
+ {
5959
+ "epoch": 0.9215686274509803,
5960
+ "grad_norm": 729.2058715820312,
5961
+ "learning_rate": 3.086853036940862e-06,
5962
+ "loss": 11.8512,
5963
+ "step": 846
5964
+ },
5965
+ {
5966
+ "epoch": 0.9226579520697168,
5967
+ "grad_norm": 809.0467529296875,
5968
+ "learning_rate": 3.0021312488125454e-06,
5969
+ "loss": 11.8526,
5970
+ "step": 847
5971
+ },
5972
+ {
5973
+ "epoch": 0.9237472766884531,
5974
+ "grad_norm": 948.0686645507812,
5975
+ "learning_rate": 2.9185706146428017e-06,
5976
+ "loss": 12.4416,
5977
+ "step": 848
5978
+ },
5979
+ {
5980
+ "epoch": 0.9248366013071896,
5981
+ "grad_norm": 631.7981567382812,
5982
+ "learning_rate": 2.836172134729509e-06,
5983
+ "loss": 12.836,
5984
+ "step": 849
5985
+ },
5986
+ {
5987
+ "epoch": 0.9259259259259259,
5988
+ "grad_norm": 641.8875732421875,
5989
+ "learning_rate": 2.754936795458485e-06,
5990
+ "loss": 12.6921,
5991
+ "step": 850
5992
+ },
5993
+ {
5994
+ "epoch": 0.9270152505446623,
5995
+ "grad_norm": 860.4398803710938,
5996
+ "learning_rate": 2.674865569291651e-06,
5997
+ "loss": 13.6532,
5998
+ "step": 851
5999
+ },
6000
+ {
6001
+ "epoch": 0.9281045751633987,
6002
+ "grad_norm": 760.2114868164062,
6003
+ "learning_rate": 2.5959594147554667e-06,
6004
+ "loss": 13.178,
6005
+ "step": 852
6006
+ },
6007
+ {
6008
+ "epoch": 0.9291938997821351,
6009
+ "grad_norm": 1154.3988037109375,
6010
+ "learning_rate": 2.5182192764293567e-06,
6011
+ "loss": 12.716,
6012
+ "step": 853
6013
+ },
6014
+ {
6015
+ "epoch": 0.9302832244008714,
6016
+ "grad_norm": 762.8448486328125,
6017
+ "learning_rate": 2.4416460849345123e-06,
6018
+ "loss": 12.5605,
6019
+ "step": 854
6020
+ },
6021
+ {
6022
+ "epoch": 0.9313725490196079,
6023
+ "grad_norm": 1097.0977783203125,
6024
+ "learning_rate": 2.366240756922644e-06,
6025
+ "loss": 12.0626,
6026
+ "step": 855
6027
+ },
6028
+ {
6029
+ "epoch": 0.9324618736383442,
6030
+ "grad_norm": 989.987060546875,
6031
+ "learning_rate": 2.2920041950650783e-06,
6032
+ "loss": 12.1056,
6033
+ "step": 856
6034
+ },
6035
+ {
6036
+ "epoch": 0.9335511982570807,
6037
+ "grad_norm": 761.228271484375,
6038
+ "learning_rate": 2.218937288041956e-06,
6039
+ "loss": 12.0653,
6040
+ "step": 857
6041
+ },
6042
+ {
6043
+ "epoch": 0.934640522875817,
6044
+ "grad_norm": 698.48486328125,
6045
+ "learning_rate": 2.1470409105315283e-06,
6046
+ "loss": 12.689,
6047
+ "step": 858
6048
+ },
6049
+ {
6050
+ "epoch": 0.9357298474945533,
6051
+ "grad_norm": 1059.8203125,
6052
+ "learning_rate": 2.0763159231997674e-06,
6053
+ "loss": 12.268,
6054
+ "step": 859
6055
+ },
6056
+ {
6057
+ "epoch": 0.9368191721132898,
6058
+ "grad_norm": 1506.7076416015625,
6059
+ "learning_rate": 2.0067631726899962e-06,
6060
+ "loss": 13.0918,
6061
+ "step": 860
6062
+ },
6063
+ {
6064
+ "epoch": 0.9379084967320261,
6065
+ "grad_norm": 686.2244262695312,
6066
+ "learning_rate": 1.938383491612794e-06,
6067
+ "loss": 13.2276,
6068
+ "step": 861
6069
+ },
6070
+ {
6071
+ "epoch": 0.9389978213507625,
6072
+ "grad_norm": 1398.2288818359375,
6073
+ "learning_rate": 1.8711776985360308e-06,
6074
+ "loss": 12.4386,
6075
+ "step": 862
6076
+ },
6077
+ {
6078
+ "epoch": 0.9400871459694989,
6079
+ "grad_norm": 787.7633666992188,
6080
+ "learning_rate": 1.805146597975016e-06,
6081
+ "loss": 12.0259,
6082
+ "step": 863
6083
+ },
6084
+ {
6085
+ "epoch": 0.9411764705882353,
6086
+ "grad_norm": 1021.8810424804688,
6087
+ "learning_rate": 1.7402909803829525e-06,
6088
+ "loss": 13.2275,
6089
+ "step": 864
6090
+ },
6091
+ {
6092
+ "epoch": 0.9422657952069716,
6093
+ "grad_norm": 724.1331176757812,
6094
+ "learning_rate": 1.6766116221413774e-06,
6095
+ "loss": 12.9674,
6096
+ "step": 865
6097
+ },
6098
+ {
6099
+ "epoch": 0.9433551198257081,
6100
+ "grad_norm": 889.06201171875,
6101
+ "learning_rate": 1.61410928555098e-06,
6102
+ "loss": 12.9815,
6103
+ "step": 866
6104
+ },
6105
+ {
6106
+ "epoch": 0.9444444444444444,
6107
+ "grad_norm": 694.7861938476562,
6108
+ "learning_rate": 1.5527847188223644e-06,
6109
+ "loss": 11.78,
6110
+ "step": 867
6111
+ },
6112
+ {
6113
+ "epoch": 0.9455337690631809,
6114
+ "grad_norm": 1126.9815673828125,
6115
+ "learning_rate": 1.4926386560671358e-06,
6116
+ "loss": 13.2658,
6117
+ "step": 868
6118
+ },
6119
+ {
6120
+ "epoch": 0.9466230936819172,
6121
+ "grad_norm": 1251.4708251953125,
6122
+ "learning_rate": 1.433671817289184e-06,
6123
+ "loss": 13.5727,
6124
+ "step": 869
6125
+ },
6126
+ {
6127
+ "epoch": 0.9477124183006536,
6128
+ "grad_norm": 928.8302001953125,
6129
+ "learning_rate": 1.3758849083759352e-06,
6130
+ "loss": 12.5813,
6131
+ "step": 870
6132
+ },
6133
+ {
6134
+ "epoch": 0.94880174291939,
6135
+ "grad_norm": 906.8268432617188,
6136
+ "learning_rate": 1.3192786210900033e-06,
6137
+ "loss": 12.3939,
6138
+ "step": 871
6139
+ },
6140
+ {
6141
+ "epoch": 0.9498910675381264,
6142
+ "grad_norm": 1406.4046630859375,
6143
+ "learning_rate": 1.2638536330608408e-06,
6144
+ "loss": 12.5356,
6145
+ "step": 872
6146
+ },
6147
+ {
6148
+ "epoch": 0.9509803921568627,
6149
+ "grad_norm": 734.1050415039062,
6150
+ "learning_rate": 1.2096106077767011e-06,
6151
+ "loss": 12.0204,
6152
+ "step": 873
6153
+ },
6154
+ {
6155
+ "epoch": 0.9520697167755992,
6156
+ "grad_norm": 1201.427734375,
6157
+ "learning_rate": 1.1565501945766222e-06,
6158
+ "loss": 11.8001,
6159
+ "step": 874
6160
+ },
6161
+ {
6162
+ "epoch": 0.9531590413943355,
6163
+ "grad_norm": 964.8887329101562,
6164
+ "learning_rate": 1.1046730286426775e-06,
6165
+ "loss": 13.3203,
6166
+ "step": 875
6167
+ },
6168
+ {
6169
+ "epoch": 0.954248366013072,
6170
+ "grad_norm": 1066.5933837890625,
6171
+ "learning_rate": 1.053979730992416e-06,
6172
+ "loss": 12.9455,
6173
+ "step": 876
6174
+ },
6175
+ {
6176
+ "epoch": 0.9553376906318083,
6177
+ "grad_norm": 867.9620361328125,
6178
+ "learning_rate": 1.0044709084713554e-06,
6179
+ "loss": 12.5005,
6180
+ "step": 877
6181
+ },
6182
+ {
6183
+ "epoch": 0.9564270152505446,
6184
+ "grad_norm": 1209.2740478515625,
6185
+ "learning_rate": 9.56147153745779e-07,
6186
+ "loss": 12.6775,
6187
+ "step": 878
6188
+ },
6189
+ {
6190
+ "epoch": 0.9575163398692811,
6191
+ "grad_norm": 920.9111938476562,
6192
+ "learning_rate": 9.090090452955835e-07,
6193
+ "loss": 12.656,
6194
+ "step": 879
6195
+ },
6196
+ {
6197
+ "epoch": 0.9586056644880174,
6198
+ "grad_norm": 1178.7100830078125,
6199
+ "learning_rate": 8.630571474074311e-07,
6200
+ "loss": 11.8858,
6201
+ "step": 880
6202
+ },
6203
+ {
6204
+ "epoch": 0.9596949891067538,
6205
+ "grad_norm": 827.2933349609375,
6206
+ "learning_rate": 8.182920101679092e-07,
6207
+ "loss": 12.7875,
6208
+ "step": 881
6209
+ },
6210
+ {
6211
+ "epoch": 0.9607843137254902,
6212
+ "grad_norm": 970.2561645507812,
6213
+ "learning_rate": 7.747141694570026e-07,
6214
+ "loss": 12.1683,
6215
+ "step": 882
6216
+ },
6217
+ {
6218
+ "epoch": 0.9618736383442266,
6219
+ "grad_norm": 961.2227783203125,
6220
+ "learning_rate": 7.323241469416764e-07,
6221
+ "loss": 13.4533,
6222
+ "step": 883
6223
+ },
6224
+ {
6225
+ "epoch": 0.9629629629629629,
6226
+ "grad_norm": 1200.774658203125,
6227
+ "learning_rate": 6.911224500695702e-07,
6228
+ "loss": 13.4708,
6229
+ "step": 884
6230
+ },
6231
+ {
6232
+ "epoch": 0.9640522875816994,
6233
+ "grad_norm": 961.2836303710938,
6234
+ "learning_rate": 6.511095720630244e-07,
6235
+ "loss": 12.1307,
6236
+ "step": 885
6237
+ },
6238
+ {
6239
+ "epoch": 0.9651416122004357,
6240
+ "grad_norm": 949.4239501953125,
6241
+ "learning_rate": 6.122859919130974e-07,
6242
+ "loss": 11.6507,
6243
+ "step": 886
6244
+ },
6245
+ {
6246
+ "epoch": 0.9662309368191722,
6247
+ "grad_norm": 1107.519287109375,
6248
+ "learning_rate": 5.746521743738354e-07,
6249
+ "loss": 13.5597,
6250
+ "step": 887
6251
+ },
6252
+ {
6253
+ "epoch": 0.9673202614379085,
6254
+ "grad_norm": 713.34619140625,
6255
+ "learning_rate": 5.382085699567552e-07,
6256
+ "loss": 13.0859,
6257
+ "step": 888
6258
+ },
6259
+ {
6260
+ "epoch": 0.9684095860566448,
6261
+ "grad_norm": 763.1091918945312,
6262
+ "learning_rate": 5.029556149254266e-07,
6263
+ "loss": 12.9483,
6264
+ "step": 889
6265
+ },
6266
+ {
6267
+ "epoch": 0.9694989106753813,
6268
+ "grad_norm": 913.829345703125,
6269
+ "learning_rate": 4.6889373129022085e-07,
6270
+ "loss": 11.2009,
6271
+ "step": 890
6272
+ },
6273
+ {
6274
+ "epoch": 0.9705882352941176,
6275
+ "grad_norm": 1170.449462890625,
6276
+ "learning_rate": 4.3602332680331425e-07,
6277
+ "loss": 12.748,
6278
+ "step": 891
6279
+ },
6280
+ {
6281
+ "epoch": 0.971677559912854,
6282
+ "grad_norm": 877.0611572265625,
6283
+ "learning_rate": 4.0434479495378155e-07,
6284
+ "loss": 12.1814,
6285
+ "step": 892
6286
+ },
6287
+ {
6288
+ "epoch": 0.9727668845315904,
6289
+ "grad_norm": 1181.8524169921875,
6290
+ "learning_rate": 3.7385851496284374e-07,
6291
+ "loss": 12.2686,
6292
+ "step": 893
6293
+ },
6294
+ {
6295
+ "epoch": 0.9738562091503268,
6296
+ "grad_norm": 919.8130493164062,
6297
+ "learning_rate": 3.445648517793942e-07,
6298
+ "loss": 12.535,
6299
+ "step": 894
6300
+ },
6301
+ {
6302
+ "epoch": 0.9749455337690632,
6303
+ "grad_norm": 736.0946044921875,
6304
+ "learning_rate": 3.164641560756132e-07,
6305
+ "loss": 13.5968,
6306
+ "step": 895
6307
+ },
6308
+ {
6309
+ "epoch": 0.9760348583877996,
6310
+ "grad_norm": 1050.005126953125,
6311
+ "learning_rate": 2.895567642427488e-07,
6312
+ "loss": 13.5456,
6313
+ "step": 896
6314
+ },
6315
+ {
6316
+ "epoch": 0.9771241830065359,
6317
+ "grad_norm": 1240.2838134765625,
6318
+ "learning_rate": 2.638429983870983e-07,
6319
+ "loss": 12.4089,
6320
+ "step": 897
6321
+ },
6322
+ {
6323
+ "epoch": 0.9782135076252724,
6324
+ "grad_norm": 1174.1912841796875,
6325
+ "learning_rate": 2.3932316632614416e-07,
6326
+ "loss": 12.5838,
6327
+ "step": 898
6328
+ },
6329
+ {
6330
+ "epoch": 0.9793028322440087,
6331
+ "grad_norm": 900.91845703125,
6332
+ "learning_rate": 2.15997561584913e-07,
6333
+ "loss": 12.2009,
6334
+ "step": 899
6335
+ },
6336
+ {
6337
+ "epoch": 0.9803921568627451,
6338
+ "grad_norm": 1263.928466796875,
6339
+ "learning_rate": 1.9386646339238924e-07,
6340
+ "loss": 13.1211,
6341
+ "step": 900
6342
+ },
6343
+ {
6344
+ "epoch": 0.9814814814814815,
6345
+ "grad_norm": 1037.0902099609375,
6346
+ "learning_rate": 1.7293013667825098e-07,
6347
+ "loss": 12.676,
6348
+ "step": 901
6349
+ },
6350
+ {
6351
+ "epoch": 0.9825708061002179,
6352
+ "grad_norm": 1237.9251708984375,
6353
+ "learning_rate": 1.5318883206962842e-07,
6354
+ "loss": 12.2276,
6355
+ "step": 902
6356
+ },
6357
+ {
6358
+ "epoch": 0.9836601307189542,
6359
+ "grad_norm": 630.1217041015625,
6360
+ "learning_rate": 1.3464278588815048e-07,
6361
+ "loss": 12.1347,
6362
+ "step": 903
6363
+ },
6364
+ {
6365
+ "epoch": 0.9847494553376906,
6366
+ "grad_norm": 859.3702392578125,
6367
+ "learning_rate": 1.1729222014709162e-07,
6368
+ "loss": 12.4704,
6369
+ "step": 904
6370
+ },
6371
+ {
6372
+ "epoch": 0.985838779956427,
6373
+ "grad_norm": 1073.7818603515625,
6374
+ "learning_rate": 1.0113734254872942e-07,
6375
+ "loss": 12.5898,
6376
+ "step": 905
6377
+ },
6378
+ {
6379
+ "epoch": 0.9869281045751634,
6380
+ "grad_norm": 1251.8004150390625,
6381
+ "learning_rate": 8.617834648185774e-08,
6382
+ "loss": 13.251,
6383
+ "step": 906
6384
+ },
6385
+ {
6386
+ "epoch": 0.9880174291938998,
6387
+ "grad_norm": 1012.1276245117188,
6388
+ "learning_rate": 7.241541101945526e-08,
6389
+ "loss": 11.1789,
6390
+ "step": 907
6391
+ },
6392
+ {
6393
+ "epoch": 0.9891067538126361,
6394
+ "grad_norm": 662.820556640625,
6395
+ "learning_rate": 5.984870091654271e-08,
6396
+ "loss": 13.627,
6397
+ "step": 908
6398
+ },
6399
+ {
6400
+ "epoch": 0.9901960784313726,
6401
+ "grad_norm": 771.7218627929688,
6402
+ "learning_rate": 4.847836660824001e-08,
6403
+ "loss": 12.1929,
6404
+ "step": 909
6405
+ },
6406
+ {
6407
+ "epoch": 0.9912854030501089,
6408
+ "grad_norm": 654.5511474609375,
6409
+ "learning_rate": 3.8304544207945495e-08,
6410
+ "loss": 11.9869,
6411
+ "step": 910
6412
+ },
6413
+ {
6414
+ "epoch": 0.9923747276688453,
6415
+ "grad_norm": 1049.4482421875,
6416
+ "learning_rate": 2.9327355505681663e-08,
6417
+ "loss": 12.3512,
6418
+ "step": 911
6419
+ },
6420
+ {
6421
+ "epoch": 0.9934640522875817,
6422
+ "grad_norm": 861.9254150390625,
6423
+ "learning_rate": 2.1546907966685236e-08,
6424
+ "loss": 12.2443,
6425
+ "step": 912
6426
+ },
6427
+ {
6428
+ "epoch": 0.9945533769063181,
6429
+ "grad_norm": 1027.2105712890625,
6430
+ "learning_rate": 1.496329473008595e-08,
6431
+ "loss": 12.2233,
6432
+ "step": 913
6433
+ },
6434
+ {
6435
+ "epoch": 0.9956427015250545,
6436
+ "grad_norm": 783.8712158203125,
6437
+ "learning_rate": 9.576594607807465e-09,
6438
+ "loss": 13.0014,
6439
+ "step": 914
6440
+ },
6441
+ {
6442
+ "epoch": 0.9967320261437909,
6443
+ "grad_norm": 1203.1295166015625,
6444
+ "learning_rate": 5.3868720836236506e-09,
6445
+ "loss": 13.0101,
6446
+ "step": 915
6447
+ },
6448
+ {
6449
+ "epoch": 0.9978213507625272,
6450
+ "grad_norm": 702.3920288085938,
6451
+ "learning_rate": 2.3941773123814516e-09,
6452
+ "loss": 13.0705,
6453
+ "step": 916
6454
+ },
6455
+ {
6456
+ "epoch": 0.9989106753812637,
6457
+ "grad_norm": 858.6944580078125,
6458
+ "learning_rate": 5.985461193791509e-10,
6459
+ "loss": 12.3027,
6460
+ "step": 917
6461
+ },
6462
+ {
6463
+ "epoch": 1.0,
6464
+ "grad_norm": 1008.3307495117188,
6465
+ "learning_rate": 0.0,
6466
+ "loss": 12.5451,
6467
+ "step": 918
6468
  }
6469
  ],
6470
  "logging_steps": 1,
 
6479
  "should_evaluate": false,
6480
  "should_log": false,
6481
  "should_save": true,
6482
+ "should_training_stop": true
6483
  },
6484
  "attributes": {}
6485
  }
6486
  },
6487
+ "total_flos": 3120952812503040.0,
6488
  "train_batch_size": 2,
6489
  "trial_name": null,
6490
  "trial_params": null