diaenra commited on
Commit
6d0db3d
·
verified ·
1 Parent(s): 543cf08

Training in progress, step 437, checkpoint

Browse files
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:87bde366c0f938aea480d242a5bf224a510317d08084ffe62b29e957b4227097
3
  size 304998596
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:94dab5bfb47f564438af988f3574bb0f0e9507107f7995229ba7c0b407533a9b
3
  size 304998596
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2cb654e8cf1c7b1a57dd79203448d54af6b7d23e7e587c7359076401b158e0ad
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:05483b02c0f77daae352ffb8f45d8d17bcaf90caa568067a2ed2383fb7d92545
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4304b040f49f93c2e70f46ade1d722bd4cc715b8c97554e8cd73483bd320b151
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:43cdf166fd391100ddd836aff220772a70fdca8f5f3ab782a162cdf93eef1cc4
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.5462857142857143,
5
  "eval_steps": 500,
6
- "global_step": 239,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -1680,6 +1680,1392 @@
1680
  "learning_rate": 6.357763004631104e-05,
1681
  "loss": 0.0,
1682
  "step": 239
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1683
  }
1684
  ],
1685
  "logging_steps": 1,
@@ -1694,12 +3080,12 @@
1694
  "should_evaluate": false,
1695
  "should_log": false,
1696
  "should_save": true,
1697
- "should_training_stop": false
1698
  },
1699
  "attributes": {}
1700
  }
1701
  },
1702
- "total_flos": 3113320216264704.0,
1703
  "train_batch_size": 8,
1704
  "trial_name": null,
1705
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.9988571428571429,
5
  "eval_steps": 500,
6
+ "global_step": 437,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
1680
  "learning_rate": 6.357763004631104e-05,
1681
  "loss": 0.0,
1682
  "step": 239
1683
+ },
1684
+ {
1685
+ "epoch": 0.5485714285714286,
1686
+ "grad_norm": NaN,
1687
+ "learning_rate": 6.31284497017055e-05,
1688
+ "loss": 0.0,
1689
+ "step": 240
1690
+ },
1691
+ {
1692
+ "epoch": 0.5508571428571428,
1693
+ "grad_norm": NaN,
1694
+ "learning_rate": 6.26781284501043e-05,
1695
+ "loss": 0.0,
1696
+ "step": 241
1697
+ },
1698
+ {
1699
+ "epoch": 0.5531428571428572,
1700
+ "grad_norm": NaN,
1701
+ "learning_rate": 6.2226705425958e-05,
1702
+ "loss": 0.0,
1703
+ "step": 242
1704
+ },
1705
+ {
1706
+ "epoch": 0.5554285714285714,
1707
+ "grad_norm": NaN,
1708
+ "learning_rate": 6.177421985946499e-05,
1709
+ "loss": 0.0,
1710
+ "step": 243
1711
+ },
1712
+ {
1713
+ "epoch": 0.5577142857142857,
1714
+ "grad_norm": NaN,
1715
+ "learning_rate": 6.13207110731622e-05,
1716
+ "loss": 0.0,
1717
+ "step": 244
1718
+ },
1719
+ {
1720
+ "epoch": 0.56,
1721
+ "grad_norm": NaN,
1722
+ "learning_rate": 6.086621847850788e-05,
1723
+ "loss": 0.0,
1724
+ "step": 245
1725
+ },
1726
+ {
1727
+ "epoch": 0.5622857142857143,
1728
+ "grad_norm": NaN,
1729
+ "learning_rate": 6.0410781572456486e-05,
1730
+ "loss": 0.0,
1731
+ "step": 246
1732
+ },
1733
+ {
1734
+ "epoch": 0.5645714285714286,
1735
+ "grad_norm": NaN,
1736
+ "learning_rate": 5.995443993402647e-05,
1737
+ "loss": 0.0,
1738
+ "step": 247
1739
+ },
1740
+ {
1741
+ "epoch": 0.5668571428571428,
1742
+ "grad_norm": NaN,
1743
+ "learning_rate": 5.949723322086053e-05,
1744
+ "loss": 0.0,
1745
+ "step": 248
1746
+ },
1747
+ {
1748
+ "epoch": 0.5691428571428572,
1749
+ "grad_norm": NaN,
1750
+ "learning_rate": 5.9039201165779315e-05,
1751
+ "loss": 0.0,
1752
+ "step": 249
1753
+ },
1754
+ {
1755
+ "epoch": 0.5714285714285714,
1756
+ "grad_norm": NaN,
1757
+ "learning_rate": 5.85803835733285e-05,
1758
+ "loss": 0.0,
1759
+ "step": 250
1760
+ },
1761
+ {
1762
+ "epoch": 0.5737142857142857,
1763
+ "grad_norm": NaN,
1764
+ "learning_rate": 5.812082031631966e-05,
1765
+ "loss": 0.0,
1766
+ "step": 251
1767
+ },
1768
+ {
1769
+ "epoch": 0.576,
1770
+ "grad_norm": NaN,
1771
+ "learning_rate": 5.766055133236513e-05,
1772
+ "loss": 0.0,
1773
+ "step": 252
1774
+ },
1775
+ {
1776
+ "epoch": 0.5782857142857143,
1777
+ "grad_norm": NaN,
1778
+ "learning_rate": 5.719961662040733e-05,
1779
+ "loss": 0.0,
1780
+ "step": 253
1781
+ },
1782
+ {
1783
+ "epoch": 0.5805714285714285,
1784
+ "grad_norm": NaN,
1785
+ "learning_rate": 5.673805623724272e-05,
1786
+ "loss": 0.0,
1787
+ "step": 254
1788
+ },
1789
+ {
1790
+ "epoch": 0.5828571428571429,
1791
+ "grad_norm": NaN,
1792
+ "learning_rate": 5.627591029404071e-05,
1793
+ "loss": 0.0,
1794
+ "step": 255
1795
+ },
1796
+ {
1797
+ "epoch": 0.5851428571428572,
1798
+ "grad_norm": NaN,
1799
+ "learning_rate": 5.581321895285787e-05,
1800
+ "loss": 0.0,
1801
+ "step": 256
1802
+ },
1803
+ {
1804
+ "epoch": 0.5874285714285714,
1805
+ "grad_norm": NaN,
1806
+ "learning_rate": 5.535002242314772e-05,
1807
+ "loss": 0.0,
1808
+ "step": 257
1809
+ },
1810
+ {
1811
+ "epoch": 0.5897142857142857,
1812
+ "grad_norm": NaN,
1813
+ "learning_rate": 5.488636095826636e-05,
1814
+ "loss": 0.0,
1815
+ "step": 258
1816
+ },
1817
+ {
1818
+ "epoch": 0.592,
1819
+ "grad_norm": NaN,
1820
+ "learning_rate": 5.442227485197435e-05,
1821
+ "loss": 0.0,
1822
+ "step": 259
1823
+ },
1824
+ {
1825
+ "epoch": 0.5942857142857143,
1826
+ "grad_norm": NaN,
1827
+ "learning_rate": 5.395780443493508e-05,
1828
+ "loss": 0.0,
1829
+ "step": 260
1830
+ },
1831
+ {
1832
+ "epoch": 0.5965714285714285,
1833
+ "grad_norm": NaN,
1834
+ "learning_rate": 5.3492990071209806e-05,
1835
+ "loss": 0.0,
1836
+ "step": 261
1837
+ },
1838
+ {
1839
+ "epoch": 0.5988571428571429,
1840
+ "grad_norm": NaN,
1841
+ "learning_rate": 5.3027872154749915e-05,
1842
+ "loss": 0.0,
1843
+ "step": 262
1844
+ },
1845
+ {
1846
+ "epoch": 0.6011428571428571,
1847
+ "grad_norm": NaN,
1848
+ "learning_rate": 5.256249110588659e-05,
1849
+ "loss": 0.0,
1850
+ "step": 263
1851
+ },
1852
+ {
1853
+ "epoch": 0.6034285714285714,
1854
+ "grad_norm": NaN,
1855
+ "learning_rate": 5.2096887367818105e-05,
1856
+ "loss": 0.0,
1857
+ "step": 264
1858
+ },
1859
+ {
1860
+ "epoch": 0.6057142857142858,
1861
+ "grad_norm": NaN,
1862
+ "learning_rate": 5.1631101403095184e-05,
1863
+ "loss": 0.0,
1864
+ "step": 265
1865
+ },
1866
+ {
1867
+ "epoch": 0.608,
1868
+ "grad_norm": NaN,
1869
+ "learning_rate": 5.116517369010466e-05,
1870
+ "loss": 0.0,
1871
+ "step": 266
1872
+ },
1873
+ {
1874
+ "epoch": 0.6102857142857143,
1875
+ "grad_norm": NaN,
1876
+ "learning_rate": 5.069914471955178e-05,
1877
+ "loss": 0.0,
1878
+ "step": 267
1879
+ },
1880
+ {
1881
+ "epoch": 0.6125714285714285,
1882
+ "grad_norm": NaN,
1883
+ "learning_rate": 5.023305499094144e-05,
1884
+ "loss": 0.0,
1885
+ "step": 268
1886
+ },
1887
+ {
1888
+ "epoch": 0.6148571428571429,
1889
+ "grad_norm": NaN,
1890
+ "learning_rate": 4.976694500905857e-05,
1891
+ "loss": 0.0,
1892
+ "step": 269
1893
+ },
1894
+ {
1895
+ "epoch": 0.6171428571428571,
1896
+ "grad_norm": NaN,
1897
+ "learning_rate": 4.930085528044823e-05,
1898
+ "loss": 0.0,
1899
+ "step": 270
1900
+ },
1901
+ {
1902
+ "epoch": 0.6194285714285714,
1903
+ "grad_norm": NaN,
1904
+ "learning_rate": 4.883482630989535e-05,
1905
+ "loss": 0.0,
1906
+ "step": 271
1907
+ },
1908
+ {
1909
+ "epoch": 0.6217142857142857,
1910
+ "grad_norm": NaN,
1911
+ "learning_rate": 4.8368898596904834e-05,
1912
+ "loss": 0.0,
1913
+ "step": 272
1914
+ },
1915
+ {
1916
+ "epoch": 0.624,
1917
+ "grad_norm": NaN,
1918
+ "learning_rate": 4.790311263218191e-05,
1919
+ "loss": 0.0,
1920
+ "step": 273
1921
+ },
1922
+ {
1923
+ "epoch": 0.6262857142857143,
1924
+ "grad_norm": NaN,
1925
+ "learning_rate": 4.743750889411342e-05,
1926
+ "loss": 0.0,
1927
+ "step": 274
1928
+ },
1929
+ {
1930
+ "epoch": 0.6285714285714286,
1931
+ "grad_norm": NaN,
1932
+ "learning_rate": 4.697212784525008e-05,
1933
+ "loss": 0.0,
1934
+ "step": 275
1935
+ },
1936
+ {
1937
+ "epoch": 0.6308571428571429,
1938
+ "grad_norm": NaN,
1939
+ "learning_rate": 4.65070099287902e-05,
1940
+ "loss": 0.0,
1941
+ "step": 276
1942
+ },
1943
+ {
1944
+ "epoch": 0.6331428571428571,
1945
+ "grad_norm": NaN,
1946
+ "learning_rate": 4.604219556506492e-05,
1947
+ "loss": 0.0,
1948
+ "step": 277
1949
+ },
1950
+ {
1951
+ "epoch": 0.6354285714285715,
1952
+ "grad_norm": NaN,
1953
+ "learning_rate": 4.5577725148025646e-05,
1954
+ "loss": 0.0,
1955
+ "step": 278
1956
+ },
1957
+ {
1958
+ "epoch": 0.6377142857142857,
1959
+ "grad_norm": NaN,
1960
+ "learning_rate": 4.511363904173366e-05,
1961
+ "loss": 0.0,
1962
+ "step": 279
1963
+ },
1964
+ {
1965
+ "epoch": 0.64,
1966
+ "grad_norm": NaN,
1967
+ "learning_rate": 4.46499775768523e-05,
1968
+ "loss": 0.0,
1969
+ "step": 280
1970
+ },
1971
+ {
1972
+ "epoch": 0.6422857142857142,
1973
+ "grad_norm": NaN,
1974
+ "learning_rate": 4.418678104714214e-05,
1975
+ "loss": 0.0,
1976
+ "step": 281
1977
+ },
1978
+ {
1979
+ "epoch": 0.6445714285714286,
1980
+ "grad_norm": NaN,
1981
+ "learning_rate": 4.3724089705959305e-05,
1982
+ "loss": 0.0,
1983
+ "step": 282
1984
+ },
1985
+ {
1986
+ "epoch": 0.6468571428571429,
1987
+ "grad_norm": NaN,
1988
+ "learning_rate": 4.3261943762757287e-05,
1989
+ "loss": 0.0,
1990
+ "step": 283
1991
+ },
1992
+ {
1993
+ "epoch": 0.6491428571428571,
1994
+ "grad_norm": NaN,
1995
+ "learning_rate": 4.280038337959268e-05,
1996
+ "loss": 0.0,
1997
+ "step": 284
1998
+ },
1999
+ {
2000
+ "epoch": 0.6514285714285715,
2001
+ "grad_norm": NaN,
2002
+ "learning_rate": 4.233944866763489e-05,
2003
+ "loss": 0.0,
2004
+ "step": 285
2005
+ },
2006
+ {
2007
+ "epoch": 0.6537142857142857,
2008
+ "grad_norm": NaN,
2009
+ "learning_rate": 4.187917968368036e-05,
2010
+ "loss": 0.0,
2011
+ "step": 286
2012
+ },
2013
+ {
2014
+ "epoch": 0.656,
2015
+ "grad_norm": NaN,
2016
+ "learning_rate": 4.141961642667152e-05,
2017
+ "loss": 0.0,
2018
+ "step": 287
2019
+ },
2020
+ {
2021
+ "epoch": 0.6582857142857143,
2022
+ "grad_norm": NaN,
2023
+ "learning_rate": 4.0960798834220704e-05,
2024
+ "loss": 0.0,
2025
+ "step": 288
2026
+ },
2027
+ {
2028
+ "epoch": 0.6605714285714286,
2029
+ "grad_norm": NaN,
2030
+ "learning_rate": 4.0502766779139484e-05,
2031
+ "loss": 0.0,
2032
+ "step": 289
2033
+ },
2034
+ {
2035
+ "epoch": 0.6628571428571428,
2036
+ "grad_norm": NaN,
2037
+ "learning_rate": 4.004556006597353e-05,
2038
+ "loss": 0.0,
2039
+ "step": 290
2040
+ },
2041
+ {
2042
+ "epoch": 0.6651428571428571,
2043
+ "grad_norm": NaN,
2044
+ "learning_rate": 3.958921842754351e-05,
2045
+ "loss": 0.0,
2046
+ "step": 291
2047
+ },
2048
+ {
2049
+ "epoch": 0.6674285714285715,
2050
+ "grad_norm": NaN,
2051
+ "learning_rate": 3.913378152149214e-05,
2052
+ "loss": 0.0,
2053
+ "step": 292
2054
+ },
2055
+ {
2056
+ "epoch": 0.6697142857142857,
2057
+ "grad_norm": NaN,
2058
+ "learning_rate": 3.8679288926837804e-05,
2059
+ "loss": 0.0,
2060
+ "step": 293
2061
+ },
2062
+ {
2063
+ "epoch": 0.672,
2064
+ "grad_norm": NaN,
2065
+ "learning_rate": 3.8225780140535025e-05,
2066
+ "loss": 0.0,
2067
+ "step": 294
2068
+ },
2069
+ {
2070
+ "epoch": 0.6742857142857143,
2071
+ "grad_norm": NaN,
2072
+ "learning_rate": 3.777329457404202e-05,
2073
+ "loss": 0.0,
2074
+ "step": 295
2075
+ },
2076
+ {
2077
+ "epoch": 0.6765714285714286,
2078
+ "grad_norm": NaN,
2079
+ "learning_rate": 3.7321871549895714e-05,
2080
+ "loss": 0.0,
2081
+ "step": 296
2082
+ },
2083
+ {
2084
+ "epoch": 0.6788571428571428,
2085
+ "grad_norm": NaN,
2086
+ "learning_rate": 3.68715502982945e-05,
2087
+ "loss": 0.0,
2088
+ "step": 297
2089
+ },
2090
+ {
2091
+ "epoch": 0.6811428571428572,
2092
+ "grad_norm": NaN,
2093
+ "learning_rate": 3.642236995368897e-05,
2094
+ "loss": 0.0,
2095
+ "step": 298
2096
+ },
2097
+ {
2098
+ "epoch": 0.6834285714285714,
2099
+ "grad_norm": NaN,
2100
+ "learning_rate": 3.597436955138102e-05,
2101
+ "loss": 0.0,
2102
+ "step": 299
2103
+ },
2104
+ {
2105
+ "epoch": 0.6857142857142857,
2106
+ "grad_norm": NaN,
2107
+ "learning_rate": 3.5527588024131544e-05,
2108
+ "loss": 0.0,
2109
+ "step": 300
2110
+ },
2111
+ {
2112
+ "epoch": 0.688,
2113
+ "grad_norm": NaN,
2114
+ "learning_rate": 3.5082064198777e-05,
2115
+ "loss": 0.0,
2116
+ "step": 301
2117
+ },
2118
+ {
2119
+ "epoch": 0.6902857142857143,
2120
+ "grad_norm": NaN,
2121
+ "learning_rate": 3.463783679285535e-05,
2122
+ "loss": 0.0,
2123
+ "step": 302
2124
+ },
2125
+ {
2126
+ "epoch": 0.6925714285714286,
2127
+ "grad_norm": NaN,
2128
+ "learning_rate": 3.419494441124121e-05,
2129
+ "loss": 0.0,
2130
+ "step": 303
2131
+ },
2132
+ {
2133
+ "epoch": 0.6948571428571428,
2134
+ "grad_norm": NaN,
2135
+ "learning_rate": 3.375342554279111e-05,
2136
+ "loss": 0.0,
2137
+ "step": 304
2138
+ },
2139
+ {
2140
+ "epoch": 0.6971428571428572,
2141
+ "grad_norm": NaN,
2142
+ "learning_rate": 3.3313318556998526e-05,
2143
+ "loss": 0.0,
2144
+ "step": 305
2145
+ },
2146
+ {
2147
+ "epoch": 0.6994285714285714,
2148
+ "grad_norm": NaN,
2149
+ "learning_rate": 3.287466170065959e-05,
2150
+ "loss": 0.0,
2151
+ "step": 306
2152
+ },
2153
+ {
2154
+ "epoch": 0.7017142857142857,
2155
+ "grad_norm": NaN,
2156
+ "learning_rate": 3.243749309454922e-05,
2157
+ "loss": 0.0,
2158
+ "step": 307
2159
+ },
2160
+ {
2161
+ "epoch": 0.704,
2162
+ "grad_norm": NaN,
2163
+ "learning_rate": 3.200185073010831e-05,
2164
+ "loss": 0.0,
2165
+ "step": 308
2166
+ },
2167
+ {
2168
+ "epoch": 0.7062857142857143,
2169
+ "grad_norm": NaN,
2170
+ "learning_rate": 3.1567772466142156e-05,
2171
+ "loss": 0.0,
2172
+ "step": 309
2173
+ },
2174
+ {
2175
+ "epoch": 0.7085714285714285,
2176
+ "grad_norm": NaN,
2177
+ "learning_rate": 3.113529602553042e-05,
2178
+ "loss": 0.0,
2179
+ "step": 310
2180
+ },
2181
+ {
2182
+ "epoch": 0.7108571428571429,
2183
+ "grad_norm": NaN,
2184
+ "learning_rate": 3.070445899194885e-05,
2185
+ "loss": 0.0,
2186
+ "step": 311
2187
+ },
2188
+ {
2189
+ "epoch": 0.7131428571428572,
2190
+ "grad_norm": NaN,
2191
+ "learning_rate": 3.02752988066031e-05,
2192
+ "loss": 0.0,
2193
+ "step": 312
2194
+ },
2195
+ {
2196
+ "epoch": 0.7154285714285714,
2197
+ "grad_norm": NaN,
2198
+ "learning_rate": 2.984785276497507e-05,
2199
+ "loss": 0.0,
2200
+ "step": 313
2201
+ },
2202
+ {
2203
+ "epoch": 0.7177142857142857,
2204
+ "grad_norm": NaN,
2205
+ "learning_rate": 2.9422158013581658e-05,
2206
+ "loss": 0.0,
2207
+ "step": 314
2208
+ },
2209
+ {
2210
+ "epoch": 0.72,
2211
+ "grad_norm": NaN,
2212
+ "learning_rate": 2.899825154674674e-05,
2213
+ "loss": 0.0,
2214
+ "step": 315
2215
+ },
2216
+ {
2217
+ "epoch": 0.7222857142857143,
2218
+ "grad_norm": NaN,
2219
+ "learning_rate": 2.8576170203386143e-05,
2220
+ "loss": 0.0,
2221
+ "step": 316
2222
+ },
2223
+ {
2224
+ "epoch": 0.7245714285714285,
2225
+ "grad_norm": NaN,
2226
+ "learning_rate": 2.8155950663806235e-05,
2227
+ "loss": 0.0,
2228
+ "step": 317
2229
+ },
2230
+ {
2231
+ "epoch": 0.7268571428571429,
2232
+ "grad_norm": NaN,
2233
+ "learning_rate": 2.773762944651632e-05,
2234
+ "loss": 0.0,
2235
+ "step": 318
2236
+ },
2237
+ {
2238
+ "epoch": 0.7291428571428571,
2239
+ "grad_norm": NaN,
2240
+ "learning_rate": 2.7321242905055013e-05,
2241
+ "loss": 0.0,
2242
+ "step": 319
2243
+ },
2244
+ {
2245
+ "epoch": 0.7314285714285714,
2246
+ "grad_norm": NaN,
2247
+ "learning_rate": 2.690682722483102e-05,
2248
+ "loss": 0.0,
2249
+ "step": 320
2250
+ },
2251
+ {
2252
+ "epoch": 0.7337142857142858,
2253
+ "grad_norm": NaN,
2254
+ "learning_rate": 2.6494418419978482e-05,
2255
+ "loss": 0.0,
2256
+ "step": 321
2257
+ },
2258
+ {
2259
+ "epoch": 0.736,
2260
+ "grad_norm": NaN,
2261
+ "learning_rate": 2.6084052330227238e-05,
2262
+ "loss": 0.0,
2263
+ "step": 322
2264
+ },
2265
+ {
2266
+ "epoch": 0.7382857142857143,
2267
+ "grad_norm": NaN,
2268
+ "learning_rate": 2.5675764617788234e-05,
2269
+ "loss": 0.0,
2270
+ "step": 323
2271
+ },
2272
+ {
2273
+ "epoch": 0.7405714285714285,
2274
+ "grad_norm": NaN,
2275
+ "learning_rate": 2.526959076425434e-05,
2276
+ "loss": 0.0,
2277
+ "step": 324
2278
+ },
2279
+ {
2280
+ "epoch": 0.7428571428571429,
2281
+ "grad_norm": NaN,
2282
+ "learning_rate": 2.4865566067516893e-05,
2283
+ "loss": 0.0,
2284
+ "step": 325
2285
+ },
2286
+ {
2287
+ "epoch": 0.7451428571428571,
2288
+ "grad_norm": NaN,
2289
+ "learning_rate": 2.4463725638698183e-05,
2290
+ "loss": 0.0,
2291
+ "step": 326
2292
+ },
2293
+ {
2294
+ "epoch": 0.7474285714285714,
2295
+ "grad_norm": NaN,
2296
+ "learning_rate": 2.406410439910017e-05,
2297
+ "loss": 0.0,
2298
+ "step": 327
2299
+ },
2300
+ {
2301
+ "epoch": 0.7497142857142857,
2302
+ "grad_norm": NaN,
2303
+ "learning_rate": 2.3666737077169726e-05,
2304
+ "loss": 0.0,
2305
+ "step": 328
2306
+ },
2307
+ {
2308
+ "epoch": 0.752,
2309
+ "grad_norm": NaN,
2310
+ "learning_rate": 2.327165820548059e-05,
2311
+ "loss": 0.0,
2312
+ "step": 329
2313
+ },
2314
+ {
2315
+ "epoch": 0.7542857142857143,
2316
+ "grad_norm": NaN,
2317
+ "learning_rate": 2.287890211773238e-05,
2318
+ "loss": 0.0,
2319
+ "step": 330
2320
+ },
2321
+ {
2322
+ "epoch": 0.7565714285714286,
2323
+ "grad_norm": NaN,
2324
+ "learning_rate": 2.2488502945766894e-05,
2325
+ "loss": 0.0,
2326
+ "step": 331
2327
+ },
2328
+ {
2329
+ "epoch": 0.7588571428571429,
2330
+ "grad_norm": NaN,
2331
+ "learning_rate": 2.2100494616601893e-05,
2332
+ "loss": 0.0,
2333
+ "step": 332
2334
+ },
2335
+ {
2336
+ "epoch": 0.7611428571428571,
2337
+ "grad_norm": NaN,
2338
+ "learning_rate": 2.171491084948278e-05,
2339
+ "loss": 0.0,
2340
+ "step": 333
2341
+ },
2342
+ {
2343
+ "epoch": 0.7634285714285715,
2344
+ "grad_norm": NaN,
2345
+ "learning_rate": 2.1331785152952243e-05,
2346
+ "loss": 0.0,
2347
+ "step": 334
2348
+ },
2349
+ {
2350
+ "epoch": 0.7657142857142857,
2351
+ "grad_norm": NaN,
2352
+ "learning_rate": 2.0951150821938275e-05,
2353
+ "loss": 0.0,
2354
+ "step": 335
2355
+ },
2356
+ {
2357
+ "epoch": 0.768,
2358
+ "grad_norm": NaN,
2359
+ "learning_rate": 2.0573040934860717e-05,
2360
+ "loss": 0.0,
2361
+ "step": 336
2362
+ },
2363
+ {
2364
+ "epoch": 0.7702857142857142,
2365
+ "grad_norm": NaN,
2366
+ "learning_rate": 2.0197488350756616e-05,
2367
+ "loss": 0.0,
2368
+ "step": 337
2369
+ },
2370
+ {
2371
+ "epoch": 0.7725714285714286,
2372
+ "grad_norm": NaN,
2373
+ "learning_rate": 1.98245257064247e-05,
2374
+ "loss": 0.0,
2375
+ "step": 338
2376
+ },
2377
+ {
2378
+ "epoch": 0.7748571428571429,
2379
+ "grad_norm": NaN,
2380
+ "learning_rate": 1.945418541358911e-05,
2381
+ "loss": 0.0,
2382
+ "step": 339
2383
+ },
2384
+ {
2385
+ "epoch": 0.7771428571428571,
2386
+ "grad_norm": NaN,
2387
+ "learning_rate": 1.9086499656082686e-05,
2388
+ "loss": 0.0,
2389
+ "step": 340
2390
+ },
2391
+ {
2392
+ "epoch": 0.7794285714285715,
2393
+ "grad_norm": NaN,
2394
+ "learning_rate": 1.872150038705015e-05,
2395
+ "loss": 0.0,
2396
+ "step": 341
2397
+ },
2398
+ {
2399
+ "epoch": 0.7817142857142857,
2400
+ "grad_norm": NaN,
2401
+ "learning_rate": 1.835921932617119e-05,
2402
+ "loss": 0.0,
2403
+ "step": 342
2404
+ },
2405
+ {
2406
+ "epoch": 0.784,
2407
+ "grad_norm": NaN,
2408
+ "learning_rate": 1.7999687956903953e-05,
2409
+ "loss": 0.0,
2410
+ "step": 343
2411
+ },
2412
+ {
2413
+ "epoch": 0.7862857142857143,
2414
+ "grad_norm": NaN,
2415
+ "learning_rate": 1.7642937523749038e-05,
2416
+ "loss": 0.0,
2417
+ "step": 344
2418
+ },
2419
+ {
2420
+ "epoch": 0.7885714285714286,
2421
+ "grad_norm": NaN,
2422
+ "learning_rate": 1.7288999029534176e-05,
2423
+ "loss": 0.0,
2424
+ "step": 345
2425
+ },
2426
+ {
2427
+ "epoch": 0.7908571428571428,
2428
+ "grad_norm": NaN,
2429
+ "learning_rate": 1.6937903232720077e-05,
2430
+ "loss": 0.0,
2431
+ "step": 346
2432
+ },
2433
+ {
2434
+ "epoch": 0.7931428571428571,
2435
+ "grad_norm": NaN,
2436
+ "learning_rate": 1.6589680644727344e-05,
2437
+ "loss": 0.0,
2438
+ "step": 347
2439
+ },
2440
+ {
2441
+ "epoch": 0.7954285714285714,
2442
+ "grad_norm": NaN,
2443
+ "learning_rate": 1.6244361527284952e-05,
2444
+ "loss": 0.0,
2445
+ "step": 348
2446
+ },
2447
+ {
2448
+ "epoch": 0.7977142857142857,
2449
+ "grad_norm": NaN,
2450
+ "learning_rate": 1.5901975889800386e-05,
2451
+ "loss": 0.0,
2452
+ "step": 349
2453
+ },
2454
+ {
2455
+ "epoch": 0.8,
2456
+ "grad_norm": NaN,
2457
+ "learning_rate": 1.5562553486751743e-05,
2458
+ "loss": 0.0,
2459
+ "step": 350
2460
+ },
2461
+ {
2462
+ "epoch": 0.8022857142857143,
2463
+ "grad_norm": NaN,
2464
+ "learning_rate": 1.5226123815101951e-05,
2465
+ "loss": 0.0,
2466
+ "step": 351
2467
+ },
2468
+ {
2469
+ "epoch": 0.8045714285714286,
2470
+ "grad_norm": NaN,
2471
+ "learning_rate": 1.4892716111735378e-05,
2472
+ "loss": 0.0,
2473
+ "step": 352
2474
+ },
2475
+ {
2476
+ "epoch": 0.8068571428571428,
2477
+ "grad_norm": NaN,
2478
+ "learning_rate": 1.4562359350917054e-05,
2479
+ "loss": 0.0,
2480
+ "step": 353
2481
+ },
2482
+ {
2483
+ "epoch": 0.8091428571428572,
2484
+ "grad_norm": NaN,
2485
+ "learning_rate": 1.423508224177474e-05,
2486
+ "loss": 0.0,
2487
+ "step": 354
2488
+ },
2489
+ {
2490
+ "epoch": 0.8114285714285714,
2491
+ "grad_norm": NaN,
2492
+ "learning_rate": 1.3910913225803945e-05,
2493
+ "loss": 0.0,
2494
+ "step": 355
2495
+ },
2496
+ {
2497
+ "epoch": 0.8137142857142857,
2498
+ "grad_norm": NaN,
2499
+ "learning_rate": 1.35898804743963e-05,
2500
+ "loss": 0.0,
2501
+ "step": 356
2502
+ },
2503
+ {
2504
+ "epoch": 0.816,
2505
+ "grad_norm": NaN,
2506
+ "learning_rate": 1.3272011886391366e-05,
2507
+ "loss": 0.0,
2508
+ "step": 357
2509
+ },
2510
+ {
2511
+ "epoch": 0.8182857142857143,
2512
+ "grad_norm": NaN,
2513
+ "learning_rate": 1.2957335085652129e-05,
2514
+ "loss": 0.0,
2515
+ "step": 358
2516
+ },
2517
+ {
2518
+ "epoch": 0.8205714285714286,
2519
+ "grad_norm": NaN,
2520
+ "learning_rate": 1.2645877418664392e-05,
2521
+ "loss": 0.0,
2522
+ "step": 359
2523
+ },
2524
+ {
2525
+ "epoch": 0.8228571428571428,
2526
+ "grad_norm": NaN,
2527
+ "learning_rate": 1.2337665952160266e-05,
2528
+ "loss": 0.0,
2529
+ "step": 360
2530
+ },
2531
+ {
2532
+ "epoch": 0.8251428571428572,
2533
+ "grad_norm": NaN,
2534
+ "learning_rate": 1.203272747076598e-05,
2535
+ "loss": 0.0,
2536
+ "step": 361
2537
+ },
2538
+ {
2539
+ "epoch": 0.8274285714285714,
2540
+ "grad_norm": NaN,
2541
+ "learning_rate": 1.1731088474674234e-05,
2542
+ "loss": 0.0,
2543
+ "step": 362
2544
+ },
2545
+ {
2546
+ "epoch": 0.8297142857142857,
2547
+ "grad_norm": NaN,
2548
+ "learning_rate": 1.1432775177341165e-05,
2549
+ "loss": 0.0,
2550
+ "step": 363
2551
+ },
2552
+ {
2553
+ "epoch": 0.832,
2554
+ "grad_norm": NaN,
2555
+ "learning_rate": 1.11378135032084e-05,
2556
+ "loss": 0.0,
2557
+ "step": 364
2558
+ },
2559
+ {
2560
+ "epoch": 0.8342857142857143,
2561
+ "grad_norm": NaN,
2562
+ "learning_rate": 1.0846229085450099e-05,
2563
+ "loss": 0.0,
2564
+ "step": 365
2565
+ },
2566
+ {
2567
+ "epoch": 0.8365714285714285,
2568
+ "grad_norm": NaN,
2569
+ "learning_rate": 1.0558047263745297e-05,
2570
+ "loss": 0.0,
2571
+ "step": 366
2572
+ },
2573
+ {
2574
+ "epoch": 0.8388571428571429,
2575
+ "grad_norm": NaN,
2576
+ "learning_rate": 1.0273293082075913e-05,
2577
+ "loss": 0.0,
2578
+ "step": 367
2579
+ },
2580
+ {
2581
+ "epoch": 0.8411428571428572,
2582
+ "grad_norm": NaN,
2583
+ "learning_rate": 9.991991286550207e-06,
2584
+ "loss": 0.0,
2585
+ "step": 368
2586
+ },
2587
+ {
2588
+ "epoch": 0.8434285714285714,
2589
+ "grad_norm": NaN,
2590
+ "learning_rate": 9.71416632325235e-06,
2591
+ "loss": 0.0,
2592
+ "step": 369
2593
+ },
2594
+ {
2595
+ "epoch": 0.8457142857142858,
2596
+ "grad_norm": NaN,
2597
+ "learning_rate": 9.439842336117954e-06,
2598
+ "loss": 0.0,
2599
+ "step": 370
2600
+ },
2601
+ {
2602
+ "epoch": 0.848,
2603
+ "grad_norm": NaN,
2604
+ "learning_rate": 9.169043164835867e-06,
2605
+ "loss": 0.0,
2606
+ "step": 371
2607
+ },
2608
+ {
2609
+ "epoch": 0.8502857142857143,
2610
+ "grad_norm": NaN,
2611
+ "learning_rate": 8.901792342776437e-06,
2612
+ "loss": 0.0,
2613
+ "step": 372
2614
+ },
2615
+ {
2616
+ "epoch": 0.8525714285714285,
2617
+ "grad_norm": NaN,
2618
+ "learning_rate": 8.638113094946381e-06,
2619
+ "loss": 0.0,
2620
+ "step": 373
2621
+ },
2622
+ {
2623
+ "epoch": 0.8548571428571429,
2624
+ "grad_norm": NaN,
2625
+ "learning_rate": 8.37802833597045e-06,
2626
+ "loss": 0.0,
2627
+ "step": 374
2628
+ },
2629
+ {
2630
+ "epoch": 0.8571428571428571,
2631
+ "grad_norm": NaN,
2632
+ "learning_rate": 8.121560668100064e-06,
2633
+ "loss": 0.0,
2634
+ "step": 375
2635
+ },
2636
+ {
2637
+ "epoch": 0.8594285714285714,
2638
+ "grad_norm": NaN,
2639
+ "learning_rate": 7.868732379249121e-06,
2640
+ "loss": 0.0,
2641
+ "step": 376
2642
+ },
2643
+ {
2644
+ "epoch": 0.8617142857142858,
2645
+ "grad_norm": NaN,
2646
+ "learning_rate": 7.619565441057075e-06,
2647
+ "loss": 0.0,
2648
+ "step": 377
2649
+ },
2650
+ {
2651
+ "epoch": 0.864,
2652
+ "grad_norm": NaN,
2653
+ "learning_rate": 7.37408150697953e-06,
2654
+ "loss": 0.0,
2655
+ "step": 378
2656
+ },
2657
+ {
2658
+ "epoch": 0.8662857142857143,
2659
+ "grad_norm": NaN,
2660
+ "learning_rate": 7.132301910406503e-06,
2661
+ "loss": 0.0,
2662
+ "step": 379
2663
+ },
2664
+ {
2665
+ "epoch": 0.8685714285714285,
2666
+ "grad_norm": NaN,
2667
+ "learning_rate": 6.894247662808456e-06,
2668
+ "loss": 0.0,
2669
+ "step": 380
2670
+ },
2671
+ {
2672
+ "epoch": 0.8708571428571429,
2673
+ "grad_norm": NaN,
2674
+ "learning_rate": 6.659939451910341e-06,
2675
+ "loss": 0.0,
2676
+ "step": 381
2677
+ },
2678
+ {
2679
+ "epoch": 0.8731428571428571,
2680
+ "grad_norm": NaN,
2681
+ "learning_rate": 6.429397639893758e-06,
2682
+ "loss": 0.0,
2683
+ "step": 382
2684
+ },
2685
+ {
2686
+ "epoch": 0.8754285714285714,
2687
+ "grad_norm": NaN,
2688
+ "learning_rate": 6.202642261627411e-06,
2689
+ "loss": 0.0,
2690
+ "step": 383
2691
+ },
2692
+ {
2693
+ "epoch": 0.8777142857142857,
2694
+ "grad_norm": NaN,
2695
+ "learning_rate": 5.979693022926025e-06,
2696
+ "loss": 0.0,
2697
+ "step": 384
2698
+ },
2699
+ {
2700
+ "epoch": 0.88,
2701
+ "grad_norm": NaN,
2702
+ "learning_rate": 5.7605692988378255e-06,
2703
+ "loss": 0.0,
2704
+ "step": 385
2705
+ },
2706
+ {
2707
+ "epoch": 0.8822857142857143,
2708
+ "grad_norm": NaN,
2709
+ "learning_rate": 5.5452901319607894e-06,
2710
+ "loss": 0.0,
2711
+ "step": 386
2712
+ },
2713
+ {
2714
+ "epoch": 0.8845714285714286,
2715
+ "grad_norm": NaN,
2716
+ "learning_rate": 5.333874230787772e-06,
2717
+ "loss": 0.0,
2718
+ "step": 387
2719
+ },
2720
+ {
2721
+ "epoch": 0.8868571428571429,
2722
+ "grad_norm": NaN,
2723
+ "learning_rate": 5.126339968080696e-06,
2724
+ "loss": 0.0,
2725
+ "step": 388
2726
+ },
2727
+ {
2728
+ "epoch": 0.8891428571428571,
2729
+ "grad_norm": NaN,
2730
+ "learning_rate": 4.922705379273862e-06,
2731
+ "loss": 0.0,
2732
+ "step": 389
2733
+ },
2734
+ {
2735
+ "epoch": 0.8914285714285715,
2736
+ "grad_norm": NaN,
2737
+ "learning_rate": 4.722988160906638e-06,
2738
+ "loss": 0.0,
2739
+ "step": 390
2740
+ },
2741
+ {
2742
+ "epoch": 0.8937142857142857,
2743
+ "grad_norm": NaN,
2744
+ "learning_rate": 4.527205669085549e-06,
2745
+ "loss": 0.0,
2746
+ "step": 391
2747
+ },
2748
+ {
2749
+ "epoch": 0.896,
2750
+ "grad_norm": NaN,
2751
+ "learning_rate": 4.335374917975981e-06,
2752
+ "loss": 0.0,
2753
+ "step": 392
2754
+ },
2755
+ {
2756
+ "epoch": 0.8982857142857142,
2757
+ "grad_norm": NaN,
2758
+ "learning_rate": 4.147512578323614e-06,
2759
+ "loss": 0.0,
2760
+ "step": 393
2761
+ },
2762
+ {
2763
+ "epoch": 0.9005714285714286,
2764
+ "grad_norm": NaN,
2765
+ "learning_rate": 3.963634976005642e-06,
2766
+ "loss": 0.0,
2767
+ "step": 394
2768
+ },
2769
+ {
2770
+ "epoch": 0.9028571428571428,
2771
+ "grad_norm": NaN,
2772
+ "learning_rate": 3.783758090611983e-06,
2773
+ "loss": 0.0,
2774
+ "step": 395
2775
+ },
2776
+ {
2777
+ "epoch": 0.9051428571428571,
2778
+ "grad_norm": NaN,
2779
+ "learning_rate": 3.6078975540566716e-06,
2780
+ "loss": 0.0,
2781
+ "step": 396
2782
+ },
2783
+ {
2784
+ "epoch": 0.9074285714285715,
2785
+ "grad_norm": NaN,
2786
+ "learning_rate": 3.436068649219326e-06,
2787
+ "loss": 0.0,
2788
+ "step": 397
2789
+ },
2790
+ {
2791
+ "epoch": 0.9097142857142857,
2792
+ "grad_norm": NaN,
2793
+ "learning_rate": 3.268286308617041e-06,
2794
+ "loss": 0.0,
2795
+ "step": 398
2796
+ },
2797
+ {
2798
+ "epoch": 0.912,
2799
+ "grad_norm": NaN,
2800
+ "learning_rate": 3.1045651131066887e-06,
2801
+ "loss": 0.0,
2802
+ "step": 399
2803
+ },
2804
+ {
2805
+ "epoch": 0.9142857142857143,
2806
+ "grad_norm": NaN,
2807
+ "learning_rate": 2.94491929061782e-06,
2808
+ "loss": 0.0,
2809
+ "step": 400
2810
+ },
2811
+ {
2812
+ "epoch": 0.9165714285714286,
2813
+ "grad_norm": NaN,
2814
+ "learning_rate": 2.7893627149161716e-06,
2815
+ "loss": 0.0,
2816
+ "step": 401
2817
+ },
2818
+ {
2819
+ "epoch": 0.9188571428571428,
2820
+ "grad_norm": NaN,
2821
+ "learning_rate": 2.6379089043980067e-06,
2822
+ "loss": 0.0,
2823
+ "step": 402
2824
+ },
2825
+ {
2826
+ "epoch": 0.9211428571428572,
2827
+ "grad_norm": NaN,
2828
+ "learning_rate": 2.4905710209153223e-06,
2829
+ "loss": 0.0,
2830
+ "step": 403
2831
+ },
2832
+ {
2833
+ "epoch": 0.9234285714285714,
2834
+ "grad_norm": NaN,
2835
+ "learning_rate": 2.3473618686320474e-06,
2836
+ "loss": 0.0,
2837
+ "step": 404
2838
+ },
2839
+ {
2840
+ "epoch": 0.9257142857142857,
2841
+ "grad_norm": NaN,
2842
+ "learning_rate": 2.208293892911284e-06,
2843
+ "loss": 0.0,
2844
+ "step": 405
2845
+ },
2846
+ {
2847
+ "epoch": 0.928,
2848
+ "grad_norm": NaN,
2849
+ "learning_rate": 2.07337917923382e-06,
2850
+ "loss": 0.0,
2851
+ "step": 406
2852
+ },
2853
+ {
2854
+ "epoch": 0.9302857142857143,
2855
+ "grad_norm": NaN,
2856
+ "learning_rate": 1.9426294521477873e-06,
2857
+ "loss": 0.0,
2858
+ "step": 407
2859
+ },
2860
+ {
2861
+ "epoch": 0.9325714285714286,
2862
+ "grad_norm": NaN,
2863
+ "learning_rate": 1.8160560742498222e-06,
2864
+ "loss": 0.0,
2865
+ "step": 408
2866
+ },
2867
+ {
2868
+ "epoch": 0.9348571428571428,
2869
+ "grad_norm": NaN,
2870
+ "learning_rate": 1.6936700451975817e-06,
2871
+ "loss": 0.0,
2872
+ "step": 409
2873
+ },
2874
+ {
2875
+ "epoch": 0.9371428571428572,
2876
+ "grad_norm": NaN,
2877
+ "learning_rate": 1.5754820007538474e-06,
2878
+ "loss": 0.0,
2879
+ "step": 410
2880
+ },
2881
+ {
2882
+ "epoch": 0.9394285714285714,
2883
+ "grad_norm": NaN,
2884
+ "learning_rate": 1.4615022118622367e-06,
2885
+ "loss": 0.0,
2886
+ "step": 411
2887
+ },
2888
+ {
2889
+ "epoch": 0.9417142857142857,
2890
+ "grad_norm": NaN,
2891
+ "learning_rate": 1.3517405837546403e-06,
2892
+ "loss": 0.0,
2893
+ "step": 412
2894
+ },
2895
+ {
2896
+ "epoch": 0.944,
2897
+ "grad_norm": NaN,
2898
+ "learning_rate": 1.2462066550903817e-06,
2899
+ "loss": 0.0,
2900
+ "step": 413
2901
+ },
2902
+ {
2903
+ "epoch": 0.9462857142857143,
2904
+ "grad_norm": NaN,
2905
+ "learning_rate": 1.1449095971273305e-06,
2906
+ "loss": 0.0,
2907
+ "step": 414
2908
+ },
2909
+ {
2910
+ "epoch": 0.9485714285714286,
2911
+ "grad_norm": NaN,
2912
+ "learning_rate": 1.0478582129248515e-06,
2913
+ "loss": 0.0,
2914
+ "step": 415
2915
+ },
2916
+ {
2917
+ "epoch": 0.9508571428571428,
2918
+ "grad_norm": NaN,
2919
+ "learning_rate": 9.550609365787888e-07,
2920
+ "loss": 0.0,
2921
+ "step": 416
2922
+ },
2923
+ {
2924
+ "epoch": 0.9531428571428572,
2925
+ "grad_norm": NaN,
2926
+ "learning_rate": 8.66525832488535e-07,
2927
+ "loss": 0.0,
2928
+ "step": 417
2929
+ },
2930
+ {
2931
+ "epoch": 0.9554285714285714,
2932
+ "grad_norm": NaN,
2933
+ "learning_rate": 7.822605946561923e-07,
2934
+ "loss": 0.0,
2935
+ "step": 418
2936
+ },
2937
+ {
2938
+ "epoch": 0.9577142857142857,
2939
+ "grad_norm": NaN,
2940
+ "learning_rate": 7.022725460179457e-07,
2941
+ "loss": 0.0,
2942
+ "step": 419
2943
+ },
2944
+ {
2945
+ "epoch": 0.96,
2946
+ "grad_norm": NaN,
2947
+ "learning_rate": 6.265686378076729e-07,
2948
+ "loss": 0.0,
2949
+ "step": 420
2950
+ },
2951
+ {
2952
+ "epoch": 0.9622857142857143,
2953
+ "grad_norm": NaN,
2954
+ "learning_rate": 5.551554489528432e-07,
2955
+ "loss": 0.0,
2956
+ "step": 421
2957
+ },
2958
+ {
2959
+ "epoch": 0.9645714285714285,
2960
+ "grad_norm": NaN,
2961
+ "learning_rate": 4.880391855028088e-07,
2962
+ "loss": 0.0,
2963
+ "step": 422
2964
+ },
2965
+ {
2966
+ "epoch": 0.9668571428571429,
2967
+ "grad_norm": NaN,
2968
+ "learning_rate": 4.252256800894694e-07,
2969
+ "loss": 0.0,
2970
+ "step": 423
2971
+ },
2972
+ {
2973
+ "epoch": 0.9691428571428572,
2974
+ "grad_norm": NaN,
2975
+ "learning_rate": 3.667203914203943e-07,
2976
+ "loss": 0.0,
2977
+ "step": 424
2978
+ },
2979
+ {
2980
+ "epoch": 0.9714285714285714,
2981
+ "grad_norm": NaN,
2982
+ "learning_rate": 3.1252840380444073e-07,
2983
+ "loss": 0.0,
2984
+ "step": 425
2985
+ },
2986
+ {
2987
+ "epoch": 0.9737142857142858,
2988
+ "grad_norm": NaN,
2989
+ "learning_rate": 2.626544267099129e-07,
2990
+ "loss": 0.0,
2991
+ "step": 426
2992
+ },
2993
+ {
2994
+ "epoch": 0.976,
2995
+ "grad_norm": NaN,
2996
+ "learning_rate": 2.1710279435530057e-07,
2997
+ "loss": 0.0,
2998
+ "step": 427
2999
+ },
3000
+ {
3001
+ "epoch": 0.9782857142857143,
3002
+ "grad_norm": NaN,
3003
+ "learning_rate": 1.7587746533260784e-07,
3004
+ "loss": 0.0,
3005
+ "step": 428
3006
+ },
3007
+ {
3008
+ "epoch": 0.9805714285714285,
3009
+ "grad_norm": NaN,
3010
+ "learning_rate": 1.3898202226333423e-07,
3011
+ "loss": 0.0,
3012
+ "step": 429
3013
+ },
3014
+ {
3015
+ "epoch": 0.9828571428571429,
3016
+ "grad_norm": NaN,
3017
+ "learning_rate": 1.0641967148716236e-07,
3018
+ "loss": 0.0,
3019
+ "step": 430
3020
+ },
3021
+ {
3022
+ "epoch": 0.9851428571428571,
3023
+ "grad_norm": NaN,
3024
+ "learning_rate": 7.8193242783281e-08,
3025
+ "loss": 0.0,
3026
+ "step": 431
3027
+ },
3028
+ {
3029
+ "epoch": 0.9874285714285714,
3030
+ "grad_norm": NaN,
3031
+ "learning_rate": 5.430518912448168e-08,
3032
+ "loss": 0.0,
3033
+ "step": 432
3034
+ },
3035
+ {
3036
+ "epoch": 0.9897142857142858,
3037
+ "grad_norm": NaN,
3038
+ "learning_rate": 3.475758646400151e-08,
3039
+ "loss": 0.0,
3040
+ "step": 433
3041
+ },
3042
+ {
3043
+ "epoch": 0.992,
3044
+ "grad_norm": NaN,
3045
+ "learning_rate": 1.9552133555084117e-08,
3046
+ "loss": 0.0,
3047
+ "step": 434
3048
+ },
3049
+ {
3050
+ "epoch": 0.9942857142857143,
3051
+ "grad_norm": NaN,
3052
+ "learning_rate": 8.690151803386616e-09,
3053
+ "loss": 0.0,
3054
+ "step": 435
3055
+ },
3056
+ {
3057
+ "epoch": 0.9965714285714286,
3058
+ "grad_norm": NaN,
3059
+ "learning_rate": 2.1725851521103846e-09,
3060
+ "loss": 0.0,
3061
+ "step": 436
3062
+ },
3063
+ {
3064
+ "epoch": 0.9988571428571429,
3065
+ "grad_norm": NaN,
3066
+ "learning_rate": 0.0,
3067
+ "loss": 0.0,
3068
+ "step": 437
3069
  }
3070
  ],
3071
  "logging_steps": 1,
 
3080
  "should_evaluate": false,
3081
  "should_log": false,
3082
  "should_save": true,
3083
+ "should_training_stop": true
3084
  },
3085
  "attributes": {}
3086
  }
3087
  },
3088
+ "total_flos": 5599012097359872.0,
3089
  "train_batch_size": 8,
3090
  "trial_name": null,
3091
  "trial_params": null