| global_step,perplexity,eval_loss,train_loss | |
| 33469,tensor(495.9851),6.20654563341468,5.897248268127441 | |
| 66938,tensor(168.4102),5.126402866097105,4.590975284576416 | |
| 70000,tensor(80.6666),4.390325209321234,3.7873992919921875 | |
| 100407,tensor(21.6076),3.0730473043666247,2.3850345611572266 | |
| 133876,tensor(15.5963),2.7470345135873617,2.2173330783843994 | |
| 140000,tensor(15.0608),2.7120934600355313,2.068357467651367 | |
| 167345,tensor(13.4429),2.598450262515426,2.157835006713867 | |
| 200814,tensor(12.2196),2.503041290542594,1.883992314338684 | |
| 210000,tensor(11.8532),2.4726015753277033,1.8340803384780884 | |
| 234283,tensor(11.3319),2.4276199680327677,1.8948110342025757 | |
| 267752,tensor(10.7101),2.3711857266360403,1.6326630115509033 | |
| 280000,tensor(10.5675),2.3577842654497396,1.7336448431015015 | |
| 301221,tensor(10.3335),2.335391764582615,2.0111379623413086 | |
| 334690,tensor(9.9195),2.2945015443270194,1.8034934997558594 | |
| 350000,tensor(9.7949),2.2818656015246312,1.4923876523971558 | |
| 368159,tensor(9.6421),2.2661435398259218,1.703298807144165 | |
| 401628,tensor(9.3831),2.238909857998498,1.773614764213562 | |
| 420000,tensor(9.2530),2.224950270643552,1.617546796798706 | |
| 435097,tensor(9.1846),2.217525634185423,1.5115395784378052 | |
| 468566,tensor(8.9720),2.194107189911353,1.1986712217330933 | |
| 490000,tensor(8.8782),2.1836008869576076,1.4819477796554565 | |
| 502035,tensor(8.8325),2.1784429578691245,1.4174996614456177 | |
| 535504,tensor(8.6801),2.161031563812664,1.6201128959655762 | |
| 560000,tensor(8.5960),2.151301508107699,1.6956605911254883 | |
| 568973,tensor(8.5537),2.146366256599325,1.7156400680541992 | |
| 602442,tensor(8.4695),2.1364745169431476,1.6572712659835815 | |
| 630000,tensor(8.4023),2.128499818847858,1.428807258605957 | |
| 635911,tensor(8.3994),2.1281595396903357,1.6430681943893433 | |
| 669380,tensor(8.3442),2.1215673249634412,1.7592811584472656 | |