ManganumT5-small-separated-augmented / trainer_state.json

Upload 9 files

4d86992 verified 15 days ago

129 kB

	{
	"best_global_step": 199000,
	"best_metric": 0.003153804922476411,
	"best_model_checkpoint": "./models/t5-small-separated-augmented-200k\\checkpoint-199000",
	"epoch": 1.9558180698031469,
	"eval_steps": 1000,
	"global_step": 200000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.004889545174507868,
	"grad_norm": 0.5060574412345886,
	"learning_rate": 1.7465e-05,
	"loss": 6.6771,
	"step": 500
	},
	{
	"epoch": 0.009779090349015735,
	"grad_norm": 0.35827475786209106,
	"learning_rate": 3.4965e-05,
	"loss": 0.1893,
	"step": 1000
	},
	{
	"epoch": 0.009779090349015735,
	"eval_accuracy": 0.9878454285714285,
	"eval_loss": 0.09678807854652405,
	"eval_runtime": 54.2373,
	"eval_samples_per_second": 553.125,
	"eval_steps_per_second": 34.57,
	"step": 1000
	},
	{
	"epoch": 0.014668635523523602,
	"grad_norm": 0.34889769554138184,
	"learning_rate": 5.2465e-05,
	"loss": 0.1447,
	"step": 1500
	},
	{
	"epoch": 0.01955818069803147,
	"grad_norm": 0.23819516599178314,
	"learning_rate": 6.9965e-05,
	"loss": 0.1206,
	"step": 2000
	},
	{
	"epoch": 0.01955818069803147,
	"eval_accuracy": 0.9902656666666667,
	"eval_loss": 0.073659747838974,
	"eval_runtime": 53.4879,
	"eval_samples_per_second": 560.875,
	"eval_steps_per_second": 35.055,
	"step": 2000
	},
	{
	"epoch": 0.024447725872539336,
	"grad_norm": 0.22346411645412445,
	"learning_rate": 8.7465e-05,
	"loss": 0.1088,
	"step": 2500
	},
	{
	"epoch": 0.029337271047047205,
	"grad_norm": 0.1609542965888977,
	"learning_rate": 0.000104965,
	"loss": 0.1005,
	"step": 3000
	},
	{
	"epoch": 0.029337271047047205,
	"eval_accuracy": 0.9918363809523809,
	"eval_loss": 0.05878164619207382,
	"eval_runtime": 55.0708,
	"eval_samples_per_second": 544.753,
	"eval_steps_per_second": 34.047,
	"step": 3000
	},
	{
	"epoch": 0.03422681622155507,
	"grad_norm": 0.16877996921539307,
	"learning_rate": 0.000122465,
	"loss": 0.0921,
	"step": 3500
	},
	{
	"epoch": 0.03911636139606294,
	"grad_norm": 0.19500480592250824,
	"learning_rate": 0.00013996499999999998,
	"loss": 0.0857,
	"step": 4000
	},
	{
	"epoch": 0.03911636139606294,
	"eval_accuracy": 0.992877380952381,
	"eval_loss": 0.05044129863381386,
	"eval_runtime": 52.8632,
	"eval_samples_per_second": 567.503,
	"eval_steps_per_second": 35.469,
	"step": 4000
	},
	{
	"epoch": 0.0440059065705708,
	"grad_norm": 0.2271735668182373,
	"learning_rate": 0.000157465,
	"loss": 0.0785,
	"step": 4500
	},
	{
	"epoch": 0.04889545174507867,
	"grad_norm": 0.15599773824214935,
	"learning_rate": 0.000174965,
	"loss": 0.0743,
	"step": 5000
	},
	{
	"epoch": 0.04889545174507867,
	"eval_accuracy": 0.993641380952381,
	"eval_loss": 0.04416767507791519,
	"eval_runtime": 53.9114,
	"eval_samples_per_second": 556.469,
	"eval_steps_per_second": 34.779,
	"step": 5000
	},
	{
	"epoch": 0.05378499691958654,
	"grad_norm": 0.13649936020374298,
	"learning_rate": 0.000192465,
	"loss": 0.0696,
	"step": 5500
	},
	{
	"epoch": 0.05867454209409441,
	"grad_norm": 0.17215129733085632,
	"learning_rate": 0.000209965,
	"loss": 0.0669,
	"step": 6000
	},
	{
	"epoch": 0.05867454209409441,
	"eval_accuracy": 0.994305380952381,
	"eval_loss": 0.03922554850578308,
	"eval_runtime": 53.2344,
	"eval_samples_per_second": 563.546,
	"eval_steps_per_second": 35.222,
	"step": 6000
	},
	{
	"epoch": 0.06356408726860227,
	"grad_norm": 0.21248804032802582,
	"learning_rate": 0.00022746500000000002,
	"loss": 0.0636,
	"step": 6500
	},
	{
	"epoch": 0.06845363244311015,
	"grad_norm": 0.2209671139717102,
	"learning_rate": 0.000244965,
	"loss": 0.062,
	"step": 7000
	},
	{
	"epoch": 0.06845363244311015,
	"eval_accuracy": 0.9948234285714286,
	"eval_loss": 0.035148605704307556,
	"eval_runtime": 53.6983,
	"eval_samples_per_second": 558.677,
	"eval_steps_per_second": 34.917,
	"step": 7000
	},
	{
	"epoch": 0.07334317761761801,
	"grad_norm": 0.16804896295070648,
	"learning_rate": 0.000262465,
	"loss": 0.0584,
	"step": 7500
	},
	{
	"epoch": 0.07823272279212588,
	"grad_norm": 0.13331238925457,
	"learning_rate": 0.000279965,
	"loss": 0.0576,
	"step": 8000
	},
	{
	"epoch": 0.07823272279212588,
	"eval_accuracy": 0.995110619047619,
	"eval_loss": 0.03278239071369171,
	"eval_runtime": 52.8459,
	"eval_samples_per_second": 567.688,
	"eval_steps_per_second": 35.481,
	"step": 8000
	},
	{
	"epoch": 0.08312226796663374,
	"grad_norm": 0.15275965631008148,
	"learning_rate": 0.000297465,
	"loss": 0.0545,
	"step": 8500
	},
	{
	"epoch": 0.0880118131411416,
	"grad_norm": 0.14770014584064484,
	"learning_rate": 0.000314965,
	"loss": 0.0509,
	"step": 9000
	},
	{
	"epoch": 0.0880118131411416,
	"eval_accuracy": 0.9955557619047619,
	"eval_loss": 0.029773302376270294,
	"eval_runtime": 53.681,
	"eval_samples_per_second": 558.857,
	"eval_steps_per_second": 34.929,
	"step": 9000
	},
	{
	"epoch": 0.09290135831564948,
	"grad_norm": 0.13802163302898407,
	"learning_rate": 0.000332465,
	"loss": 0.0503,
	"step": 9500
	},
	{
	"epoch": 0.09779090349015734,
	"grad_norm": 0.16345028579235077,
	"learning_rate": 0.000349965,
	"loss": 0.0492,
	"step": 10000
	},
	{
	"epoch": 0.09779090349015734,
	"eval_accuracy": 0.9958419047619048,
	"eval_loss": 0.027848461642861366,
	"eval_runtime": 53.5151,
	"eval_samples_per_second": 560.589,
	"eval_steps_per_second": 35.037,
	"step": 10000
	},
	{
	"epoch": 0.10268044866466522,
	"grad_norm": 0.09112809598445892,
	"learning_rate": 0.00036746500000000003,
	"loss": 0.0475,
	"step": 10500
	},
	{
	"epoch": 0.10756999383917308,
	"grad_norm": 0.20798154175281525,
	"learning_rate": 0.000384965,
	"loss": 0.046,
	"step": 11000
	},
	{
	"epoch": 0.10756999383917308,
	"eval_accuracy": 0.99604,
	"eval_loss": 0.026027251034975052,
	"eval_runtime": 53.2138,
	"eval_samples_per_second": 563.764,
	"eval_steps_per_second": 35.235,
	"step": 11000
	},
	{
	"epoch": 0.11245953901368094,
	"grad_norm": 0.19015829265117645,
	"learning_rate": 0.00040246499999999996,
	"loss": 0.0432,
	"step": 11500
	},
	{
	"epoch": 0.11734908418818882,
	"grad_norm": 0.12272685021162033,
	"learning_rate": 0.000419965,
	"loss": 0.0434,
	"step": 12000
	},
	{
	"epoch": 0.11734908418818882,
	"eval_accuracy": 0.9963316666666666,
	"eval_loss": 0.024126138538122177,
	"eval_runtime": 53.0184,
	"eval_samples_per_second": 565.841,
	"eval_steps_per_second": 35.365,
	"step": 12000
	},
	{
	"epoch": 0.12223862936269668,
	"grad_norm": 0.10090415924787521,
	"learning_rate": 0.000437465,
	"loss": 0.0425,
	"step": 12500
	},
	{
	"epoch": 0.12712817453720454,
	"grad_norm": 0.113510861992836,
	"learning_rate": 0.000454965,
	"loss": 0.0412,
	"step": 13000
	},
	{
	"epoch": 0.12712817453720454,
	"eval_accuracy": 0.9965295714285715,
	"eval_loss": 0.022982601076364517,
	"eval_runtime": 54.4384,
	"eval_samples_per_second": 551.082,
	"eval_steps_per_second": 34.443,
	"step": 13000
	},
	{
	"epoch": 0.13201771971171242,
	"grad_norm": 0.09937796741724014,
	"learning_rate": 0.00047246500000000004,
	"loss": 0.04,
	"step": 13500
	},
	{
	"epoch": 0.1369072648862203,
	"grad_norm": 0.11914831399917603,
	"learning_rate": 0.000489965,
	"loss": 0.0389,
	"step": 14000
	},
	{
	"epoch": 0.1369072648862203,
	"eval_accuracy": 0.996802,
	"eval_loss": 0.02113029547035694,
	"eval_runtime": 53.2003,
	"eval_samples_per_second": 563.907,
	"eval_steps_per_second": 35.244,
	"step": 14000
	},
	{
	"epoch": 0.14179681006072814,
	"grad_norm": 0.17324307560920715,
	"learning_rate": 0.000507465,
	"loss": 0.0384,
	"step": 14500
	},
	{
	"epoch": 0.14668635523523602,
	"grad_norm": 0.12623025476932526,
	"learning_rate": 0.000524965,
	"loss": 0.0364,
	"step": 15000
	},
	{
	"epoch": 0.14668635523523602,
	"eval_accuracy": 0.9968850476190476,
	"eval_loss": 0.020160900428891182,
	"eval_runtime": 53.6937,
	"eval_samples_per_second": 558.725,
	"eval_steps_per_second": 34.92,
	"step": 15000
	},
	{
	"epoch": 0.1515759004097439,
	"grad_norm": 0.1337081342935562,
	"learning_rate": 0.000542465,
	"loss": 0.0367,
	"step": 15500
	},
	{
	"epoch": 0.15646544558425177,
	"grad_norm": 0.16239804029464722,
	"learning_rate": 0.000559965,
	"loss": 0.0357,
	"step": 16000
	},
	{
	"epoch": 0.15646544558425177,
	"eval_accuracy": 0.9969695714285715,
	"eval_loss": 0.020250126719474792,
	"eval_runtime": 54.2376,
	"eval_samples_per_second": 553.122,
	"eval_steps_per_second": 34.57,
	"step": 16000
	},
	{
	"epoch": 0.16135499075875961,
	"grad_norm": 0.09299212694168091,
	"learning_rate": 0.000577465,
	"loss": 0.0356,
	"step": 16500
	},
	{
	"epoch": 0.1662445359332675,
	"grad_norm": 0.12462040781974792,
	"learning_rate": 0.000594965,
	"loss": 0.0343,
	"step": 17000
	},
	{
	"epoch": 0.1662445359332675,
	"eval_accuracy": 0.9971193333333334,
	"eval_loss": 0.01877717673778534,
	"eval_runtime": 54.3351,
	"eval_samples_per_second": 552.13,
	"eval_steps_per_second": 34.508,
	"step": 17000
	},
	{
	"epoch": 0.17113408110777537,
	"grad_norm": 0.08858466893434525,
	"learning_rate": 0.000612465,
	"loss": 0.0337,
	"step": 17500
	},
	{
	"epoch": 0.1760236262822832,
	"grad_norm": 0.14879809319972992,
	"learning_rate": 0.000629965,
	"loss": 0.0335,
	"step": 18000
	},
	{
	"epoch": 0.1760236262822832,
	"eval_accuracy": 0.9971792380952381,
	"eval_loss": 0.018667874857783318,
	"eval_runtime": 54.7854,
	"eval_samples_per_second": 547.591,
	"eval_steps_per_second": 34.224,
	"step": 18000
	},
	{
	"epoch": 0.1809131714567911,
	"grad_norm": 0.10354409366846085,
	"learning_rate": 0.0006474650000000001,
	"loss": 0.032,
	"step": 18500
	},
	{
	"epoch": 0.18580271663129896,
	"grad_norm": 0.1182965636253357,
	"learning_rate": 0.000664965,
	"loss": 0.0318,
	"step": 19000
	},
	{
	"epoch": 0.18580271663129896,
	"eval_accuracy": 0.9973930952380953,
	"eval_loss": 0.017232514917850494,
	"eval_runtime": 53.7973,
	"eval_samples_per_second": 557.649,
	"eval_steps_per_second": 34.853,
	"step": 19000
	},
	{
	"epoch": 0.1906922618058068,
	"grad_norm": 0.05959112569689751,
	"learning_rate": 0.0006824649999999999,
	"loss": 0.0318,
	"step": 19500
	},
	{
	"epoch": 0.1955818069803147,
	"grad_norm": 0.1270582675933838,
	"learning_rate": 0.000699965,
	"loss": 0.0307,
	"step": 20000
	},
	{
	"epoch": 0.1955818069803147,
	"eval_accuracy": 0.9973767619047619,
	"eval_loss": 0.01737845316529274,
	"eval_runtime": 53.2789,
	"eval_samples_per_second": 563.075,
	"eval_steps_per_second": 35.192,
	"step": 20000
	},
	{
	"epoch": 0.20047135215482256,
	"grad_norm": 0.08427739888429642,
	"learning_rate": 0.0006980594444444445,
	"loss": 0.0298,
	"step": 20500
	},
	{
	"epoch": 0.20536089732933044,
	"grad_norm": 0.07171203941106796,
	"learning_rate": 0.000696115,
	"loss": 0.0293,
	"step": 21000
	},
	{
	"epoch": 0.20536089732933044,
	"eval_accuracy": 0.9975350952380952,
	"eval_loss": 0.016114523634314537,
	"eval_runtime": 53.7368,
	"eval_samples_per_second": 558.277,
	"eval_steps_per_second": 34.892,
	"step": 21000
	},
	{
	"epoch": 0.2102504425038383,
	"grad_norm": 0.07719539105892181,
	"learning_rate": 0.0006941705555555555,
	"loss": 0.0291,
	"step": 21500
	},
	{
	"epoch": 0.21513998767834616,
	"grad_norm": 0.08832105249166489,
	"learning_rate": 0.0006922261111111111,
	"loss": 0.0286,
	"step": 22000
	},
	{
	"epoch": 0.21513998767834616,
	"eval_accuracy": 0.9976384285714286,
	"eval_loss": 0.015542366541922092,
	"eval_runtime": 53.6783,
	"eval_samples_per_second": 558.885,
	"eval_steps_per_second": 34.93,
	"step": 22000
	},
	{
	"epoch": 0.22002953285285404,
	"grad_norm": 0.1472863107919693,
	"learning_rate": 0.0006902816666666667,
	"loss": 0.0277,
	"step": 22500
	},
	{
	"epoch": 0.22491907802736189,
	"grad_norm": 0.09753895550966263,
	"learning_rate": 0.0006883372222222222,
	"loss": 0.0268,
	"step": 23000
	},
	{
	"epoch": 0.22491907802736189,
	"eval_accuracy": 0.9977074761904762,
	"eval_loss": 0.015192433260381222,
	"eval_runtime": 53.436,
	"eval_samples_per_second": 561.419,
	"eval_steps_per_second": 35.089,
	"step": 23000
	},
	{
	"epoch": 0.22980862320186976,
	"grad_norm": 0.12348861992359161,
	"learning_rate": 0.0006863927777777778,
	"loss": 0.026,
	"step": 23500
	},
	{
	"epoch": 0.23469816837637764,
	"grad_norm": 0.1123756393790245,
	"learning_rate": 0.0006844483333333333,
	"loss": 0.0257,
	"step": 24000
	},
	{
	"epoch": 0.23469816837637764,
	"eval_accuracy": 0.997726761904762,
	"eval_loss": 0.014932113699615002,
	"eval_runtime": 53.1941,
	"eval_samples_per_second": 563.972,
	"eval_steps_per_second": 35.248,
	"step": 24000
	},
	{
	"epoch": 0.23958771355088548,
	"grad_norm": 0.07256095856428146,
	"learning_rate": 0.0006825038888888889,
	"loss": 0.0256,
	"step": 24500
	},
	{
	"epoch": 0.24447725872539336,
	"grad_norm": 0.05496814846992493,
	"learning_rate": 0.0006805594444444444,
	"loss": 0.0251,
	"step": 25000
	},
	{
	"epoch": 0.24447725872539336,
	"eval_accuracy": 0.9978721904761905,
	"eval_loss": 0.01384472381323576,
	"eval_runtime": 54.0604,
	"eval_samples_per_second": 554.935,
	"eval_steps_per_second": 34.683,
	"step": 25000
	},
	{
	"epoch": 0.24936680389990123,
	"grad_norm": 0.09915214031934738,
	"learning_rate": 0.000678615,
	"loss": 0.0251,
	"step": 25500
	},
	{
	"epoch": 0.2542563490744091,
	"grad_norm": 0.14060749113559723,
	"learning_rate": 0.0006766705555555555,
	"loss": 0.0244,
	"step": 26000
	},
	{
	"epoch": 0.2542563490744091,
	"eval_accuracy": 0.9979192857142857,
	"eval_loss": 0.01368007156997919,
	"eval_runtime": 52.8524,
	"eval_samples_per_second": 567.618,
	"eval_steps_per_second": 35.476,
	"step": 26000
	},
	{
	"epoch": 0.259145894248917,
	"grad_norm": 0.09252548217773438,
	"learning_rate": 0.0006747261111111111,
	"loss": 0.024,
	"step": 26500
	},
	{
	"epoch": 0.26403543942342483,
	"grad_norm": 0.11915791034698486,
	"learning_rate": 0.0006727816666666666,
	"loss": 0.0232,
	"step": 27000
	},
	{
	"epoch": 0.26403543942342483,
	"eval_accuracy": 0.9980117142857143,
	"eval_loss": 0.012998638674616814,
	"eval_runtime": 54.0246,
	"eval_samples_per_second": 555.303,
	"eval_steps_per_second": 34.706,
	"step": 27000
	},
	{
	"epoch": 0.2689249845979327,
	"grad_norm": 0.10810112953186035,
	"learning_rate": 0.0006708372222222222,
	"loss": 0.0233,
	"step": 27500
	},
	{
	"epoch": 0.2738145297724406,
	"grad_norm": 0.07593973726034164,
	"learning_rate": 0.0006688927777777778,
	"loss": 0.0227,
	"step": 28000
	},
	{
	"epoch": 0.2738145297724406,
	"eval_accuracy": 0.9980548095238095,
	"eval_loss": 0.012805027887225151,
	"eval_runtime": 53.176,
	"eval_samples_per_second": 564.164,
	"eval_steps_per_second": 35.26,
	"step": 28000
	},
	{
	"epoch": 0.27870407494694843,
	"grad_norm": 0.06336738914251328,
	"learning_rate": 0.0006669483333333333,
	"loss": 0.0229,
	"step": 28500
	},
	{
	"epoch": 0.2835936201214563,
	"grad_norm": 0.12944093346595764,
	"learning_rate": 0.0006650038888888889,
	"loss": 0.0221,
	"step": 29000
	},
	{
	"epoch": 0.2835936201214563,
	"eval_accuracy": 0.9980741428571429,
	"eval_loss": 0.012613357976078987,
	"eval_runtime": 53.5915,
	"eval_samples_per_second": 559.79,
	"eval_steps_per_second": 34.987,
	"step": 29000
	},
	{
	"epoch": 0.2884831652959642,
	"grad_norm": 0.09919234365224838,
	"learning_rate": 0.0006630594444444445,
	"loss": 0.0213,
	"step": 29500
	},
	{
	"epoch": 0.29337271047047203,
	"grad_norm": 0.08204931020736694,
	"learning_rate": 0.000661115,
	"loss": 0.0219,
	"step": 30000
	},
	{
	"epoch": 0.29337271047047203,
	"eval_accuracy": 0.998159,
	"eval_loss": 0.011940201744437218,
	"eval_runtime": 53.1317,
	"eval_samples_per_second": 564.635,
	"eval_steps_per_second": 35.29,
	"step": 30000
	},
	{
	"epoch": 0.2982622556449799,
	"grad_norm": 0.11553770303726196,
	"learning_rate": 0.0006591705555555556,
	"loss": 0.0208,
	"step": 30500
	},
	{
	"epoch": 0.3031518008194878,
	"grad_norm": 0.12381038069725037,
	"learning_rate": 0.0006572261111111111,
	"loss": 0.0205,
	"step": 31000
	},
	{
	"epoch": 0.3031518008194878,
	"eval_accuracy": 0.9982196666666666,
	"eval_loss": 0.011603106744587421,
	"eval_runtime": 53.375,
	"eval_samples_per_second": 562.061,
	"eval_steps_per_second": 35.129,
	"step": 31000
	},
	{
	"epoch": 0.30804134599399563,
	"grad_norm": 0.06441524624824524,
	"learning_rate": 0.0006552816666666667,
	"loss": 0.0204,
	"step": 31500
	},
	{
	"epoch": 0.31293089116850353,
	"grad_norm": 0.08449769020080566,
	"learning_rate": 0.0006533372222222222,
	"loss": 0.0206,
	"step": 32000
	},
	{
	"epoch": 0.31293089116850353,
	"eval_accuracy": 0.9982467142857143,
	"eval_loss": 0.011421745643019676,
	"eval_runtime": 53.2003,
	"eval_samples_per_second": 563.907,
	"eval_steps_per_second": 35.244,
	"step": 32000
	},
	{
	"epoch": 0.3178204363430114,
	"grad_norm": 0.07885874062776566,
	"learning_rate": 0.0006513927777777777,
	"loss": 0.02,
	"step": 32500
	},
	{
	"epoch": 0.32270998151751923,
	"grad_norm": 0.07178321480751038,
	"learning_rate": 0.0006494483333333333,
	"loss": 0.0193,
	"step": 33000
	},
	{
	"epoch": 0.32270998151751923,
	"eval_accuracy": 0.9983428571428571,
	"eval_loss": 0.011021795682609081,
	"eval_runtime": 53.8106,
	"eval_samples_per_second": 557.511,
	"eval_steps_per_second": 34.844,
	"step": 33000
	},
	{
	"epoch": 0.32759952669202713,
	"grad_norm": 0.06164510175585747,
	"learning_rate": 0.0006475038888888888,
	"loss": 0.0192,
	"step": 33500
	},
	{
	"epoch": 0.332489071866535,
	"grad_norm": 0.11073775589466095,
	"learning_rate": 0.0006455594444444444,
	"loss": 0.0193,
	"step": 34000
	},
	{
	"epoch": 0.332489071866535,
	"eval_accuracy": 0.9983445238095238,
	"eval_loss": 0.010947330854833126,
	"eval_runtime": 53.4068,
	"eval_samples_per_second": 561.727,
	"eval_steps_per_second": 35.108,
	"step": 34000
	},
	{
	"epoch": 0.3373786170410428,
	"grad_norm": 0.1216714084148407,
	"learning_rate": 0.0006436149999999999,
	"loss": 0.0191,
	"step": 34500
	},
	{
	"epoch": 0.34226816221555073,
	"grad_norm": 0.07570644468069077,
	"learning_rate": 0.0006416705555555556,
	"loss": 0.0189,
	"step": 35000
	},
	{
	"epoch": 0.34226816221555073,
	"eval_accuracy": 0.9984051904761905,
	"eval_loss": 0.01051774900406599,
	"eval_runtime": 53.8775,
	"eval_samples_per_second": 556.819,
	"eval_steps_per_second": 34.801,
	"step": 35000
	},
	{
	"epoch": 0.3471577073900586,
	"grad_norm": 0.10820703208446503,
	"learning_rate": 0.0006397261111111112,
	"loss": 0.0187,
	"step": 35500
	},
	{
	"epoch": 0.3520472525645664,
	"grad_norm": 0.13289569318294525,
	"learning_rate": 0.0006377816666666667,
	"loss": 0.0181,
	"step": 36000
	},
	{
	"epoch": 0.3520472525645664,
	"eval_accuracy": 0.9984183333333333,
	"eval_loss": 0.010617985390126705,
	"eval_runtime": 53.6453,
	"eval_samples_per_second": 559.229,
	"eval_steps_per_second": 34.952,
	"step": 36000
	},
	{
	"epoch": 0.35693679773907433,
	"grad_norm": 0.09950833022594452,
	"learning_rate": 0.0006358372222222223,
	"loss": 0.0178,
	"step": 36500
	},
	{
	"epoch": 0.3618263429135822,
	"grad_norm": 0.12055996805429459,
	"learning_rate": 0.0006338927777777778,
	"loss": 0.0174,
	"step": 37000
	},
	{
	"epoch": 0.3618263429135822,
	"eval_accuracy": 0.9984319047619048,
	"eval_loss": 0.01043427549302578,
	"eval_runtime": 53.8445,
	"eval_samples_per_second": 557.16,
	"eval_steps_per_second": 34.823,
	"step": 37000
	},
	{
	"epoch": 0.36671588808809,
	"grad_norm": 0.08831817656755447,
	"learning_rate": 0.0006319483333333334,
	"loss": 0.0183,
	"step": 37500
	},
	{
	"epoch": 0.37160543326259793,
	"grad_norm": 0.09790224581956863,
	"learning_rate": 0.0006300038888888889,
	"loss": 0.0171,
	"step": 38000
	},
	{
	"epoch": 0.37160543326259793,
	"eval_accuracy": 0.9984588571428571,
	"eval_loss": 0.010330071672797203,
	"eval_runtime": 53.8512,
	"eval_samples_per_second": 557.091,
	"eval_steps_per_second": 34.818,
	"step": 38000
	},
	{
	"epoch": 0.3764949784371058,
	"grad_norm": 0.05283864215016365,
	"learning_rate": 0.0006280594444444444,
	"loss": 0.017,
	"step": 38500
	},
	{
	"epoch": 0.3813845236116136,
	"grad_norm": 0.12874823808670044,
	"learning_rate": 0.000626115,
	"loss": 0.0173,
	"step": 39000
	},
	{
	"epoch": 0.3813845236116136,
	"eval_accuracy": 0.9984891904761904,
	"eval_loss": 0.009993654675781727,
	"eval_runtime": 53.3842,
	"eval_samples_per_second": 561.964,
	"eval_steps_per_second": 35.123,
	"step": 39000
	},
	{
	"epoch": 0.3862740687861215,
	"grad_norm": 0.08774898201227188,
	"learning_rate": 0.0006241705555555555,
	"loss": 0.0173,
	"step": 39500
	},
	{
	"epoch": 0.3911636139606294,
	"grad_norm": 0.092228963971138,
	"learning_rate": 0.0006222261111111111,
	"loss": 0.0169,
	"step": 40000
	},
	{
	"epoch": 0.3911636139606294,
	"eval_accuracy": 0.9984447142857142,
	"eval_loss": 0.010405597276985645,
	"eval_runtime": 53.1659,
	"eval_samples_per_second": 564.272,
	"eval_steps_per_second": 35.267,
	"step": 40000
	},
	{
	"epoch": 0.3960531591351372,
	"grad_norm": 0.08975362032651901,
	"learning_rate": 0.0006202816666666666,
	"loss": 0.0174,
	"step": 40500
	},
	{
	"epoch": 0.4009427043096451,
	"grad_norm": 0.09612125158309937,
	"learning_rate": 0.0006183372222222222,
	"loss": 0.0168,
	"step": 41000
	},
	{
	"epoch": 0.4009427043096451,
	"eval_accuracy": 0.9985740952380953,
	"eval_loss": 0.009390046820044518,
	"eval_runtime": 53.7483,
	"eval_samples_per_second": 558.158,
	"eval_steps_per_second": 34.885,
	"step": 41000
	},
	{
	"epoch": 0.405832249484153,
	"grad_norm": 0.04056503251194954,
	"learning_rate": 0.0006163927777777777,
	"loss": 0.0163,
	"step": 41500
	},
	{
	"epoch": 0.4107217946586609,
	"grad_norm": 0.11665570735931396,
	"learning_rate": 0.0006144483333333333,
	"loss": 0.0165,
	"step": 42000
	},
	{
	"epoch": 0.4107217946586609,
	"eval_accuracy": 0.998547619047619,
	"eval_loss": 0.009648078121244907,
	"eval_runtime": 53.5013,
	"eval_samples_per_second": 560.734,
	"eval_steps_per_second": 35.046,
	"step": 42000
	},
	{
	"epoch": 0.4156113398331687,
	"grad_norm": 0.10102874785661697,
	"learning_rate": 0.000612503888888889,
	"loss": 0.0163,
	"step": 42500
	},
	{
	"epoch": 0.4205008850076766,
	"grad_norm": 0.08108735084533691,
	"learning_rate": 0.0006105594444444445,
	"loss": 0.0154,
	"step": 43000
	},
	{
	"epoch": 0.4205008850076766,
	"eval_accuracy": 0.998580380952381,
	"eval_loss": 0.009399999864399433,
	"eval_runtime": 53.6417,
	"eval_samples_per_second": 559.266,
	"eval_steps_per_second": 34.954,
	"step": 43000
	},
	{
	"epoch": 0.4253904301821845,
	"grad_norm": 0.07910118252038956,
	"learning_rate": 0.000608615,
	"loss": 0.0158,
	"step": 43500
	},
	{
	"epoch": 0.4302799753566923,
	"grad_norm": 0.0742466077208519,
	"learning_rate": 0.0006066705555555556,
	"loss": 0.0154,
	"step": 44000
	},
	{
	"epoch": 0.4302799753566923,
	"eval_accuracy": 0.9986305238095238,
	"eval_loss": 0.009053844027221203,
	"eval_runtime": 53.2625,
	"eval_samples_per_second": 563.248,
	"eval_steps_per_second": 35.203,
	"step": 44000
	},
	{
	"epoch": 0.43516952053120017,
	"grad_norm": 0.06712730973958969,
	"learning_rate": 0.0006047261111111111,
	"loss": 0.0157,
	"step": 44500
	},
	{
	"epoch": 0.4400590657057081,
	"grad_norm": 0.049518078565597534,
	"learning_rate": 0.0006027816666666667,
	"loss": 0.0154,
	"step": 45000
	},
	{
	"epoch": 0.4400590657057081,
	"eval_accuracy": 0.9986142857142857,
	"eval_loss": 0.009205291979014874,
	"eval_runtime": 55.4539,
	"eval_samples_per_second": 540.99,
	"eval_steps_per_second": 33.812,
	"step": 45000
	},
	{
	"epoch": 0.4449486108802159,
	"grad_norm": 0.0538068488240242,
	"learning_rate": 0.0006008372222222222,
	"loss": 0.0154,
	"step": 45500
	},
	{
	"epoch": 0.44983815605472377,
	"grad_norm": 0.08187378942966461,
	"learning_rate": 0.0005988927777777778,
	"loss": 0.015,
	"step": 46000
	},
	{
	"epoch": 0.44983815605472377,
	"eval_accuracy": 0.9986327142857143,
	"eval_loss": 0.009027380496263504,
	"eval_runtime": 53.2362,
	"eval_samples_per_second": 563.526,
	"eval_steps_per_second": 35.22,
	"step": 46000
	},
	{
	"epoch": 0.4547277012292317,
	"grad_norm": 0.04306895285844803,
	"learning_rate": 0.0005969483333333333,
	"loss": 0.0153,
	"step": 46500
	},
	{
	"epoch": 0.4596172464037395,
	"grad_norm": 0.053645290434360504,
	"learning_rate": 0.0005950038888888889,
	"loss": 0.0146,
	"step": 47000
	},
	{
	"epoch": 0.4596172464037395,
	"eval_accuracy": 0.998660619047619,
	"eval_loss": 0.008829508908092976,
	"eval_runtime": 54.0772,
	"eval_samples_per_second": 554.763,
	"eval_steps_per_second": 34.673,
	"step": 47000
	},
	{
	"epoch": 0.46450679157824737,
	"grad_norm": 0.08367203176021576,
	"learning_rate": 0.0005930594444444444,
	"loss": 0.0149,
	"step": 47500
	},
	{
	"epoch": 0.46939633675275527,
	"grad_norm": 0.06427811086177826,
	"learning_rate": 0.000591115,
	"loss": 0.0146,
	"step": 48000
	},
	{
	"epoch": 0.46939633675275527,
	"eval_accuracy": 0.9986682857142857,
	"eval_loss": 0.008711729198694229,
	"eval_runtime": 54.7568,
	"eval_samples_per_second": 547.877,
	"eval_steps_per_second": 34.242,
	"step": 48000
	},
	{
	"epoch": 0.4742858819272631,
	"grad_norm": 0.09367698431015015,
	"learning_rate": 0.0005891705555555556,
	"loss": 0.0146,
	"step": 48500
	},
	{
	"epoch": 0.47917542710177097,
	"grad_norm": 0.023252153769135475,
	"learning_rate": 0.0005872261111111111,
	"loss": 0.0143,
	"step": 49000
	},
	{
	"epoch": 0.47917542710177097,
	"eval_accuracy": 0.9987029047619047,
	"eval_loss": 0.00848183874040842,
	"eval_runtime": 53.9633,
	"eval_samples_per_second": 555.933,
	"eval_steps_per_second": 34.746,
	"step": 49000
	},
	{
	"epoch": 0.48406497227627887,
	"grad_norm": 0.038976676762104034,
	"learning_rate": 0.0005852816666666666,
	"loss": 0.0142,
	"step": 49500
	},
	{
	"epoch": 0.4889545174507867,
	"grad_norm": 0.048157546669244766,
	"learning_rate": 0.0005833372222222221,
	"loss": 0.0146,
	"step": 50000
	},
	{
	"epoch": 0.4889545174507867,
	"eval_accuracy": 0.9986898571428572,
	"eval_loss": 0.008633621968328953,
	"eval_runtime": 53.3435,
	"eval_samples_per_second": 562.392,
	"eval_steps_per_second": 35.15,
	"step": 50000
	},
	{
	"epoch": 0.4938440626252946,
	"grad_norm": 0.04257979243993759,
	"learning_rate": 0.0005813927777777777,
	"loss": 0.0145,
	"step": 50500
	},
	{
	"epoch": 0.49873360779980247,
	"grad_norm": 0.09921249002218246,
	"learning_rate": 0.0005794483333333334,
	"loss": 0.0142,
	"step": 51000
	},
	{
	"epoch": 0.49873360779980247,
	"eval_accuracy": 0.9987676666666667,
	"eval_loss": 0.008316335268318653,
	"eval_runtime": 53.6985,
	"eval_samples_per_second": 558.675,
	"eval_steps_per_second": 34.917,
	"step": 51000
	},
	{
	"epoch": 0.5036231529743104,
	"grad_norm": 0.048569273203611374,
	"learning_rate": 0.0005775038888888889,
	"loss": 0.0135,
	"step": 51500
	},
	{
	"epoch": 0.5085126981488182,
	"grad_norm": 0.06064219772815704,
	"learning_rate": 0.0005755594444444445,
	"loss": 0.0139,
	"step": 52000
	},
	{
	"epoch": 0.5085126981488182,
	"eval_accuracy": 0.9987182380952381,
	"eval_loss": 0.008500739932060242,
	"eval_runtime": 53.1478,
	"eval_samples_per_second": 564.463,
	"eval_steps_per_second": 35.279,
	"step": 52000
	},
	{
	"epoch": 0.5134022433233261,
	"grad_norm": 0.043598126620054245,
	"learning_rate": 0.000573615,
	"loss": 0.0145,
	"step": 52500
	},
	{
	"epoch": 0.518291788497834,
	"grad_norm": 0.059862203896045685,
	"learning_rate": 0.0005716705555555556,
	"loss": 0.0134,
	"step": 53000
	},
	{
	"epoch": 0.518291788497834,
	"eval_accuracy": 0.9987784761904762,
	"eval_loss": 0.008033830672502518,
	"eval_runtime": 55.7465,
	"eval_samples_per_second": 538.15,
	"eval_steps_per_second": 33.634,
	"step": 53000
	},
	{
	"epoch": 0.5231813336723418,
	"grad_norm": 0.05372610315680504,
	"learning_rate": 0.0005697261111111111,
	"loss": 0.0136,
	"step": 53500
	},
	{
	"epoch": 0.5280708788468497,
	"grad_norm": 0.08553345501422882,
	"learning_rate": 0.0005677816666666667,
	"loss": 0.0138,
	"step": 54000
	},
	{
	"epoch": 0.5280708788468497,
	"eval_accuracy": 0.9988229047619047,
	"eval_loss": 0.007664266973733902,
	"eval_runtime": 53.9758,
	"eval_samples_per_second": 555.805,
	"eval_steps_per_second": 34.738,
	"step": 54000
	},
	{
	"epoch": 0.5329604240213576,
	"grad_norm": 0.03992351144552231,
	"learning_rate": 0.0005658372222222222,
	"loss": 0.0133,
	"step": 54500
	},
	{
	"epoch": 0.5378499691958654,
	"grad_norm": 0.051119010895490646,
	"learning_rate": 0.0005638927777777777,
	"loss": 0.0135,
	"step": 55000
	},
	{
	"epoch": 0.5378499691958654,
	"eval_accuracy": 0.9988099523809524,
	"eval_loss": 0.007848628796637058,
	"eval_runtime": 54.3513,
	"eval_samples_per_second": 551.965,
	"eval_steps_per_second": 34.498,
	"step": 55000
	},
	{
	"epoch": 0.5427395143703733,
	"grad_norm": 0.08714370429515839,
	"learning_rate": 0.0005619483333333333,
	"loss": 0.0128,
	"step": 55500
	},
	{
	"epoch": 0.5476290595448812,
	"grad_norm": 0.07373756170272827,
	"learning_rate": 0.0005600038888888888,
	"loss": 0.013,
	"step": 56000
	},
	{
	"epoch": 0.5476290595448812,
	"eval_accuracy": 0.9988279047619048,
	"eval_loss": 0.007725988980382681,
	"eval_runtime": 53.269,
	"eval_samples_per_second": 563.179,
	"eval_steps_per_second": 35.199,
	"step": 56000
	},
	{
	"epoch": 0.552518604719389,
	"grad_norm": 0.04964112490415573,
	"learning_rate": 0.0005580594444444444,
	"loss": 0.0132,
	"step": 56500
	},
	{
	"epoch": 0.5574081498938969,
	"grad_norm": 0.08856749534606934,
	"learning_rate": 0.000556115,
	"loss": 0.0128,
	"step": 57000
	},
	{
	"epoch": 0.5574081498938969,
	"eval_accuracy": 0.998819,
	"eval_loss": 0.007981804199516773,
	"eval_runtime": 54.4577,
	"eval_samples_per_second": 550.886,
	"eval_steps_per_second": 34.43,
	"step": 57000
	},
	{
	"epoch": 0.5622976950684048,
	"grad_norm": 0.06801512092351913,
	"learning_rate": 0.0005541705555555555,
	"loss": 0.0129,
	"step": 57500
	},
	{
	"epoch": 0.5671872402429126,
	"grad_norm": 0.21337199211120605,
	"learning_rate": 0.0005522261111111112,
	"loss": 0.0131,
	"step": 58000
	},
	{
	"epoch": 0.5671872402429126,
	"eval_accuracy": 0.9988361904761904,
	"eval_loss": 0.0077649368904531,
	"eval_runtime": 53.1495,
	"eval_samples_per_second": 564.445,
	"eval_steps_per_second": 35.278,
	"step": 58000
	},
	{
	"epoch": 0.5720767854174205,
	"grad_norm": 0.0754612609744072,
	"learning_rate": 0.0005502816666666667,
	"loss": 0.013,
	"step": 58500
	},
	{
	"epoch": 0.5769663305919284,
	"grad_norm": 0.053277261555194855,
	"learning_rate": 0.0005483372222222223,
	"loss": 0.013,
	"step": 59000
	},
	{
	"epoch": 0.5769663305919284,
	"eval_accuracy": 0.9988713333333333,
	"eval_loss": 0.007438257802277803,
	"eval_runtime": 53.9725,
	"eval_samples_per_second": 555.839,
	"eval_steps_per_second": 34.74,
	"step": 59000
	},
	{
	"epoch": 0.5818558757664362,
	"grad_norm": 0.057580217719078064,
	"learning_rate": 0.0005463927777777778,
	"loss": 0.0126,
	"step": 59500
	},
	{
	"epoch": 0.5867454209409441,
	"grad_norm": 0.08538717031478882,
	"learning_rate": 0.0005444483333333334,
	"loss": 0.0125,
	"step": 60000
	},
	{
	"epoch": 0.5867454209409441,
	"eval_accuracy": 0.9988772857142857,
	"eval_loss": 0.0073426892049610615,
	"eval_runtime": 53.9301,
	"eval_samples_per_second": 556.276,
	"eval_steps_per_second": 34.767,
	"step": 60000
	},
	{
	"epoch": 0.591634966115452,
	"grad_norm": 0.07628747820854187,
	"learning_rate": 0.0005425038888888889,
	"loss": 0.0127,
	"step": 60500
	},
	{
	"epoch": 0.5965245112899598,
	"grad_norm": 0.059503812342882156,
	"learning_rate": 0.0005405594444444444,
	"loss": 0.0119,
	"step": 61000
	},
	{
	"epoch": 0.5965245112899598,
	"eval_accuracy": 0.9988955714285714,
	"eval_loss": 0.007260579615831375,
	"eval_runtime": 54.1591,
	"eval_samples_per_second": 553.924,
	"eval_steps_per_second": 34.62,
	"step": 61000
	},
	{
	"epoch": 0.6014140564644677,
	"grad_norm": 0.07128513604402542,
	"learning_rate": 0.000538615,
	"loss": 0.012,
	"step": 61500
	},
	{
	"epoch": 0.6063036016389756,
	"grad_norm": 0.0615658275783062,
	"learning_rate": 0.0005366705555555555,
	"loss": 0.0121,
	"step": 62000
	},
	{
	"epoch": 0.6063036016389756,
	"eval_accuracy": 0.9988924285714286,
	"eval_loss": 0.007354605942964554,
	"eval_runtime": 53.6133,
	"eval_samples_per_second": 559.563,
	"eval_steps_per_second": 34.973,
	"step": 62000
	},
	{
	"epoch": 0.6111931468134834,
	"grad_norm": 0.04977503791451454,
	"learning_rate": 0.0005347261111111111,
	"loss": 0.0125,
	"step": 62500
	},
	{
	"epoch": 0.6160826919879913,
	"grad_norm": 0.06748691946268082,
	"learning_rate": 0.0005327816666666666,
	"loss": 0.0123,
	"step": 63000
	},
	{
	"epoch": 0.6160826919879913,
	"eval_accuracy": 0.9989074761904762,
	"eval_loss": 0.007279036566615105,
	"eval_runtime": 54.221,
	"eval_samples_per_second": 553.291,
	"eval_steps_per_second": 34.581,
	"step": 63000
	},
	{
	"epoch": 0.6209722371624992,
	"grad_norm": 0.08432789891958237,
	"learning_rate": 0.0005308372222222222,
	"loss": 0.0119,
	"step": 63500
	},
	{
	"epoch": 0.6258617823370071,
	"grad_norm": 0.08450587093830109,
	"learning_rate": 0.0005288927777777778,
	"loss": 0.0123,
	"step": 64000
	},
	{
	"epoch": 0.6258617823370071,
	"eval_accuracy": 0.998906619047619,
	"eval_loss": 0.007195043843239546,
	"eval_runtime": 53.6077,
	"eval_samples_per_second": 559.621,
	"eval_steps_per_second": 34.976,
	"step": 64000
	},
	{
	"epoch": 0.6307513275115149,
	"grad_norm": 0.05454770103096962,
	"learning_rate": 0.0005269483333333333,
	"loss": 0.0119,
	"step": 64500
	},
	{
	"epoch": 0.6356408726860228,
	"grad_norm": 0.029517434537410736,
	"learning_rate": 0.0005250038888888889,
	"loss": 0.0115,
	"step": 65000
	},
	{
	"epoch": 0.6356408726860228,
	"eval_accuracy": 0.99894,
	"eval_loss": 0.006976461503654718,
	"eval_runtime": 54.3436,
	"eval_samples_per_second": 552.043,
	"eval_steps_per_second": 34.503,
	"step": 65000
	},
	{
	"epoch": 0.6405304178605307,
	"grad_norm": 0.08749569207429886,
	"learning_rate": 0.0005230594444444444,
	"loss": 0.0117,
	"step": 65500
	},
	{
	"epoch": 0.6454199630350385,
	"grad_norm": 0.08669404685497284,
	"learning_rate": 0.000521115,
	"loss": 0.0118,
	"step": 66000
	},
	{
	"epoch": 0.6454199630350385,
	"eval_accuracy": 0.9989269523809524,
	"eval_loss": 0.0070405821315944195,
	"eval_runtime": 53.0176,
	"eval_samples_per_second": 565.85,
	"eval_steps_per_second": 35.366,
	"step": 66000
	},
	{
	"epoch": 0.6503095082095464,
	"grad_norm": 0.08068472146987915,
	"learning_rate": 0.0005191705555555556,
	"loss": 0.012,
	"step": 66500
	},
	{
	"epoch": 0.6551990533840543,
	"grad_norm": 0.06560824811458588,
	"learning_rate": 0.0005172261111111111,
	"loss": 0.0113,
	"step": 67000
	},
	{
	"epoch": 0.6551990533840543,
	"eval_accuracy": 0.9989625238095238,
	"eval_loss": 0.006877726875245571,
	"eval_runtime": 57.7066,
	"eval_samples_per_second": 519.871,
	"eval_steps_per_second": 32.492,
	"step": 67000
	},
	{
	"epoch": 0.6600885985585621,
	"grad_norm": 0.10351342707872391,
	"learning_rate": 0.0005152816666666667,
	"loss": 0.0117,
	"step": 67500
	},
	{
	"epoch": 0.66497814373307,
	"grad_norm": 0.06295846402645111,
	"learning_rate": 0.0005133372222222222,
	"loss": 0.0113,
	"step": 68000
	},
	{
	"epoch": 0.66497814373307,
	"eval_accuracy": 0.9989663333333333,
	"eval_loss": 0.006734638474881649,
	"eval_runtime": 56.5776,
	"eval_samples_per_second": 530.245,
	"eval_steps_per_second": 33.14,
	"step": 68000
	},
	{
	"epoch": 0.6698676889075779,
	"grad_norm": 0.07197780162096024,
	"learning_rate": 0.0005113927777777778,
	"loss": 0.0112,
	"step": 68500
	},
	{
	"epoch": 0.6747572340820857,
	"grad_norm": 0.05394699051976204,
	"learning_rate": 0.0005094483333333333,
	"loss": 0.0111,
	"step": 69000
	},
	{
	"epoch": 0.6747572340820857,
	"eval_accuracy": 0.9989654761904762,
	"eval_loss": 0.006897720508277416,
	"eval_runtime": 53.9516,
	"eval_samples_per_second": 556.054,
	"eval_steps_per_second": 34.753,
	"step": 69000
	},
	{
	"epoch": 0.6796467792565936,
	"grad_norm": 0.08804675191640854,
	"learning_rate": 0.0005075038888888889,
	"loss": 0.0114,
	"step": 69500
	},
	{
	"epoch": 0.6845363244311015,
	"grad_norm": 0.061258211731910706,
	"learning_rate": 0.0005055594444444445,
	"loss": 0.0116,
	"step": 70000
	},
	{
	"epoch": 0.6845363244311015,
	"eval_accuracy": 0.998991619047619,
	"eval_loss": 0.006613132543861866,
	"eval_runtime": 53.4248,
	"eval_samples_per_second": 561.537,
	"eval_steps_per_second": 35.096,
	"step": 70000
	},
	{
	"epoch": 0.6894258696056093,
	"grad_norm": 0.047413647174835205,
	"learning_rate": 0.000503615,
	"loss": 0.0114,
	"step": 70500
	},
	{
	"epoch": 0.6943154147801172,
	"grad_norm": 0.048444923013448715,
	"learning_rate": 0.0005016705555555556,
	"loss": 0.0111,
	"step": 71000
	},
	{
	"epoch": 0.6943154147801172,
	"eval_accuracy": 0.9989892857142857,
	"eval_loss": 0.006757956929504871,
	"eval_runtime": 54.0915,
	"eval_samples_per_second": 554.616,
	"eval_steps_per_second": 34.663,
	"step": 71000
	},
	{
	"epoch": 0.6992049599546251,
	"grad_norm": 0.0633966252207756,
	"learning_rate": 0.0004997261111111111,
	"loss": 0.011,
	"step": 71500
	},
	{
	"epoch": 0.7040945051291329,
	"grad_norm": 0.05330997332930565,
	"learning_rate": 0.0004977816666666666,
	"loss": 0.0111,
	"step": 72000
	},
	{
	"epoch": 0.7040945051291329,
	"eval_accuracy": 0.9989945238095238,
	"eval_loss": 0.006628294009715319,
	"eval_runtime": 53.5745,
	"eval_samples_per_second": 559.968,
	"eval_steps_per_second": 34.998,
	"step": 72000
	},
	{
	"epoch": 0.7089840503036408,
	"grad_norm": 0.08384311944246292,
	"learning_rate": 0.0004958372222222222,
	"loss": 0.0112,
	"step": 72500
	},
	{
	"epoch": 0.7138735954781487,
	"grad_norm": 0.012912419624626637,
	"learning_rate": 0.0004938927777777777,
	"loss": 0.0108,
	"step": 73000
	},
	{
	"epoch": 0.7138735954781487,
	"eval_accuracy": 0.9990231904761905,
	"eval_loss": 0.0064848195761442184,
	"eval_runtime": 53.4714,
	"eval_samples_per_second": 561.048,
	"eval_steps_per_second": 35.065,
	"step": 73000
	},
	{
	"epoch": 0.7187631406526565,
	"grad_norm": 0.03586062043905258,
	"learning_rate": 0.0004919483333333333,
	"loss": 0.0106,
	"step": 73500
	},
	{
	"epoch": 0.7236526858271644,
	"grad_norm": 0.03920240327715874,
	"learning_rate": 0.0004900038888888888,
	"loss": 0.0108,
	"step": 74000
	},
	{
	"epoch": 0.7236526858271644,
	"eval_accuracy": 0.9990156666666666,
	"eval_loss": 0.00646663922816515,
	"eval_runtime": 53.3973,
	"eval_samples_per_second": 561.827,
	"eval_steps_per_second": 35.114,
	"step": 74000
	},
	{
	"epoch": 0.7285422310016723,
	"grad_norm": 0.07299363613128662,
	"learning_rate": 0.00048805944444444446,
	"loss": 0.0109,
	"step": 74500
	},
	{
	"epoch": 0.73343177617618,
	"grad_norm": 0.061152711510658264,
	"learning_rate": 0.000486115,
	"loss": 0.0102,
	"step": 75000
	},
	{
	"epoch": 0.73343177617618,
	"eval_accuracy": 0.9990235714285715,
	"eval_loss": 0.00648918654769659,
	"eval_runtime": 54.8259,
	"eval_samples_per_second": 547.187,
	"eval_steps_per_second": 34.199,
	"step": 75000
	},
	{
	"epoch": 0.738321321350688,
	"grad_norm": 0.052978385239839554,
	"learning_rate": 0.0004841705555555556,
	"loss": 0.0108,
	"step": 75500
	},
	{
	"epoch": 0.7432108665251959,
	"grad_norm": 0.03460371494293213,
	"learning_rate": 0.00048222611111111113,
	"loss": 0.0104,
	"step": 76000
	},
	{
	"epoch": 0.7432108665251959,
	"eval_accuracy": 0.9990159047619047,
	"eval_loss": 0.006446553394198418,
	"eval_runtime": 53.4946,
	"eval_samples_per_second": 560.804,
	"eval_steps_per_second": 35.05,
	"step": 76000
	},
	{
	"epoch": 0.7481004116997036,
	"grad_norm": 0.08936499804258347,
	"learning_rate": 0.0004802816666666667,
	"loss": 0.0105,
	"step": 76500
	},
	{
	"epoch": 0.7529899568742116,
	"grad_norm": 0.04613318666815758,
	"learning_rate": 0.00047833722222222224,
	"loss": 0.0104,
	"step": 77000
	},
	{
	"epoch": 0.7529899568742116,
	"eval_accuracy": 0.9990385714285714,
	"eval_loss": 0.0063977050594985485,
	"eval_runtime": 54.4466,
	"eval_samples_per_second": 550.998,
	"eval_steps_per_second": 34.437,
	"step": 77000
	},
	{
	"epoch": 0.7578795020487195,
	"grad_norm": 0.05318485200405121,
	"learning_rate": 0.00047639277777777775,
	"loss": 0.0106,
	"step": 77500
	},
	{
	"epoch": 0.7627690472232272,
	"grad_norm": 0.061067450791597366,
	"learning_rate": 0.0004744483333333333,
	"loss": 0.0101,
	"step": 78000
	},
	{
	"epoch": 0.7627690472232272,
	"eval_accuracy": 0.9990490952380953,
	"eval_loss": 0.006357032340019941,
	"eval_runtime": 53.2067,
	"eval_samples_per_second": 563.839,
	"eval_steps_per_second": 35.24,
	"step": 78000
	},
	{
	"epoch": 0.7676585923977352,
	"grad_norm": 0.042733557522296906,
	"learning_rate": 0.00047250388888888886,
	"loss": 0.01,
	"step": 78500
	},
	{
	"epoch": 0.772548137572243,
	"grad_norm": 0.08034121245145798,
	"learning_rate": 0.0004705594444444444,
	"loss": 0.0103,
	"step": 79000
	},
	{
	"epoch": 0.772548137572243,
	"eval_accuracy": 0.9990574761904762,
	"eval_loss": 0.0062187593430280685,
	"eval_runtime": 53.8428,
	"eval_samples_per_second": 557.177,
	"eval_steps_per_second": 34.824,
	"step": 79000
	},
	{
	"epoch": 0.7774376827467508,
	"grad_norm": 0.07830695807933807,
	"learning_rate": 0.00046861499999999997,
	"loss": 0.0101,
	"step": 79500
	},
	{
	"epoch": 0.7823272279212587,
	"grad_norm": 0.07382604479789734,
	"learning_rate": 0.00046667055555555553,
	"loss": 0.0103,
	"step": 80000
	},
	{
	"epoch": 0.7823272279212587,
	"eval_accuracy": 0.9990759047619048,
	"eval_loss": 0.006141056306660175,
	"eval_runtime": 53.2408,
	"eval_samples_per_second": 563.478,
	"eval_steps_per_second": 35.217,
	"step": 80000
	},
	{
	"epoch": 0.7872167730957667,
	"grad_norm": 0.1125330850481987,
	"learning_rate": 0.00046472611111111114,
	"loss": 0.0102,
	"step": 80500
	},
	{
	"epoch": 0.7921063182702744,
	"grad_norm": 0.03520214557647705,
	"learning_rate": 0.0004627816666666667,
	"loss": 0.01,
	"step": 81000
	},
	{
	"epoch": 0.7921063182702744,
	"eval_accuracy": 0.9990739047619047,
	"eval_loss": 0.006076267920434475,
	"eval_runtime": 53.791,
	"eval_samples_per_second": 557.715,
	"eval_steps_per_second": 34.857,
	"step": 81000
	},
	{
	"epoch": 0.7969958634447823,
	"grad_norm": 0.042487915605306625,
	"learning_rate": 0.00046083722222222225,
	"loss": 0.0097,
	"step": 81500
	},
	{
	"epoch": 0.8018854086192903,
	"grad_norm": 0.054117601364851,
	"learning_rate": 0.0004588927777777778,
	"loss": 0.0101,
	"step": 82000
	},
	{
	"epoch": 0.8018854086192903,
	"eval_accuracy": 0.9990634761904762,
	"eval_loss": 0.006164718419313431,
	"eval_runtime": 53.5332,
	"eval_samples_per_second": 560.4,
	"eval_steps_per_second": 35.025,
	"step": 82000
	},
	{
	"epoch": 0.8067749537937982,
	"grad_norm": 0.04976029694080353,
	"learning_rate": 0.00045694833333333336,
	"loss": 0.0099,
	"step": 82500
	},
	{
	"epoch": 0.811664498968306,
	"grad_norm": 0.054267916828393936,
	"learning_rate": 0.00045500388888888887,
	"loss": 0.0097,
	"step": 83000
	},
	{
	"epoch": 0.811664498968306,
	"eval_accuracy": 0.9990979047619047,
	"eval_loss": 0.005987876560539007,
	"eval_runtime": 54.2289,
	"eval_samples_per_second": 553.211,
	"eval_steps_per_second": 34.576,
	"step": 83000
	},
	{
	"epoch": 0.8165540441428139,
	"grad_norm": 0.03349093720316887,
	"learning_rate": 0.0004530594444444444,
	"loss": 0.0094,
	"step": 83500
	},
	{
	"epoch": 0.8214435893173218,
	"grad_norm": 0.04999032989144325,
	"learning_rate": 0.000451115,
	"loss": 0.0101,
	"step": 84000
	},
	{
	"epoch": 0.8214435893173218,
	"eval_accuracy": 0.9990905714285714,
	"eval_loss": 0.006010835990309715,
	"eval_runtime": 53.4299,
	"eval_samples_per_second": 561.483,
	"eval_steps_per_second": 35.093,
	"step": 84000
	},
	{
	"epoch": 0.8263331344918295,
	"grad_norm": 0.045149870216846466,
	"learning_rate": 0.00044917055555555554,
	"loss": 0.0097,
	"step": 84500
	},
	{
	"epoch": 0.8312226796663374,
	"grad_norm": 0.0918109267950058,
	"learning_rate": 0.0004472261111111111,
	"loss": 0.0099,
	"step": 85000
	},
	{
	"epoch": 0.8312226796663374,
	"eval_accuracy": 0.9990772380952381,
	"eval_loss": 0.006181794218719006,
	"eval_runtime": 54.1897,
	"eval_samples_per_second": 553.611,
	"eval_steps_per_second": 34.601,
	"step": 85000
	},
	{
	"epoch": 0.8361122248408454,
	"grad_norm": 0.0643276646733284,
	"learning_rate": 0.00044528166666666665,
	"loss": 0.0099,
	"step": 85500
	},
	{
	"epoch": 0.8410017700153531,
	"grad_norm": 0.06930361688137054,
	"learning_rate": 0.0004433372222222222,
	"loss": 0.0095,
	"step": 86000
	},
	{
	"epoch": 0.8410017700153531,
	"eval_accuracy": 0.9991025238095238,
	"eval_loss": 0.00590873695909977,
	"eval_runtime": 52.8942,
	"eval_samples_per_second": 567.169,
	"eval_steps_per_second": 35.448,
	"step": 86000
	},
	{
	"epoch": 0.845891315189861,
	"grad_norm": 0.08163397759199142,
	"learning_rate": 0.00044139277777777776,
	"loss": 0.0099,
	"step": 86500
	},
	{
	"epoch": 0.850780860364369,
	"grad_norm": 0.0483279749751091,
	"learning_rate": 0.00043944833333333337,
	"loss": 0.0092,
	"step": 87000
	},
	{
	"epoch": 0.850780860364369,
	"eval_accuracy": 0.9991092857142857,
	"eval_loss": 0.006001894827932119,
	"eval_runtime": 53.2268,
	"eval_samples_per_second": 563.626,
	"eval_steps_per_second": 35.227,
	"step": 87000
	},
	{
	"epoch": 0.8556704055388767,
	"grad_norm": 0.02636638656258583,
	"learning_rate": 0.00043750388888888893,
	"loss": 0.0094,
	"step": 87500
	},
	{
	"epoch": 0.8605599507133846,
	"grad_norm": 0.042217135429382324,
	"learning_rate": 0.0004355594444444445,
	"loss": 0.0092,
	"step": 88000
	},
	{
	"epoch": 0.8605599507133846,
	"eval_accuracy": 0.999128,
	"eval_loss": 0.005815317388623953,
	"eval_runtime": 53.8299,
	"eval_samples_per_second": 557.311,
	"eval_steps_per_second": 34.832,
	"step": 88000
	},
	{
	"epoch": 0.8654494958878926,
	"grad_norm": 0.08632192760705948,
	"learning_rate": 0.00043361499999999993,
	"loss": 0.0092,
	"step": 88500
	},
	{
	"epoch": 0.8703390410624003,
	"grad_norm": 0.04315312206745148,
	"learning_rate": 0.00043167055555555554,
	"loss": 0.0094,
	"step": 89000
	},
	{
	"epoch": 0.8703390410624003,
	"eval_accuracy": 0.9991279047619047,
	"eval_loss": 0.0056898752227425575,
	"eval_runtime": 53.7075,
	"eval_samples_per_second": 558.581,
	"eval_steps_per_second": 34.911,
	"step": 89000
	},
	{
	"epoch": 0.8752285862369082,
	"grad_norm": 0.03837065026164055,
	"learning_rate": 0.0004297261111111111,
	"loss": 0.0094,
	"step": 89500
	},
	{
	"epoch": 0.8801181314114161,
	"grad_norm": 0.04201444238424301,
	"learning_rate": 0.00042778166666666666,
	"loss": 0.0093,
	"step": 90000
	},
	{
	"epoch": 0.8801181314114161,
	"eval_accuracy": 0.9991310952380953,
	"eval_loss": 0.00587738212198019,
	"eval_runtime": 53.5135,
	"eval_samples_per_second": 560.606,
	"eval_steps_per_second": 35.038,
	"step": 90000
	},
	{
	"epoch": 0.8850076765859239,
	"grad_norm": 0.061635617166757584,
	"learning_rate": 0.0004258372222222222,
	"loss": 0.0092,
	"step": 90500
	},
	{
	"epoch": 0.8898972217604318,
	"grad_norm": 0.03518196567893028,
	"learning_rate": 0.00042389277777777777,
	"loss": 0.0088,
	"step": 91000
	},
	{
	"epoch": 0.8898972217604318,
	"eval_accuracy": 0.9991415238095238,
	"eval_loss": 0.005721970461308956,
	"eval_runtime": 53.7456,
	"eval_samples_per_second": 558.185,
	"eval_steps_per_second": 34.887,
	"step": 91000
	},
	{
	"epoch": 0.8947867669349397,
	"grad_norm": 0.06095174327492714,
	"learning_rate": 0.0004219483333333333,
	"loss": 0.0095,
	"step": 91500
	},
	{
	"epoch": 0.8996763121094475,
	"grad_norm": 0.03404530510306358,
	"learning_rate": 0.0004200038888888889,
	"loss": 0.0091,
	"step": 92000
	},
	{
	"epoch": 0.8996763121094475,
	"eval_accuracy": 0.9991448571428572,
	"eval_loss": 0.0056047323159873486,
	"eval_runtime": 53.6229,
	"eval_samples_per_second": 559.463,
	"eval_steps_per_second": 34.966,
	"step": 92000
	},
	{
	"epoch": 0.9045658572839554,
	"grad_norm": 0.044711388647556305,
	"learning_rate": 0.00041805944444444444,
	"loss": 0.0094,
	"step": 92500
	},
	{
	"epoch": 0.9094554024584633,
	"grad_norm": 0.025318428874015808,
	"learning_rate": 0.000416115,
	"loss": 0.0091,
	"step": 93000
	},
	{
	"epoch": 0.9094554024584633,
	"eval_accuracy": 0.9991459047619048,
	"eval_loss": 0.0056663015857338905,
	"eval_runtime": 53.7217,
	"eval_samples_per_second": 558.433,
	"eval_steps_per_second": 34.902,
	"step": 93000
	},
	{
	"epoch": 0.9143449476329711,
	"grad_norm": 0.09479326009750366,
	"learning_rate": 0.0004141705555555556,
	"loss": 0.0091,
	"step": 93500
	},
	{
	"epoch": 0.919234492807479,
	"grad_norm": 0.04621125012636185,
	"learning_rate": 0.00041222611111111116,
	"loss": 0.0091,
	"step": 94000
	},
	{
	"epoch": 0.919234492807479,
	"eval_accuracy": 0.9991637619047619,
	"eval_loss": 0.005490881856530905,
	"eval_runtime": 52.8914,
	"eval_samples_per_second": 567.2,
	"eval_steps_per_second": 35.45,
	"step": 94000
	},
	{
	"epoch": 0.924124037981987,
	"grad_norm": 0.11758420616388321,
	"learning_rate": 0.0004102816666666666,
	"loss": 0.0091,
	"step": 94500
	},
	{
	"epoch": 0.9290135831564947,
	"grad_norm": 0.048568353056907654,
	"learning_rate": 0.00040833722222222217,
	"loss": 0.0085,
	"step": 95000
	},
	{
	"epoch": 0.9290135831564947,
	"eval_accuracy": 0.9991408571428572,
	"eval_loss": 0.0056878020986914635,
	"eval_runtime": 54.7817,
	"eval_samples_per_second": 547.628,
	"eval_steps_per_second": 34.227,
	"step": 95000
	},
	{
	"epoch": 0.9339031283310026,
	"grad_norm": 0.12460034340620041,
	"learning_rate": 0.0004063927777777778,
	"loss": 0.0089,
	"step": 95500
	},
	{
	"epoch": 0.9387926735055105,
	"grad_norm": 0.04623766988515854,
	"learning_rate": 0.00040444833333333334,
	"loss": 0.0087,
	"step": 96000
	},
	{
	"epoch": 0.9387926735055105,
	"eval_accuracy": 0.9991676190476191,
	"eval_loss": 0.005500451661646366,
	"eval_runtime": 53.9981,
	"eval_samples_per_second": 555.575,
	"eval_steps_per_second": 34.723,
	"step": 96000
	},
	{
	"epoch": 0.9436822186800183,
	"grad_norm": 0.08665420114994049,
	"learning_rate": 0.0004025038888888889,
	"loss": 0.0087,
	"step": 96500
	},
	{
	"epoch": 0.9485717638545262,
	"grad_norm": 0.0452926941215992,
	"learning_rate": 0.00040055944444444445,
	"loss": 0.0084,
	"step": 97000
	},
	{
	"epoch": 0.9485717638545262,
	"eval_accuracy": 0.999164,
	"eval_loss": 0.005574519746005535,
	"eval_runtime": 54.6981,
	"eval_samples_per_second": 548.465,
	"eval_steps_per_second": 34.279,
	"step": 97000
	},
	{
	"epoch": 0.9534613090290341,
	"grad_norm": 0.03491511195898056,
	"learning_rate": 0.000398615,
	"loss": 0.0086,
	"step": 97500
	},
	{
	"epoch": 0.9583508542035419,
	"grad_norm": 0.044573381543159485,
	"learning_rate": 0.00039667055555555556,
	"loss": 0.0089,
	"step": 98000
	},
	{
	"epoch": 0.9583508542035419,
	"eval_accuracy": 0.9991894285714286,
	"eval_loss": 0.005372173152863979,
	"eval_runtime": 53.4094,
	"eval_samples_per_second": 561.699,
	"eval_steps_per_second": 35.106,
	"step": 98000
	},
	{
	"epoch": 0.9632403993780498,
	"grad_norm": 0.02608780935406685,
	"learning_rate": 0.0003947261111111111,
	"loss": 0.0086,
	"step": 98500
	},
	{
	"epoch": 0.9681299445525577,
	"grad_norm": 0.04312971234321594,
	"learning_rate": 0.0003927816666666667,
	"loss": 0.0086,
	"step": 99000
	},
	{
	"epoch": 0.9681299445525577,
	"eval_accuracy": 0.9991722380952381,
	"eval_loss": 0.0054678237065672874,
	"eval_runtime": 54.0015,
	"eval_samples_per_second": 555.541,
	"eval_steps_per_second": 34.721,
	"step": 99000
	},
	{
	"epoch": 0.9730194897270655,
	"grad_norm": 0.06294015049934387,
	"learning_rate": 0.00039083722222222223,
	"loss": 0.0085,
	"step": 99500
	},
	{
	"epoch": 0.9779090349015734,
	"grad_norm": 0.029000315815210342,
	"learning_rate": 0.00038889277777777773,
	"loss": 0.0087,
	"step": 100000
	},
	{
	"epoch": 0.9779090349015734,
	"eval_accuracy": 0.999185380952381,
	"eval_loss": 0.005396171938627958,
	"eval_runtime": 55.6579,
	"eval_samples_per_second": 539.007,
	"eval_steps_per_second": 33.688,
	"step": 100000
	},
	{
	"epoch": 0.9827985800760813,
	"grad_norm": 0.04323006793856621,
	"learning_rate": 0.0003869483333333333,
	"loss": 0.0087,
	"step": 100500
	},
	{
	"epoch": 0.9876881252505892,
	"grad_norm": 0.0731167271733284,
	"learning_rate": 0.00038500388888888885,
	"loss": 0.0081,
	"step": 101000
	},
	{
	"epoch": 0.9876881252505892,
	"eval_accuracy": 0.9991765238095238,
	"eval_loss": 0.005412892438471317,
	"eval_runtime": 55.9769,
	"eval_samples_per_second": 535.935,
	"eval_steps_per_second": 33.496,
	"step": 101000
	},
	{
	"epoch": 0.992577670425097,
	"grad_norm": 0.023585299029946327,
	"learning_rate": 0.0003830594444444444,
	"loss": 0.0088,
	"step": 101500
	},
	{
	"epoch": 0.9974672155996049,
	"grad_norm": 0.08938384801149368,
	"learning_rate": 0.000381115,
	"loss": 0.0086,
	"step": 102000
	},
	{
	"epoch": 0.9974672155996049,
	"eval_accuracy": 0.9991979047619047,
	"eval_loss": 0.005323469173163176,
	"eval_runtime": 53.2851,
	"eval_samples_per_second": 563.009,
	"eval_steps_per_second": 35.188,
	"step": 102000
	},
	{
	"epoch": 1.0023567607741128,
	"grad_norm": 0.038682036101818085,
	"learning_rate": 0.00037917055555555557,
	"loss": 0.0082,
	"step": 102500
	},
	{
	"epoch": 1.0072463059486207,
	"grad_norm": 0.07080361992120743,
	"learning_rate": 0.0003772261111111111,
	"loss": 0.0081,
	"step": 103000
	},
	{
	"epoch": 1.0072463059486207,
	"eval_accuracy": 0.9992074761904762,
	"eval_loss": 0.00541540514677763,
	"eval_runtime": 54.1542,
	"eval_samples_per_second": 553.974,
	"eval_steps_per_second": 34.623,
	"step": 103000
	},
	{
	"epoch": 1.0121358511231284,
	"grad_norm": 0.0545232892036438,
	"learning_rate": 0.0003752816666666667,
	"loss": 0.0079,
	"step": 103500
	},
	{
	"epoch": 1.0170253962976363,
	"grad_norm": 0.05419744551181793,
	"learning_rate": 0.00037333722222222224,
	"loss": 0.0083,
	"step": 104000
	},
	{
	"epoch": 1.0170253962976363,
	"eval_accuracy": 0.999227380952381,
	"eval_loss": 0.005181997548788786,
	"eval_runtime": 54.7563,
	"eval_samples_per_second": 547.882,
	"eval_steps_per_second": 34.243,
	"step": 104000
	},
	{
	"epoch": 1.0219149414721442,
	"grad_norm": 0.062064480036497116,
	"learning_rate": 0.0003713927777777778,
	"loss": 0.0078,
	"step": 104500
	},
	{
	"epoch": 1.0268044866466521,
	"grad_norm": 0.0431884303689003,
	"learning_rate": 0.00036944833333333335,
	"loss": 0.0078,
	"step": 105000
	},
	{
	"epoch": 1.0268044866466521,
	"eval_accuracy": 0.999227380952381,
	"eval_loss": 0.005218331702053547,
	"eval_runtime": 53.5479,
	"eval_samples_per_second": 560.246,
	"eval_steps_per_second": 35.015,
	"step": 105000
	},
	{
	"epoch": 1.03169403182116,
	"grad_norm": 0.035419270396232605,
	"learning_rate": 0.00036750388888888885,
	"loss": 0.0079,
	"step": 105500
	},
	{
	"epoch": 1.036583576995668,
	"grad_norm": 0.03565732017159462,
	"learning_rate": 0.0003655594444444444,
	"loss": 0.0078,
	"step": 106000
	},
	{
	"epoch": 1.036583576995668,
	"eval_accuracy": 0.9992299523809524,
	"eval_loss": 0.005135852377861738,
	"eval_runtime": 54.0577,
	"eval_samples_per_second": 554.962,
	"eval_steps_per_second": 34.685,
	"step": 106000
	},
	{
	"epoch": 1.0414731221701756,
	"grad_norm": 0.04575124382972717,
	"learning_rate": 0.00036361499999999997,
	"loss": 0.0076,
	"step": 106500
	},
	{
	"epoch": 1.0463626673446835,
	"grad_norm": 0.07697087526321411,
	"learning_rate": 0.0003616705555555555,
	"loss": 0.0076,
	"step": 107000
	},
	{
	"epoch": 1.0463626673446835,
	"eval_accuracy": 0.9992333809523809,
	"eval_loss": 0.005050502717494965,
	"eval_runtime": 53.4533,
	"eval_samples_per_second": 561.238,
	"eval_steps_per_second": 35.077,
	"step": 107000
	},
	{
	"epoch": 1.0512522125191914,
	"grad_norm": 0.05499347671866417,
	"learning_rate": 0.0003597261111111111,
	"loss": 0.0079,
	"step": 107500
	},
	{
	"epoch": 1.0561417576936993,
	"grad_norm": 0.035594772547483444,
	"learning_rate": 0.00035778166666666664,
	"loss": 0.0081,
	"step": 108000
	},
	{
	"epoch": 1.0561417576936993,
	"eval_accuracy": 0.9992301428571428,
	"eval_loss": 0.0050900341011583805,
	"eval_runtime": 53.2622,
	"eval_samples_per_second": 563.251,
	"eval_steps_per_second": 35.203,
	"step": 108000
	},
	{
	"epoch": 1.0610313028682072,
	"grad_norm": 0.020569855347275734,
	"learning_rate": 0.00035583722222222225,
	"loss": 0.0077,
	"step": 108500
	},
	{
	"epoch": 1.0659208480427151,
	"grad_norm": 0.06758717447519302,
	"learning_rate": 0.0003538927777777778,
	"loss": 0.0082,
	"step": 109000
	},
	{
	"epoch": 1.0659208480427151,
	"eval_accuracy": 0.9992373333333333,
	"eval_loss": 0.005076898727566004,
	"eval_runtime": 53.4707,
	"eval_samples_per_second": 561.054,
	"eval_steps_per_second": 35.066,
	"step": 109000
	},
	{
	"epoch": 1.070810393217223,
	"grad_norm": 0.04208175465464592,
	"learning_rate": 0.00035194833333333336,
	"loss": 0.0079,
	"step": 109500
	},
	{
	"epoch": 1.0756999383917307,
	"grad_norm": 0.040982868522405624,
	"learning_rate": 0.0003500038888888889,
	"loss": 0.0074,
	"step": 110000
	},
	{
	"epoch": 1.0756999383917307,
	"eval_accuracy": 0.9992489523809523,
	"eval_loss": 0.00500760693103075,
	"eval_runtime": 54.1302,
	"eval_samples_per_second": 554.219,
	"eval_steps_per_second": 34.639,
	"step": 110000
	},
	{
	"epoch": 1.0805894835662386,
	"grad_norm": 0.05090247467160225,
	"learning_rate": 0.0003480594444444444,
	"loss": 0.0075,
	"step": 110500
	},
	{
	"epoch": 1.0854790287407465,
	"grad_norm": 0.02564290165901184,
	"learning_rate": 0.000346115,
	"loss": 0.0077,
	"step": 111000
	},
	{
	"epoch": 1.0854790287407465,
	"eval_accuracy": 0.9992412380952381,
	"eval_loss": 0.005068215075880289,
	"eval_runtime": 53.2721,
	"eval_samples_per_second": 563.147,
	"eval_steps_per_second": 35.197,
	"step": 111000
	},
	{
	"epoch": 1.0903685739152544,
	"grad_norm": 0.032404959201812744,
	"learning_rate": 0.0003441705555555556,
	"loss": 0.0076,
	"step": 111500
	},
	{
	"epoch": 1.0952581190897623,
	"grad_norm": 0.05177515000104904,
	"learning_rate": 0.00034222611111111114,
	"loss": 0.0077,
	"step": 112000
	},
	{
	"epoch": 1.0952581190897623,
	"eval_accuracy": 0.9992587142857143,
	"eval_loss": 0.00494408467784524,
	"eval_runtime": 53.7598,
	"eval_samples_per_second": 558.038,
	"eval_steps_per_second": 34.877,
	"step": 112000
	},
	{
	"epoch": 1.10014766426427,
	"grad_norm": 0.041296541690826416,
	"learning_rate": 0.00034028166666666664,
	"loss": 0.0076,
	"step": 112500
	},
	{
	"epoch": 1.105037209438778,
	"grad_norm": 0.027352752164006233,
	"learning_rate": 0.0003383372222222222,
	"loss": 0.0077,
	"step": 113000
	},
	{
	"epoch": 1.105037209438778,
	"eval_accuracy": 0.9992613333333333,
	"eval_loss": 0.004911018069833517,
	"eval_runtime": 53.361,
	"eval_samples_per_second": 562.209,
	"eval_steps_per_second": 35.138,
	"step": 113000
	},
	{
	"epoch": 1.1099267546132858,
	"grad_norm": 0.017891952767968178,
	"learning_rate": 0.00033639277777777776,
	"loss": 0.0074,
	"step": 113500
	},
	{
	"epoch": 1.1148162997877937,
	"grad_norm": 0.10825661569833755,
	"learning_rate": 0.0003344483333333333,
	"loss": 0.0077,
	"step": 114000
	},
	{
	"epoch": 1.1148162997877937,
	"eval_accuracy": 0.9992698095238095,
	"eval_loss": 0.004937721882015467,
	"eval_runtime": 53.9545,
	"eval_samples_per_second": 556.024,
	"eval_steps_per_second": 34.752,
	"step": 114000
	},
	{
	"epoch": 1.1197058449623016,
	"grad_norm": 0.0252179317176342,
	"learning_rate": 0.00033250388888888887,
	"loss": 0.0072,
	"step": 114500
	},
	{
	"epoch": 1.1245953901368095,
	"grad_norm": 0.10007605701684952,
	"learning_rate": 0.0003305594444444445,
	"loss": 0.0073,
	"step": 115000
	},
	{
	"epoch": 1.1245953901368095,
	"eval_accuracy": 0.9992664285714286,
	"eval_loss": 0.005000779405236244,
	"eval_runtime": 53.4444,
	"eval_samples_per_second": 561.331,
	"eval_steps_per_second": 35.083,
	"step": 115000
	},
	{
	"epoch": 1.1294849353113174,
	"grad_norm": 0.08812825381755829,
	"learning_rate": 0.000328615,
	"loss": 0.0076,
	"step": 115500
	},
	{
	"epoch": 1.1343744804858251,
	"grad_norm": 0.04212397709488869,
	"learning_rate": 0.00032667055555555554,
	"loss": 0.0071,
	"step": 116000
	},
	{
	"epoch": 1.1343744804858251,
	"eval_accuracy": 0.9992689523809524,
	"eval_loss": 0.0048895059153437614,
	"eval_runtime": 56.3714,
	"eval_samples_per_second": 532.185,
	"eval_steps_per_second": 33.262,
	"step": 116000
	},
	{
	"epoch": 1.139264025660333,
	"grad_norm": 0.02763226442039013,
	"learning_rate": 0.0003247261111111111,
	"loss": 0.0075,
	"step": 116500
	},
	{
	"epoch": 1.144153570834841,
	"grad_norm": 0.05487339198589325,
	"learning_rate": 0.00032278166666666665,
	"loss": 0.0074,
	"step": 117000
	},
	{
	"epoch": 1.144153570834841,
	"eval_accuracy": 0.9992661428571429,
	"eval_loss": 0.004837568383663893,
	"eval_runtime": 54.3925,
	"eval_samples_per_second": 551.547,
	"eval_steps_per_second": 34.472,
	"step": 117000
	},
	{
	"epoch": 1.1490431160093488,
	"grad_norm": 0.04747488722205162,
	"learning_rate": 0.0003208372222222222,
	"loss": 0.0075,
	"step": 117500
	},
	{
	"epoch": 1.1539326611838567,
	"grad_norm": 0.10006921738386154,
	"learning_rate": 0.00031889277777777777,
	"loss": 0.0074,
	"step": 118000
	},
	{
	"epoch": 1.1539326611838567,
	"eval_accuracy": 0.9992860476190476,
	"eval_loss": 0.0047850459814071655,
	"eval_runtime": 53.7241,
	"eval_samples_per_second": 558.408,
	"eval_steps_per_second": 34.901,
	"step": 118000
	},
	{
	"epoch": 1.1588222063583646,
	"grad_norm": 0.03712115064263344,
	"learning_rate": 0.0003169483333333333,
	"loss": 0.0075,
	"step": 118500
	},
	{
	"epoch": 1.1637117515328723,
	"grad_norm": 0.05919933691620827,
	"learning_rate": 0.0003150038888888889,
	"loss": 0.0073,
	"step": 119000
	},
	{
	"epoch": 1.1637117515328723,
	"eval_accuracy": 0.9992771428571429,
	"eval_loss": 0.004803878720849752,
	"eval_runtime": 53.7517,
	"eval_samples_per_second": 558.121,
	"eval_steps_per_second": 34.883,
	"step": 119000
	},
	{
	"epoch": 1.1686012967073802,
	"grad_norm": 0.017905965447425842,
	"learning_rate": 0.00031305944444444444,
	"loss": 0.0069,
	"step": 119500
	},
	{
	"epoch": 1.1734908418818881,
	"grad_norm": 0.05728234723210335,
	"learning_rate": 0.000311115,
	"loss": 0.007,
	"step": 120000
	},
	{
	"epoch": 1.1734908418818881,
	"eval_accuracy": 0.999289,
	"eval_loss": 0.004755858797580004,
	"eval_runtime": 53.6273,
	"eval_samples_per_second": 559.417,
	"eval_steps_per_second": 34.964,
	"step": 120000
	},
	{
	"epoch": 1.178380387056396,
	"grad_norm": 0.05677701532840729,
	"learning_rate": 0.00030917055555555555,
	"loss": 0.007,
	"step": 120500
	},
	{
	"epoch": 1.183269932230904,
	"grad_norm": 0.05953844264149666,
	"learning_rate": 0.0003072261111111111,
	"loss": 0.0071,
	"step": 121000
	},
	{
	"epoch": 1.183269932230904,
	"eval_accuracy": 0.999293619047619,
	"eval_loss": 0.004746082704514265,
	"eval_runtime": 55.1206,
	"eval_samples_per_second": 544.262,
	"eval_steps_per_second": 34.016,
	"step": 121000
	},
	{
	"epoch": 1.1881594774054118,
	"grad_norm": 0.03433966636657715,
	"learning_rate": 0.00030528166666666666,
	"loss": 0.0071,
	"step": 121500
	},
	{
	"epoch": 1.1930490225799195,
	"grad_norm": 0.0718400701880455,
	"learning_rate": 0.0003033372222222222,
	"loss": 0.0073,
	"step": 122000
	},
	{
	"epoch": 1.1930490225799195,
	"eval_accuracy": 0.9992973333333334,
	"eval_loss": 0.004623962566256523,
	"eval_runtime": 54.751,
	"eval_samples_per_second": 547.935,
	"eval_steps_per_second": 34.246,
	"step": 122000
	},
	{
	"epoch": 1.1979385677544274,
	"grad_norm": 0.026871928945183754,
	"learning_rate": 0.0003013927777777778,
	"loss": 0.0065,
	"step": 122500
	},
	{
	"epoch": 1.2028281129289353,
	"grad_norm": 0.015808627009391785,
	"learning_rate": 0.00029944833333333333,
	"loss": 0.0069,
	"step": 123000
	},
	{
	"epoch": 1.2028281129289353,
	"eval_accuracy": 0.9992959047619048,
	"eval_loss": 0.004734317306429148,
	"eval_runtime": 53.9604,
	"eval_samples_per_second": 555.963,
	"eval_steps_per_second": 34.748,
	"step": 123000
	},
	{
	"epoch": 1.2077176581034432,
	"grad_norm": 0.06739887595176697,
	"learning_rate": 0.0002975038888888889,
	"loss": 0.0071,
	"step": 123500
	},
	{
	"epoch": 1.2126072032779511,
	"grad_norm": 0.020941952243447304,
	"learning_rate": 0.00029555944444444444,
	"loss": 0.007,
	"step": 124000
	},
	{
	"epoch": 1.2126072032779511,
	"eval_accuracy": 0.9992935238095239,
	"eval_loss": 0.004609288647770882,
	"eval_runtime": 54.1194,
	"eval_samples_per_second": 554.33,
	"eval_steps_per_second": 34.646,
	"step": 124000
	},
	{
	"epoch": 1.217496748452459,
	"grad_norm": 0.027827920392155647,
	"learning_rate": 0.000293615,
	"loss": 0.007,
	"step": 124500
	},
	{
	"epoch": 1.222386293626967,
	"grad_norm": 0.08693556487560272,
	"learning_rate": 0.00029167055555555556,
	"loss": 0.0069,
	"step": 125000
	},
	{
	"epoch": 1.222386293626967,
	"eval_accuracy": 0.9993093333333334,
	"eval_loss": 0.004602524451911449,
	"eval_runtime": 53.3938,
	"eval_samples_per_second": 561.863,
	"eval_steps_per_second": 35.116,
	"step": 125000
	},
	{
	"epoch": 1.2272758388014746,
	"grad_norm": 0.04795575141906738,
	"learning_rate": 0.0002897261111111111,
	"loss": 0.0069,
	"step": 125500
	},
	{
	"epoch": 1.2321653839759825,
	"grad_norm": 0.07266402244567871,
	"learning_rate": 0.00028778166666666667,
	"loss": 0.0071,
	"step": 126000
	},
	{
	"epoch": 1.2321653839759825,
	"eval_accuracy": 0.9993089523809524,
	"eval_loss": 0.00456634908914566,
	"eval_runtime": 54.0494,
	"eval_samples_per_second": 555.048,
	"eval_steps_per_second": 34.69,
	"step": 126000
	},
	{
	"epoch": 1.2370549291504904,
	"grad_norm": 0.03289886936545372,
	"learning_rate": 0.0002858372222222222,
	"loss": 0.0072,
	"step": 126500
	},
	{
	"epoch": 1.2419444743249983,
	"grad_norm": 0.02240580879151821,
	"learning_rate": 0.0002838927777777778,
	"loss": 0.007,
	"step": 127000
	},
	{
	"epoch": 1.2419444743249983,
	"eval_accuracy": 0.9993215714285715,
	"eval_loss": 0.004485046491026878,
	"eval_runtime": 53.4392,
	"eval_samples_per_second": 561.386,
	"eval_steps_per_second": 35.087,
	"step": 127000
	},
	{
	"epoch": 1.2468340194995062,
	"grad_norm": 0.040360696613788605,
	"learning_rate": 0.00028194833333333334,
	"loss": 0.0068,
	"step": 127500
	},
	{
	"epoch": 1.251723564674014,
	"grad_norm": 0.032697584480047226,
	"learning_rate": 0.0002800038888888889,
	"loss": 0.0072,
	"step": 128000
	},
	{
	"epoch": 1.251723564674014,
	"eval_accuracy": 0.9993274761904762,
	"eval_loss": 0.004469048231840134,
	"eval_runtime": 53.9627,
	"eval_samples_per_second": 555.939,
	"eval_steps_per_second": 34.746,
	"step": 128000
	},
	{
	"epoch": 1.2566131098485218,
	"grad_norm": 0.021058347076177597,
	"learning_rate": 0.00027805944444444445,
	"loss": 0.0069,
	"step": 128500
	},
	{
	"epoch": 1.2615026550230297,
	"grad_norm": 0.036056675016880035,
	"learning_rate": 0.000276115,
	"loss": 0.0067,
	"step": 129000
	},
	{
	"epoch": 1.2615026550230297,
	"eval_accuracy": 0.9993329047619047,
	"eval_loss": 0.004397740587592125,
	"eval_runtime": 53.2747,
	"eval_samples_per_second": 563.12,
	"eval_steps_per_second": 35.195,
	"step": 129000
	},
	{
	"epoch": 1.2663922001975376,
	"grad_norm": 0.034787457436323166,
	"learning_rate": 0.0002741705555555555,
	"loss": 0.0066,
	"step": 129500
	},
	{
	"epoch": 1.2712817453720455,
	"grad_norm": 0.05359942466020584,
	"learning_rate": 0.0002722261111111111,
	"loss": 0.0065,
	"step": 130000
	},
	{
	"epoch": 1.2712817453720455,
	"eval_accuracy": 0.9993344761904762,
	"eval_loss": 0.004399556666612625,
	"eval_runtime": 53.9523,
	"eval_samples_per_second": 556.047,
	"eval_steps_per_second": 34.753,
	"step": 130000
	},
	{
	"epoch": 1.2761712905465534,
	"grad_norm": 0.02243073098361492,
	"learning_rate": 0.0002702816666666667,
	"loss": 0.0068,
	"step": 130500
	},
	{
	"epoch": 1.2810608357210613,
	"grad_norm": 0.049295682460069656,
	"learning_rate": 0.00026833722222222223,
	"loss": 0.0068,
	"step": 131000
	},
	{
	"epoch": 1.2810608357210613,
	"eval_accuracy": 0.9993318571428571,
	"eval_loss": 0.004440919030457735,
	"eval_runtime": 53.2304,
	"eval_samples_per_second": 563.587,
	"eval_steps_per_second": 35.224,
	"step": 131000
	},
	{
	"epoch": 1.285950380895569,
	"grad_norm": 0.021682027727365494,
	"learning_rate": 0.0002663927777777778,
	"loss": 0.0067,
	"step": 131500
	},
	{
	"epoch": 1.290839926070077,
	"grad_norm": 0.0382467582821846,
	"learning_rate": 0.00026444833333333335,
	"loss": 0.0067,
	"step": 132000
	},
	{
	"epoch": 1.290839926070077,
	"eval_accuracy": 0.9993491904761905,
	"eval_loss": 0.004402833059430122,
	"eval_runtime": 53.8618,
	"eval_samples_per_second": 556.981,
	"eval_steps_per_second": 34.811,
	"step": 132000
	},
	{
	"epoch": 1.2957294712445848,
	"grad_norm": 0.041405659168958664,
	"learning_rate": 0.00026250388888888885,
	"loss": 0.0068,
	"step": 132500
	},
	{
	"epoch": 1.3006190164190927,
	"grad_norm": 0.039939701557159424,
	"learning_rate": 0.00026055944444444446,
	"loss": 0.0064,
	"step": 133000
	},
	{
	"epoch": 1.3006190164190927,
	"eval_accuracy": 0.9993461904761904,
	"eval_loss": 0.004411030560731888,
	"eval_runtime": 52.9835,
	"eval_samples_per_second": 566.214,
	"eval_steps_per_second": 35.388,
	"step": 133000
	},
	{
	"epoch": 1.3055085615936006,
	"grad_norm": 0.07499232143163681,
	"learning_rate": 0.000258615,
	"loss": 0.0068,
	"step": 133500
	},
	{
	"epoch": 1.3103981067681083,
	"grad_norm": 0.03830355405807495,
	"learning_rate": 0.0002566705555555556,
	"loss": 0.0066,
	"step": 134000
	},
	{
	"epoch": 1.3103981067681083,
	"eval_accuracy": 0.9993475238095239,
	"eval_loss": 0.004307963885366917,
	"eval_runtime": 54.0847,
	"eval_samples_per_second": 554.685,
	"eval_steps_per_second": 34.668,
	"step": 134000
	},
	{
	"epoch": 1.3152876519426164,
	"grad_norm": 0.04341171681880951,
	"learning_rate": 0.00025472611111111113,
	"loss": 0.0064,
	"step": 134500
	},
	{
	"epoch": 1.3201771971171241,
	"grad_norm": 0.05085453763604164,
	"learning_rate": 0.00025278166666666663,
	"loss": 0.0066,
	"step": 135000
	},
	{
	"epoch": 1.3201771971171241,
	"eval_accuracy": 0.9993423809523809,
	"eval_loss": 0.004391905851662159,
	"eval_runtime": 53.489,
	"eval_samples_per_second": 560.863,
	"eval_steps_per_second": 35.054,
	"step": 135000
	},
	{
	"epoch": 1.325066742291632,
	"grad_norm": 0.05465886369347572,
	"learning_rate": 0.0002508372222222222,
	"loss": 0.0065,
	"step": 135500
	},
	{
	"epoch": 1.32995628746614,
	"grad_norm": 0.028779752552509308,
	"learning_rate": 0.00024889277777777774,
	"loss": 0.0065,
	"step": 136000
	},
	{
	"epoch": 1.32995628746614,
	"eval_accuracy": 0.9993518571428571,
	"eval_loss": 0.004291407763957977,
	"eval_runtime": 53.5568,
	"eval_samples_per_second": 560.153,
	"eval_steps_per_second": 35.01,
	"step": 136000
	},
	{
	"epoch": 1.3348458326406478,
	"grad_norm": 0.07813508808612823,
	"learning_rate": 0.00024694833333333336,
	"loss": 0.0069,
	"step": 136500
	},
	{
	"epoch": 1.3397353778151557,
	"grad_norm": 0.034233298152685165,
	"learning_rate": 0.0002450038888888889,
	"loss": 0.0064,
	"step": 137000
	},
	{
	"epoch": 1.3397353778151557,
	"eval_accuracy": 0.9993458095238095,
	"eval_loss": 0.004360624123364687,
	"eval_runtime": 52.8603,
	"eval_samples_per_second": 567.534,
	"eval_steps_per_second": 35.471,
	"step": 137000
	},
	{
	"epoch": 1.3446249229896634,
	"grad_norm": 0.08024276047945023,
	"learning_rate": 0.00024305944444444447,
	"loss": 0.0061,
	"step": 137500
	},
	{
	"epoch": 1.3495144681641713,
	"grad_norm": 0.05493255332112312,
	"learning_rate": 0.00024111499999999997,
	"loss": 0.0066,
	"step": 138000
	},
	{
	"epoch": 1.3495144681641713,
	"eval_accuracy": 0.9993639047619047,
	"eval_loss": 0.00431590573862195,
	"eval_runtime": 53.7077,
	"eval_samples_per_second": 558.579,
	"eval_steps_per_second": 34.911,
	"step": 138000
	},
	{
	"epoch": 1.3544040133386792,
	"grad_norm": 0.04275180399417877,
	"learning_rate": 0.00023917055555555555,
	"loss": 0.0062,
	"step": 138500
	},
	{
	"epoch": 1.3592935585131871,
	"grad_norm": 0.07628139853477478,
	"learning_rate": 0.0002372261111111111,
	"loss": 0.0065,
	"step": 139000
	},
	{
	"epoch": 1.3592935585131871,
	"eval_accuracy": 0.9993583809523809,
	"eval_loss": 0.0042925444431602955,
	"eval_runtime": 53.3087,
	"eval_samples_per_second": 562.76,
	"eval_steps_per_second": 35.173,
	"step": 139000
	},
	{
	"epoch": 1.364183103687695,
	"grad_norm": 0.018862802535295486,
	"learning_rate": 0.00023528166666666667,
	"loss": 0.0064,
	"step": 139500
	},
	{
	"epoch": 1.3690726488622027,
	"grad_norm": 0.059994716197252274,
	"learning_rate": 0.00023333722222222222,
	"loss": 0.0061,
	"step": 140000
	},
	{
	"epoch": 1.3690726488622027,
	"eval_accuracy": 0.9993745714285714,
	"eval_loss": 0.004216773435473442,
	"eval_runtime": 53.7427,
	"eval_samples_per_second": 558.215,
	"eval_steps_per_second": 34.888,
	"step": 140000
	},
	{
	"epoch": 1.3739621940367108,
	"grad_norm": 0.02738560363650322,
	"learning_rate": 0.00023139277777777775,
	"loss": 0.006,
	"step": 140500
	},
	{
	"epoch": 1.3788517392112185,
	"grad_norm": 0.16879647970199585,
	"learning_rate": 0.0002294483333333333,
	"loss": 0.0062,
	"step": 141000
	},
	{
	"epoch": 1.3788517392112185,
	"eval_accuracy": 0.9993692380952381,
	"eval_loss": 0.004215199965983629,
	"eval_runtime": 53.2674,
	"eval_samples_per_second": 563.197,
	"eval_steps_per_second": 35.2,
	"step": 141000
	},
	{
	"epoch": 1.3837412843857264,
	"grad_norm": 0.03396091237664223,
	"learning_rate": 0.0002275038888888889,
	"loss": 0.0062,
	"step": 141500
	},
	{
	"epoch": 1.3886308295602343,
	"grad_norm": 0.04174041002988815,
	"learning_rate": 0.00022555944444444445,
	"loss": 0.0063,
	"step": 142000
	},
	{
	"epoch": 1.3886308295602343,
	"eval_accuracy": 0.9993620476190476,
	"eval_loss": 0.00427864259108901,
	"eval_runtime": 54.516,
	"eval_samples_per_second": 550.297,
	"eval_steps_per_second": 34.394,
	"step": 142000
	},
	{
	"epoch": 1.3935203747347422,
	"grad_norm": 0.032653287053108215,
	"learning_rate": 0.000223615,
	"loss": 0.0062,
	"step": 142500
	},
	{
	"epoch": 1.3984099199092501,
	"grad_norm": 0.04273010045289993,
	"learning_rate": 0.00022167055555555556,
	"loss": 0.0061,
	"step": 143000
	},
	{
	"epoch": 1.3984099199092501,
	"eval_accuracy": 0.9993804761904762,
	"eval_loss": 0.0041556586511433125,
	"eval_runtime": 53.4491,
	"eval_samples_per_second": 561.282,
	"eval_steps_per_second": 35.08,
	"step": 143000
	},
	{
	"epoch": 1.4032994650837578,
	"grad_norm": 0.043946944177150726,
	"learning_rate": 0.0002197261111111111,
	"loss": 0.0059,
	"step": 143500
	},
	{
	"epoch": 1.4081890102582657,
	"grad_norm": 0.016042672097682953,
	"learning_rate": 0.00021778166666666665,
	"loss": 0.0062,
	"step": 144000
	},
	{
	"epoch": 1.4081890102582657,
	"eval_accuracy": 0.9993822857142857,
	"eval_loss": 0.004146920517086983,
	"eval_runtime": 53.2095,
	"eval_samples_per_second": 563.809,
	"eval_steps_per_second": 35.238,
	"step": 144000
	},
	{
	"epoch": 1.4130785554327736,
	"grad_norm": 0.04190443456172943,
	"learning_rate": 0.0002158372222222222,
	"loss": 0.006,
	"step": 144500
	},
	{
	"epoch": 1.4179681006072815,
	"grad_norm": 0.029104501008987427,
	"learning_rate": 0.0002138927777777778,
	"loss": 0.006,
	"step": 145000
	},
	{
	"epoch": 1.4179681006072815,
	"eval_accuracy": 0.9993911428571428,
	"eval_loss": 0.004062490537762642,
	"eval_runtime": 53.4832,
	"eval_samples_per_second": 560.923,
	"eval_steps_per_second": 35.058,
	"step": 145000
	},
	{
	"epoch": 1.4228576457817894,
	"grad_norm": 0.019995709881186485,
	"learning_rate": 0.00021194833333333335,
	"loss": 0.0058,
	"step": 145500
	},
	{
	"epoch": 1.4277471909562973,
	"grad_norm": 0.016850166022777557,
	"learning_rate": 0.0002100038888888889,
	"loss": 0.0062,
	"step": 146000
	},
	{
	"epoch": 1.4277471909562973,
	"eval_accuracy": 0.9993850476190477,
	"eval_loss": 0.00406758114695549,
	"eval_runtime": 54.1149,
	"eval_samples_per_second": 554.376,
	"eval_steps_per_second": 34.648,
	"step": 146000
	},
	{
	"epoch": 1.4326367361308052,
	"grad_norm": 0.042491696774959564,
	"learning_rate": 0.00020805944444444443,
	"loss": 0.0059,
	"step": 146500
	},
	{
	"epoch": 1.437526281305313,
	"grad_norm": 0.07708732038736343,
	"learning_rate": 0.000206115,
	"loss": 0.006,
	"step": 147000
	},
	{
	"epoch": 1.437526281305313,
	"eval_accuracy": 0.9993972857142858,
	"eval_loss": 0.004030513111501932,
	"eval_runtime": 53.221,
	"eval_samples_per_second": 563.687,
	"eval_steps_per_second": 35.23,
	"step": 147000
	},
	{
	"epoch": 1.4424158264798208,
	"grad_norm": 0.032772552222013474,
	"learning_rate": 0.00020417055555555554,
	"loss": 0.0059,
	"step": 147500
	},
	{
	"epoch": 1.4473053716543287,
	"grad_norm": 0.041167329996824265,
	"learning_rate": 0.00020222611111111113,
	"loss": 0.0058,
	"step": 148000
	},
	{
	"epoch": 1.4473053716543287,
	"eval_accuracy": 0.999398,
	"eval_loss": 0.004109182395040989,
	"eval_runtime": 53.8747,
	"eval_samples_per_second": 556.848,
	"eval_steps_per_second": 34.803,
	"step": 148000
	},
	{
	"epoch": 1.4521949168288366,
	"grad_norm": 0.033146705478429794,
	"learning_rate": 0.00020028166666666668,
	"loss": 0.0058,
	"step": 148500
	},
	{
	"epoch": 1.4570844620033445,
	"grad_norm": 0.04614367336034775,
	"learning_rate": 0.0001983372222222222,
	"loss": 0.0057,
	"step": 149000
	},
	{
	"epoch": 1.4570844620033445,
	"eval_accuracy": 0.9994065238095238,
	"eval_loss": 0.003991841338574886,
	"eval_runtime": 53.7363,
	"eval_samples_per_second": 558.282,
	"eval_steps_per_second": 34.893,
	"step": 149000
	},
	{
	"epoch": 1.4619740071778522,
	"grad_norm": 0.031296566128730774,
	"learning_rate": 0.00019639277777777777,
	"loss": 0.0057,
	"step": 149500
	},
	{
	"epoch": 1.46686355235236,
	"grad_norm": 0.03523857146501541,
	"learning_rate": 0.00019444833333333333,
	"loss": 0.0059,
	"step": 150000
	},
	{
	"epoch": 1.46686355235236,
	"eval_accuracy": 0.9994045238095238,
	"eval_loss": 0.00398767227306962,
	"eval_runtime": 54.0668,
	"eval_samples_per_second": 554.869,
	"eval_steps_per_second": 34.679,
	"step": 150000
	},
	{
	"epoch": 1.471753097526868,
	"grad_norm": 0.030513431876897812,
	"learning_rate": 0.00019250388888888888,
	"loss": 0.006,
	"step": 150500
	},
	{
	"epoch": 1.476642642701376,
	"grad_norm": 0.03433874994516373,
	"learning_rate": 0.00019055944444444444,
	"loss": 0.0057,
	"step": 151000
	},
	{
	"epoch": 1.476642642701376,
	"eval_accuracy": 0.999412,
	"eval_loss": 0.003936768043786287,
	"eval_runtime": 53.4197,
	"eval_samples_per_second": 561.591,
	"eval_steps_per_second": 35.099,
	"step": 151000
	},
	{
	"epoch": 1.4815321878758838,
	"grad_norm": 0.03743559867143631,
	"learning_rate": 0.00018861500000000002,
	"loss": 0.0059,
	"step": 151500
	},
	{
	"epoch": 1.4864217330503917,
	"grad_norm": 0.023772869259119034,
	"learning_rate": 0.00018667055555555553,
	"loss": 0.0056,
	"step": 152000
	},
	{
	"epoch": 1.4864217330503917,
	"eval_accuracy": 0.9994103333333333,
	"eval_loss": 0.00395695585757494,
	"eval_runtime": 53.4862,
	"eval_samples_per_second": 560.892,
	"eval_steps_per_second": 35.056,
	"step": 152000
	},
	{
	"epoch": 1.4913112782248996,
	"grad_norm": 0.021286042407155037,
	"learning_rate": 0.0001847261111111111,
	"loss": 0.0056,
	"step": 152500
	},
	{
	"epoch": 1.4962008233994073,
	"grad_norm": 0.04487517103552818,
	"learning_rate": 0.00018278166666666667,
	"loss": 0.0059,
	"step": 153000
	},
	{
	"epoch": 1.4962008233994073,
	"eval_accuracy": 0.9994135714285715,
	"eval_loss": 0.0038883944507688284,
	"eval_runtime": 53.7959,
	"eval_samples_per_second": 557.663,
	"eval_steps_per_second": 34.854,
	"step": 153000
	},
	{
	"epoch": 1.5010903685739152,
	"grad_norm": 0.02229585126042366,
	"learning_rate": 0.00018083722222222222,
	"loss": 0.0056,
	"step": 153500
	},
	{
	"epoch": 1.505979913748423,
	"grad_norm": 0.06015641614794731,
	"learning_rate": 0.00017889277777777778,
	"loss": 0.0055,
	"step": 154000
	},
	{
	"epoch": 1.505979913748423,
	"eval_accuracy": 0.9994171428571429,
	"eval_loss": 0.0039031950291246176,
	"eval_runtime": 53.8206,
	"eval_samples_per_second": 557.408,
	"eval_steps_per_second": 34.838,
	"step": 154000
	},
	{
	"epoch": 1.510869458922931,
	"grad_norm": 0.060777414590120316,
	"learning_rate": 0.00017694833333333336,
	"loss": 0.0057,
	"step": 154500
	},
	{
	"epoch": 1.515759004097439,
	"grad_norm": 0.010729908011853695,
	"learning_rate": 0.00017500388888888886,
	"loss": 0.0055,
	"step": 155000
	},
	{
	"epoch": 1.515759004097439,
	"eval_accuracy": 0.9994168095238095,
	"eval_loss": 0.0038592983037233353,
	"eval_runtime": 52.9997,
	"eval_samples_per_second": 566.041,
	"eval_steps_per_second": 35.378,
	"step": 155000
	},
	{
	"epoch": 1.5206485492719466,
	"grad_norm": 0.07996519654989243,
	"learning_rate": 0.00017305944444444445,
	"loss": 0.0056,
	"step": 155500
	},
	{
	"epoch": 1.5255380944464547,
	"grad_norm": 0.05094398185610771,
	"learning_rate": 0.000171115,
	"loss": 0.0056,
	"step": 156000
	},
	{
	"epoch": 1.5255380944464547,
	"eval_accuracy": 0.9994315238095238,
	"eval_loss": 0.0037978454492986202,
	"eval_runtime": 53.5723,
	"eval_samples_per_second": 559.991,
	"eval_steps_per_second": 34.999,
	"step": 156000
	},
	{
	"epoch": 1.5304276396209624,
	"grad_norm": 0.038200926035642624,
	"learning_rate": 0.00016917055555555556,
	"loss": 0.0055,
	"step": 156500
	},
	{
	"epoch": 1.5353171847954703,
	"grad_norm": 0.10346455127000809,
	"learning_rate": 0.00016722611111111112,
	"loss": 0.0054,
	"step": 157000
	},
	{
	"epoch": 1.5353171847954703,
	"eval_accuracy": 0.9994299523809523,
	"eval_loss": 0.0037865168415009975,
	"eval_runtime": 53.2357,
	"eval_samples_per_second": 563.531,
	"eval_steps_per_second": 35.221,
	"step": 157000
	},
	{
	"epoch": 1.5402067299699782,
	"grad_norm": 0.015595887787640095,
	"learning_rate": 0.00016528166666666667,
	"loss": 0.0056,
	"step": 157500
	},
	{
	"epoch": 1.545096275144486,
	"grad_norm": 0.0232669860124588,
	"learning_rate": 0.00016333722222222223,
	"loss": 0.0055,
	"step": 158000
	},
	{
	"epoch": 1.545096275144486,
	"eval_accuracy": 0.9994310476190477,
	"eval_loss": 0.003748950082808733,
	"eval_runtime": 54.3134,
	"eval_samples_per_second": 552.35,
	"eval_steps_per_second": 34.522,
	"step": 158000
	},
	{
	"epoch": 1.549985820318994,
	"grad_norm": 0.04196183383464813,
	"learning_rate": 0.00016139277777777776,
	"loss": 0.0054,
	"step": 158500
	},
	{
	"epoch": 1.5548753654935017,
	"grad_norm": 0.04280064254999161,
	"learning_rate": 0.00015944833333333334,
	"loss": 0.0055,
	"step": 159000
	},
	{
	"epoch": 1.5548753654935017,
	"eval_accuracy": 0.9994327619047619,
	"eval_loss": 0.00377083383500576,
	"eval_runtime": 53.1652,
	"eval_samples_per_second": 564.278,
	"eval_steps_per_second": 35.267,
	"step": 159000
	},
	{
	"epoch": 1.5597649106680098,
	"grad_norm": 0.01646304689347744,
	"learning_rate": 0.00015750388888888887,
	"loss": 0.0053,
	"step": 159500
	},
	{
	"epoch": 1.5646544558425175,
	"grad_norm": 0.015490056946873665,
	"learning_rate": 0.00015555944444444443,
	"loss": 0.0053,
	"step": 160000
	},
	{
	"epoch": 1.5646544558425175,
	"eval_accuracy": 0.9994344285714286,
	"eval_loss": 0.0037254535127431154,
	"eval_runtime": 55.4441,
	"eval_samples_per_second": 541.086,
	"eval_steps_per_second": 33.818,
	"step": 160000
	},
	{
	"epoch": 1.5695440010170254,
	"grad_norm": 0.034573186188936234,
	"learning_rate": 0.000153615,
	"loss": 0.0052,
	"step": 160500
	},
	{
	"epoch": 1.5744335461915333,
	"grad_norm": 0.0471004843711853,
	"learning_rate": 0.00015167055555555554,
	"loss": 0.0055,
	"step": 161000
	},
	{
	"epoch": 1.5744335461915333,
	"eval_accuracy": 0.9994374285714286,
	"eval_loss": 0.003749826457351446,
	"eval_runtime": 52.9976,
	"eval_samples_per_second": 566.063,
	"eval_steps_per_second": 35.379,
	"step": 161000
	},
	{
	"epoch": 1.579323091366041,
	"grad_norm": 0.06533846259117126,
	"learning_rate": 0.0001497261111111111,
	"loss": 0.0056,
	"step": 161500
	},
	{
	"epoch": 1.5842126365405491,
	"grad_norm": 0.009449661709368229,
	"learning_rate": 0.00014778166666666668,
	"loss": 0.0053,
	"step": 162000
	},
	{
	"epoch": 1.5842126365405491,
	"eval_accuracy": 0.9994476666666666,
	"eval_loss": 0.003748701885342598,
	"eval_runtime": 53.6491,
	"eval_samples_per_second": 559.189,
	"eval_steps_per_second": 34.949,
	"step": 162000
	},
	{
	"epoch": 1.5891021817150568,
	"grad_norm": 0.009880056604743004,
	"learning_rate": 0.0001458372222222222,
	"loss": 0.0055,
	"step": 162500
	},
	{
	"epoch": 1.5939917268895647,
	"grad_norm": 0.05580669641494751,
	"learning_rate": 0.00014389277777777777,
	"loss": 0.0051,
	"step": 163000
	},
	{
	"epoch": 1.5939917268895647,
	"eval_accuracy": 0.9994498571428572,
	"eval_loss": 0.0037052214611321688,
	"eval_runtime": 53.1475,
	"eval_samples_per_second": 564.467,
	"eval_steps_per_second": 35.279,
	"step": 163000
	},
	{
	"epoch": 1.5988812720640726,
	"grad_norm": 0.033147793263196945,
	"learning_rate": 0.00014194833333333335,
	"loss": 0.0055,
	"step": 163500
	},
	{
	"epoch": 1.6037708172385805,
	"grad_norm": 0.04852864146232605,
	"learning_rate": 0.00014000388888888888,
	"loss": 0.0054,
	"step": 164000
	},
	{
	"epoch": 1.6037708172385805,
	"eval_accuracy": 0.9994494761904762,
	"eval_loss": 0.003642507828772068,
	"eval_runtime": 53.3294,
	"eval_samples_per_second": 562.542,
	"eval_steps_per_second": 35.159,
	"step": 164000
	},
	{
	"epoch": 1.6086603624130884,
	"grad_norm": 0.04461289569735527,
	"learning_rate": 0.00013805944444444444,
	"loss": 0.0053,
	"step": 164500
	},
	{
	"epoch": 1.613549907587596,
	"grad_norm": 0.04816494509577751,
	"learning_rate": 0.000136115,
	"loss": 0.0053,
	"step": 165000
	},
	{
	"epoch": 1.613549907587596,
	"eval_accuracy": 0.999451380952381,
	"eval_loss": 0.003629567800089717,
	"eval_runtime": 53.0304,
	"eval_samples_per_second": 565.713,
	"eval_steps_per_second": 35.357,
	"step": 165000
	},
	{
	"epoch": 1.6184394527621042,
	"grad_norm": 0.04067426174879074,
	"learning_rate": 0.00013417055555555555,
	"loss": 0.0063,
	"step": 165500
	},
	{
	"epoch": 1.623328997936612,
	"grad_norm": 0.040210772305727005,
	"learning_rate": 0.0001322261111111111,
	"loss": 0.0053,
	"step": 166000
	},
	{
	"epoch": 1.623328997936612,
	"eval_accuracy": 0.9994541904761904,
	"eval_loss": 0.0036138601135462523,
	"eval_runtime": 53.4406,
	"eval_samples_per_second": 561.371,
	"eval_steps_per_second": 35.086,
	"step": 166000
	},
	{
	"epoch": 1.6282185431111198,
	"grad_norm": 0.04125046357512474,
	"learning_rate": 0.00013028166666666666,
	"loss": 0.0053,
	"step": 166500
	},
	{
	"epoch": 1.6331080882856277,
	"grad_norm": 0.03415411710739136,
	"learning_rate": 0.00012833722222222222,
	"loss": 0.0051,
	"step": 167000
	},
	{
	"epoch": 1.6331080882856277,
	"eval_accuracy": 0.9994632380952381,
	"eval_loss": 0.003615338122472167,
	"eval_runtime": 53.1392,
	"eval_samples_per_second": 564.555,
	"eval_steps_per_second": 35.285,
	"step": 167000
	},
	{
	"epoch": 1.6379976334601354,
	"grad_norm": 0.03695495426654816,
	"learning_rate": 0.00012639277777777778,
	"loss": 0.0053,
	"step": 167500
	},
	{
	"epoch": 1.6428871786346435,
	"grad_norm": 0.011762870475649834,
	"learning_rate": 0.00012444833333333333,
	"loss": 0.0051,
	"step": 168000
	},
	{
	"epoch": 1.6428871786346435,
	"eval_accuracy": 0.9994638095238095,
	"eval_loss": 0.003587596118450165,
	"eval_runtime": 53.5347,
	"eval_samples_per_second": 560.384,
	"eval_steps_per_second": 35.024,
	"step": 168000
	},
	{
	"epoch": 1.6477767238091512,
	"grad_norm": 0.01232131477445364,
	"learning_rate": 0.0001225038888888889,
	"loss": 0.0048,
	"step": 168500
	},
	{
	"epoch": 1.652666268983659,
	"grad_norm": 0.04049614071846008,
	"learning_rate": 0.00012055944444444445,
	"loss": 0.0048,
	"step": 169000
	},
	{
	"epoch": 1.652666268983659,
	"eval_accuracy": 0.9994665714285714,
	"eval_loss": 0.003581820521503687,
	"eval_runtime": 53.0217,
	"eval_samples_per_second": 565.806,
	"eval_steps_per_second": 35.363,
	"step": 169000
	},
	{
	"epoch": 1.657555814158167,
	"grad_norm": 0.04034195467829704,
	"learning_rate": 0.00011861499999999999,
	"loss": 0.0051,
	"step": 169500
	},
	{
	"epoch": 1.662445359332675,
	"grad_norm": 0.014481657184660435,
	"learning_rate": 0.00011667055555555556,
	"loss": 0.0051,
	"step": 170000
	},
	{
	"epoch": 1.662445359332675,
	"eval_accuracy": 0.9994720476190476,
	"eval_loss": 0.0035638269037008286,
	"eval_runtime": 54.3974,
	"eval_samples_per_second": 551.497,
	"eval_steps_per_second": 34.469,
	"step": 170000
	},
	{
	"epoch": 1.6673349045071828,
	"grad_norm": 0.025204768404364586,
	"learning_rate": 0.00011472611111111111,
	"loss": 0.0051,
	"step": 170500
	},
	{
	"epoch": 1.6722244496816905,
	"grad_norm": 0.027605898678302765,
	"learning_rate": 0.00011278166666666666,
	"loss": 0.0049,
	"step": 171000
	},
	{
	"epoch": 1.6722244496816905,
	"eval_accuracy": 0.9994744285714285,
	"eval_loss": 0.003567066974937916,
	"eval_runtime": 53.8985,
	"eval_samples_per_second": 556.602,
	"eval_steps_per_second": 34.788,
	"step": 171000
	},
	{
	"epoch": 1.6771139948561986,
	"grad_norm": 0.038017790764570236,
	"learning_rate": 0.00011083722222222223,
	"loss": 0.005,
	"step": 171500
	},
	{
	"epoch": 1.6820035400307063,
	"grad_norm": 0.048752035945653915,
	"learning_rate": 0.00010889277777777778,
	"loss": 0.005,
	"step": 172000
	},
	{
	"epoch": 1.6820035400307063,
	"eval_accuracy": 0.9994751428571429,
	"eval_loss": 0.003484962275251746,
	"eval_runtime": 54.461,
	"eval_samples_per_second": 550.853,
	"eval_steps_per_second": 34.428,
	"step": 172000
	},
	{
	"epoch": 1.6868930852052142,
	"grad_norm": 0.08453824371099472,
	"learning_rate": 0.00010694833333333333,
	"loss": 0.005,
	"step": 172500
	},
	{
	"epoch": 1.691782630379722,
	"grad_norm": 0.01620589755475521,
	"learning_rate": 0.00010500388888888888,
	"loss": 0.005,
	"step": 173000
	},
	{
	"epoch": 1.691782630379722,
	"eval_accuracy": 0.9994759047619047,
	"eval_loss": 0.003478883532807231,
	"eval_runtime": 54.0084,
	"eval_samples_per_second": 555.469,
	"eval_steps_per_second": 34.717,
	"step": 173000
	},
	{
	"epoch": 1.69667217555423,
	"grad_norm": 0.024735888466238976,
	"learning_rate": 0.00010305944444444445,
	"loss": 0.005,
	"step": 173500
	},
	{
	"epoch": 1.701561720728738,
	"grad_norm": 0.020829100161790848,
	"learning_rate": 0.000101115,
	"loss": 0.005,
	"step": 174000
	},
	{
	"epoch": 1.701561720728738,
	"eval_accuracy": 0.9994835714285715,
	"eval_loss": 0.003460401203483343,
	"eval_runtime": 53.8886,
	"eval_samples_per_second": 556.704,
	"eval_steps_per_second": 34.794,
	"step": 174000
	},
	{
	"epoch": 1.7064512659032456,
	"grad_norm": 0.02870938368141651,
	"learning_rate": 9.917055555555555e-05,
	"loss": 0.0049,
	"step": 174500
	},
	{
	"epoch": 1.7113408110777537,
	"grad_norm": 0.03082539327442646,
	"learning_rate": 9.72261111111111e-05,
	"loss": 0.0049,
	"step": 175000
	},
	{
	"epoch": 1.7113408110777537,
	"eval_accuracy": 0.9994848095238095,
	"eval_loss": 0.0034341050777584314,
	"eval_runtime": 53.6965,
	"eval_samples_per_second": 558.695,
	"eval_steps_per_second": 34.918,
	"step": 175000
	},
	{
	"epoch": 1.7162303562522614,
	"grad_norm": 0.04300360381603241,
	"learning_rate": 9.528166666666667e-05,
	"loss": 0.0047,
	"step": 175500
	},
	{
	"epoch": 1.7211199014267693,
	"grad_norm": 0.010836569592356682,
	"learning_rate": 9.333722222222222e-05,
	"loss": 0.0049,
	"step": 176000
	},
	{
	"epoch": 1.7211199014267693,
	"eval_accuracy": 0.999487,
	"eval_loss": 0.0034149654675275087,
	"eval_runtime": 54.2439,
	"eval_samples_per_second": 553.058,
	"eval_steps_per_second": 34.566,
	"step": 176000
	},
	{
	"epoch": 1.7260094466012772,
	"grad_norm": 0.012880703434348106,
	"learning_rate": 9.139277777777777e-05,
	"loss": 0.0049,
	"step": 176500
	},
	{
	"epoch": 1.7308989917757849,
	"grad_norm": 0.029965711757540703,
	"learning_rate": 8.944833333333334e-05,
	"loss": 0.0049,
	"step": 177000
	},
	{
	"epoch": 1.7308989917757849,
	"eval_accuracy": 0.9994862857142857,
	"eval_loss": 0.0034615020267665386,
	"eval_runtime": 53.1772,
	"eval_samples_per_second": 564.151,
	"eval_steps_per_second": 35.259,
	"step": 177000
	},
	{
	"epoch": 1.735788536950293,
	"grad_norm": 0.014986414462327957,
	"learning_rate": 8.750388888888889e-05,
	"loss": 0.0048,
	"step": 177500
	},
	{
	"epoch": 1.7406780821248007,
	"grad_norm": 0.02675153873860836,
	"learning_rate": 8.555944444444445e-05,
	"loss": 0.0049,
	"step": 178000
	},
	{
	"epoch": 1.7406780821248007,
	"eval_accuracy": 0.9994909047619047,
	"eval_loss": 0.003412367310374975,
	"eval_runtime": 54.1342,
	"eval_samples_per_second": 554.178,
	"eval_steps_per_second": 34.636,
	"step": 178000
	},
	{
	"epoch": 1.7455676272993086,
	"grad_norm": 0.031100204214453697,
	"learning_rate": 8.3615e-05,
	"loss": 0.0051,
	"step": 178500
	},
	{
	"epoch": 1.7504571724738165,
	"grad_norm": 0.04925690218806267,
	"learning_rate": 8.167055555555555e-05,
	"loss": 0.005,
	"step": 179000
	},
	{
	"epoch": 1.7504571724738165,
	"eval_accuracy": 0.9994981428571429,
	"eval_loss": 0.003331870539113879,
	"eval_runtime": 53.5829,
	"eval_samples_per_second": 559.881,
	"eval_steps_per_second": 34.993,
	"step": 179000
	},
	{
	"epoch": 1.7553467176483244,
	"grad_norm": 0.029799846932291985,
	"learning_rate": 7.972611111111112e-05,
	"loss": 0.0048,
	"step": 179500
	},
	{
	"epoch": 1.7602362628228323,
	"grad_norm": 0.012169072404503822,
	"learning_rate": 7.778166666666666e-05,
	"loss": 0.005,
	"step": 180000
	},
	{
	"epoch": 1.7602362628228323,
	"eval_accuracy": 0.9994982380952381,
	"eval_loss": 0.003362874034792185,
	"eval_runtime": 53.5982,
	"eval_samples_per_second": 559.72,
	"eval_steps_per_second": 34.983,
	"step": 180000
	},
	{
	"epoch": 1.76512580799734,
	"grad_norm": 0.016585633158683777,
	"learning_rate": 7.583722222222222e-05,
	"loss": 0.0045,
	"step": 180500
	},
	{
	"epoch": 1.770015353171848,
	"grad_norm": 0.025369074195623398,
	"learning_rate": 7.389277777777777e-05,
	"loss": 0.0047,
	"step": 181000
	},
	{
	"epoch": 1.770015353171848,
	"eval_accuracy": 0.9995001904761904,
	"eval_loss": 0.0033530080690979958,
	"eval_runtime": 53.4193,
	"eval_samples_per_second": 561.595,
	"eval_steps_per_second": 35.1,
	"step": 181000
	},
	{
	"epoch": 1.7749048983463558,
	"grad_norm": 0.04421771690249443,
	"learning_rate": 7.194833333333333e-05,
	"loss": 0.0046,
	"step": 181500
	},
	{
	"epoch": 1.7797944435208637,
	"grad_norm": 0.05346609279513359,
	"learning_rate": 7.000388888888889e-05,
	"loss": 0.0048,
	"step": 182000
	},
	{
	"epoch": 1.7797944435208637,
	"eval_accuracy": 0.9995021428571429,
	"eval_loss": 0.0033386677969247103,
	"eval_runtime": 53.8476,
	"eval_samples_per_second": 557.128,
	"eval_steps_per_second": 34.82,
	"step": 182000
	},
	{
	"epoch": 1.7846839886953716,
	"grad_norm": 0.019687172025442123,
	"learning_rate": 6.805944444444444e-05,
	"loss": 0.0048,
	"step": 182500
	},
	{
	"epoch": 1.7895735338698793,
	"grad_norm": 0.026194104924798012,
	"learning_rate": 6.6115e-05,
	"loss": 0.0048,
	"step": 183000
	},
	{
	"epoch": 1.7895735338698793,
	"eval_accuracy": 0.9995039523809524,
	"eval_loss": 0.003320470917969942,
	"eval_runtime": 54.9547,
	"eval_samples_per_second": 545.904,
	"eval_steps_per_second": 34.119,
	"step": 183000
	},
	{
	"epoch": 1.7944630790443874,
	"grad_norm": 0.039239440113306046,
	"learning_rate": 6.417055555555556e-05,
	"loss": 0.0046,
	"step": 183500
	},
	{
	"epoch": 1.799352624218895,
	"grad_norm": 0.007467139046639204,
	"learning_rate": 6.222611111111111e-05,
	"loss": 0.0045,
	"step": 184000
	},
	{
	"epoch": 1.799352624218895,
	"eval_accuracy": 0.9995039047619048,
	"eval_loss": 0.003313555382192135,
	"eval_runtime": 54.3263,
	"eval_samples_per_second": 552.218,
	"eval_steps_per_second": 34.514,
	"step": 184000
	},
	{
	"epoch": 1.804242169393403,
	"grad_norm": 0.015036596916615963,
	"learning_rate": 6.028166666666666e-05,
	"loss": 0.0047,
	"step": 184500
	},
	{
	"epoch": 1.8091317145679109,
	"grad_norm": 0.03583378717303276,
	"learning_rate": 5.8337222222222226e-05,
	"loss": 0.0045,
	"step": 185000
	},
	{
	"epoch": 1.8091317145679109,
	"eval_accuracy": 0.9995053333333334,
	"eval_loss": 0.003319466719403863,
	"eval_runtime": 53.7318,
	"eval_samples_per_second": 558.329,
	"eval_steps_per_second": 34.896,
	"step": 185000
	},
	{
	"epoch": 1.8140212597424188,
	"grad_norm": 0.025585120543837547,
	"learning_rate": 5.6392777777777775e-05,
	"loss": 0.0046,
	"step": 185500
	},
	{
	"epoch": 1.8189108049169267,
	"grad_norm": 0.05633428320288658,
	"learning_rate": 5.444833333333333e-05,
	"loss": 0.0049,
	"step": 186000
	},
	{
	"epoch": 1.8189108049169267,
	"eval_accuracy": 0.9995094285714285,
	"eval_loss": 0.0032863873057067394,
	"eval_runtime": 54.2808,
	"eval_samples_per_second": 552.682,
	"eval_steps_per_second": 34.543,
	"step": 186000
	},
	{
	"epoch": 1.8238003500914344,
	"grad_norm": 0.08839651942253113,
	"learning_rate": 5.2503888888888895e-05,
	"loss": 0.0046,
	"step": 186500
	},
	{
	"epoch": 1.8286898952659425,
	"grad_norm": 0.02346086874604225,
	"learning_rate": 5.0559444444444445e-05,
	"loss": 0.0046,
	"step": 187000
	},
	{
	"epoch": 1.8286898952659425,
	"eval_accuracy": 0.999513,
	"eval_loss": 0.0032574611250311136,
	"eval_runtime": 53.1956,
	"eval_samples_per_second": 563.957,
	"eval_steps_per_second": 35.247,
	"step": 187000
	},
	{
	"epoch": 1.8335794404404502,
	"grad_norm": 0.04460394009947777,
	"learning_rate": 4.8615e-05,
	"loss": 0.0048,
	"step": 187500
	},
	{
	"epoch": 1.838468985614958,
	"grad_norm": 0.039988644421100616,
	"learning_rate": 4.667055555555555e-05,
	"loss": 0.0045,
	"step": 188000
	},
	{
	"epoch": 1.838468985614958,
	"eval_accuracy": 0.999518380952381,
	"eval_loss": 0.0032375219743698835,
	"eval_runtime": 54.4684,
	"eval_samples_per_second": 550.778,
	"eval_steps_per_second": 34.424,
	"step": 188000
	},
	{
	"epoch": 1.843358530789466,
	"grad_norm": 0.026043614372611046,
	"learning_rate": 4.4726111111111114e-05,
	"loss": 0.0045,
	"step": 188500
	},
	{
	"epoch": 1.8482480759639737,
	"grad_norm": 0.03250015527009964,
	"learning_rate": 4.2781666666666664e-05,
	"loss": 0.0046,
	"step": 189000
	},
	{
	"epoch": 1.8482480759639737,
	"eval_accuracy": 0.999518,
	"eval_loss": 0.003229686524719,
	"eval_runtime": 53.1577,
	"eval_samples_per_second": 564.358,
	"eval_steps_per_second": 35.272,
	"step": 189000
	},
	{
	"epoch": 1.8531376211384818,
	"grad_norm": 0.041333604604005814,
	"learning_rate": 4.083722222222222e-05,
	"loss": 0.0045,
	"step": 189500
	},
	{
	"epoch": 1.8580271663129895,
	"grad_norm": 0.030839432030916214,
	"learning_rate": 3.889277777777778e-05,
	"loss": 0.0044,
	"step": 190000
	},
	{
	"epoch": 1.8580271663129895,
	"eval_accuracy": 0.9995217142857142,
	"eval_loss": 0.0032240275759249926,
	"eval_runtime": 53.3872,
	"eval_samples_per_second": 561.933,
	"eval_steps_per_second": 35.121,
	"step": 190000
	},
	{
	"epoch": 1.8629167114874974,
	"grad_norm": 0.0212627574801445,
	"learning_rate": 3.694833333333333e-05,
	"loss": 0.0044,
	"step": 190500
	},
	{
	"epoch": 1.8678062566620053,
	"grad_norm": 0.04159221053123474,
	"learning_rate": 3.500388888888889e-05,
	"loss": 0.0046,
	"step": 191000
	},
	{
	"epoch": 1.8678062566620053,
	"eval_accuracy": 0.9995220476190476,
	"eval_loss": 0.0032232191879302263,
	"eval_runtime": 53.7977,
	"eval_samples_per_second": 557.645,
	"eval_steps_per_second": 34.853,
	"step": 191000
	},
	{
	"epoch": 1.8726958018365132,
	"grad_norm": 0.02389533445239067,
	"learning_rate": 3.3059444444444446e-05,
	"loss": 0.0045,
	"step": 191500
	},
	{
	"epoch": 1.877585347011021,
	"grad_norm": 0.02341424487531185,
	"learning_rate": 3.1115e-05,
	"loss": 0.0045,
	"step": 192000
	},
	{
	"epoch": 1.877585347011021,
	"eval_accuracy": 0.9995232857142857,
	"eval_loss": 0.0032045834232121706,
	"eval_runtime": 54.1632,
	"eval_samples_per_second": 553.881,
	"eval_steps_per_second": 34.618,
	"step": 192000
	},
	{
	"epoch": 1.8824748921855288,
	"grad_norm": 0.03770390897989273,
	"learning_rate": 2.9170555555555556e-05,
	"loss": 0.0046,
	"step": 192500
	},
	{
	"epoch": 1.887364437360037,
	"grad_norm": 0.024086985737085342,
	"learning_rate": 2.7226111111111112e-05,
	"loss": 0.0044,
	"step": 193000
	},
	{
	"epoch": 1.887364437360037,
	"eval_accuracy": 0.9995234285714286,
	"eval_loss": 0.003206311957910657,
	"eval_runtime": 53.6844,
	"eval_samples_per_second": 558.822,
	"eval_steps_per_second": 34.926,
	"step": 193000
	},
	{
	"epoch": 1.8922539825345446,
	"grad_norm": 0.02860225737094879,
	"learning_rate": 2.5281666666666665e-05,
	"loss": 0.0043,
	"step": 193500
	},
	{
	"epoch": 1.8971435277090525,
	"grad_norm": 0.034325193613767624,
	"learning_rate": 2.3337222222222222e-05,
	"loss": 0.0044,
	"step": 194000
	},
	{
	"epoch": 1.8971435277090525,
	"eval_accuracy": 0.9995254285714286,
	"eval_loss": 0.0031913991551846266,
	"eval_runtime": 54.2224,
	"eval_samples_per_second": 553.276,
	"eval_steps_per_second": 34.58,
	"step": 194000
	},
	{
	"epoch": 1.9020330728835604,
	"grad_norm": 0.03300917148590088,
	"learning_rate": 2.139277777777778e-05,
	"loss": 0.0045,
	"step": 194500
	},
	{
	"epoch": 1.9069226180580683,
	"grad_norm": 0.037190355360507965,
	"learning_rate": 1.9448333333333335e-05,
	"loss": 0.0043,
	"step": 195000
	},
	{
	"epoch": 1.9069226180580683,
	"eval_accuracy": 0.9995253333333334,
	"eval_loss": 0.0031883243937045336,
	"eval_runtime": 54.2098,
	"eval_samples_per_second": 553.405,
	"eval_steps_per_second": 34.588,
	"step": 195000
	},
	{
	"epoch": 1.9118121632325762,
	"grad_norm": 0.1029098629951477,
	"learning_rate": 1.7503888888888888e-05,
	"loss": 0.0045,
	"step": 195500
	},
	{
	"epoch": 1.9167017084070839,
	"grad_norm": 0.027764180675148964,
	"learning_rate": 1.5559444444444444e-05,
	"loss": 0.0043,
	"step": 196000
	},
	{
	"epoch": 1.9167017084070839,
	"eval_accuracy": 0.9995274761904762,
	"eval_loss": 0.0031636343337595463,
	"eval_runtime": 54.5719,
	"eval_samples_per_second": 549.733,
	"eval_steps_per_second": 34.358,
	"step": 196000
	},
	{
	"epoch": 1.921591253581592,
	"grad_norm": 0.031358424574136734,
	"learning_rate": 1.3615e-05,
	"loss": 0.0043,
	"step": 196500
	},
	{
	"epoch": 1.9264807987560997,
	"grad_norm": 0.035557158291339874,
	"learning_rate": 1.1670555555555556e-05,
	"loss": 0.0046,
	"step": 197000
	},
	{
	"epoch": 1.9264807987560997,
	"eval_accuracy": 0.999529761904762,
	"eval_loss": 0.0031551867723464966,
	"eval_runtime": 56.5808,
	"eval_samples_per_second": 530.215,
	"eval_steps_per_second": 33.138,
	"step": 197000
	},
	{
	"epoch": 1.9313703439306076,
	"grad_norm": 0.034682463854551315,
	"learning_rate": 9.72611111111111e-06,
	"loss": 0.0045,
	"step": 197500
	},
	{
	"epoch": 1.9362598891051155,
	"grad_norm": 0.023823970928788185,
	"learning_rate": 7.781666666666667e-06,
	"loss": 0.0043,
	"step": 198000
	},
	{
	"epoch": 1.9362598891051155,
	"eval_accuracy": 0.9995307142857143,
	"eval_loss": 0.0031563735101372004,
	"eval_runtime": 56.8893,
	"eval_samples_per_second": 527.34,
	"eval_steps_per_second": 32.959,
	"step": 198000
	},
	{
	"epoch": 1.9411494342796232,
	"grad_norm": 0.020929349586367607,
	"learning_rate": 5.837222222222222e-06,
	"loss": 0.0044,
	"step": 198500
	},
	{
	"epoch": 1.9460389794541313,
	"grad_norm": 0.025913028046488762,
	"learning_rate": 3.892777777777778e-06,
	"loss": 0.0044,
	"step": 199000
	},
	{
	"epoch": 1.9460389794541313,
	"eval_accuracy": 0.9995307619047619,
	"eval_loss": 0.003153804922476411,
	"eval_runtime": 54.8658,
	"eval_samples_per_second": 546.788,
	"eval_steps_per_second": 34.174,
	"step": 199000
	},
	{
	"epoch": 1.950928524628639,
	"grad_norm": 0.02582838013768196,
	"learning_rate": 1.9483333333333335e-06,
	"loss": 0.0044,
	"step": 199500
	},
	{
	"epoch": 1.9558180698031469,
	"grad_norm": 0.016758419573307037,
	"learning_rate": 3.888888888888889e-09,
	"loss": 0.0042,
	"step": 200000
	},
	{
	"epoch": 1.9558180698031469,
	"eval_accuracy": 0.9995309047619048,
	"eval_loss": 0.003156075021252036,
	"eval_runtime": 55.5903,
	"eval_samples_per_second": 539.663,
	"eval_steps_per_second": 33.729,
	"step": 200000
	}
	],
	"logging_steps": 500,
	"max_steps": 200000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 1000,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 7,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 1
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.480299103223808e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}