[ { "model_name": "o3", "score": 0.6205741626794259, "math_score": 0.868421052631579, "physics_score": 0.37272727272727274, "total_tokens": 1251746, "evaluation_time": 4609.068037748337, "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." }, { "model_name": "o3-mini-high", "score": 0.600956937799043, "math_score": 0.8473684210526315, "physics_score": 0.35454545454545455, "total_tokens": 2455126, "evaluation_time": 4015.4359402656555, "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." }, { "model_name": "o4-mini-high", "score": 0.5906698564593301, "math_score": 0.8631578947368421, "physics_score": 0.3181818181818182, "total_tokens": 1898964, "evaluation_time": 4623.6044108867645, "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." }, { "model_name": "Gemini 2.5 Pro Preview", "score": 0.5863636363636364, "math_score": 0.8, "physics_score": 0.37272727272727274, "total_tokens": 1394299, "evaluation_time": 4533.155055761337, "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." }, { "model_name": "Gemini 2.0 Flash", "score": 0.4217703349282297, "math_score": 0.5526315789473685, "physics_score": 0.2909090909090909, "total_tokens": 731337, "evaluation_time": 857.6413371562958, "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." }, { "model_name": "gpt-4.1", "score": 0.3861244019138756, "math_score": 0.5631578947368421, "physics_score": 0.20909090909090908, "total_tokens": 405803, "evaluation_time": 1918.7988040447235, "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." }, { "model_name": "Claude 3.7 Sonnet", "score": 0.36770334928229664, "math_score": 0.5263157894736842, "physics_score": 0.20909090909090908, "total_tokens": 398016, "evaluation_time": 1095.7695870399475, "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." }, { "model_name": "Claude 3.5 Sonnet", "score": 0.33851674641148327, "math_score": 0.43157894736842106, "physics_score": 0.24545454545454545, "total_tokens": 222241, "evaluation_time": 670.5163931846619, "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." }, { "model_name": "Gemma 3 27B", "score": 0.32057416267942584, "math_score": 0.46842105263157896, "physics_score": 0.17272727272727273, "total_tokens": 357617, "evaluation_time": 2030.33176279068, "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." }, { "model_name": "Gemma 3 12B", "score": 0.29832535885167466, "math_score": 0.4421052631578947, "physics_score": 0.15454545454545454, "total_tokens": 441055, "evaluation_time": 3916.2552330493927, "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." }, { "model_name": "Qwen2.5 72B Instruct", "score": 0.2784688995215311, "math_score": 0.38421052631578945, "physics_score": 0.17272727272727273, "total_tokens": 366729, "evaluation_time": 2460.056980371475, "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." }, { "model_name": "gpt-4o", "score": 0.2617224880382775, "math_score": 0.4052631578947368, "physics_score": 0.11818181818181818, "total_tokens": 468809, "evaluation_time": 1078.4077816009521, "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." }, { "model_name": "DeepSeek V3 0324", "score": 0.13229665071770336, "math_score": 0.1736842105263158, "physics_score": 0.09090909090909091, "total_tokens": 359162, "evaluation_time": 4257.714092254639, "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." }, { "model_name": "Gemma 3 4B", "score": 0.12416267942583732, "math_score": 0.22105263157894736, "physics_score": 0.02727272727272727, "total_tokens": 572095, "evaluation_time": 1682.6655840873718, "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." } ]