Spaces:
Running
Running
[ | |
{ | |
"model_name": "o3", | |
"score": 0.6205741626794259, | |
"math_score": 0.868421052631579, | |
"physics_score": 0.37272727272727274, | |
"total_tokens": 1251746, | |
"evaluation_time": 4609.068037748337, | |
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
}, | |
{ | |
"model_name": "o3-mini-high", | |
"score": 0.600956937799043, | |
"math_score": 0.8473684210526315, | |
"physics_score": 0.35454545454545455, | |
"total_tokens": 2455126, | |
"evaluation_time": 4015.4359402656555, | |
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
}, | |
{ | |
"model_name": "o4-mini-high", | |
"score": 0.5906698564593301, | |
"math_score": 0.8631578947368421, | |
"physics_score": 0.3181818181818182, | |
"total_tokens": 1898964, | |
"evaluation_time": 4623.6044108867645, | |
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
}, | |
{ | |
"model_name": "Gemini 2.5 Pro Preview", | |
"score": 0.5863636363636364, | |
"math_score": 0.8, | |
"physics_score": 0.37272727272727274, | |
"total_tokens": 1394299, | |
"evaluation_time": 4533.155055761337, | |
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
}, | |
{ | |
"model_name": "Gemini 2.0 Flash", | |
"score": 0.4217703349282297, | |
"math_score": 0.5526315789473685, | |
"physics_score": 0.2909090909090909, | |
"total_tokens": 731337, | |
"evaluation_time": 857.6413371562958, | |
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
}, | |
{ | |
"model_name": "gpt-4.1", | |
"score": 0.3861244019138756, | |
"math_score": 0.5631578947368421, | |
"physics_score": 0.20909090909090908, | |
"total_tokens": 405803, | |
"evaluation_time": 1918.7988040447235, | |
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
}, | |
{ | |
"model_name": "Claude 3.7 Sonnet", | |
"score": 0.36770334928229664, | |
"math_score": 0.5263157894736842, | |
"physics_score": 0.20909090909090908, | |
"total_tokens": 398016, | |
"evaluation_time": 1095.7695870399475, | |
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
}, | |
{ | |
"model_name": "Claude 3.5 Sonnet", | |
"score": 0.33851674641148327, | |
"math_score": 0.43157894736842106, | |
"physics_score": 0.24545454545454545, | |
"total_tokens": 222241, | |
"evaluation_time": 670.5163931846619, | |
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
}, | |
{ | |
"model_name": "Gemma 3 27B", | |
"score": 0.32057416267942584, | |
"math_score": 0.46842105263157896, | |
"physics_score": 0.17272727272727273, | |
"total_tokens": 357617, | |
"evaluation_time": 2030.33176279068, | |
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
}, | |
{ | |
"model_name": "Gemma 3 12B", | |
"score": 0.29832535885167466, | |
"math_score": 0.4421052631578947, | |
"physics_score": 0.15454545454545454, | |
"total_tokens": 441055, | |
"evaluation_time": 3916.2552330493927, | |
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
}, | |
{ | |
"model_name": "Qwen2.5 72B Instruct", | |
"score": 0.2784688995215311, | |
"math_score": 0.38421052631578945, | |
"physics_score": 0.17272727272727273, | |
"total_tokens": 366729, | |
"evaluation_time": 2460.056980371475, | |
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
}, | |
{ | |
"model_name": "gpt-4o", | |
"score": 0.2617224880382775, | |
"math_score": 0.4052631578947368, | |
"physics_score": 0.11818181818181818, | |
"total_tokens": 468809, | |
"evaluation_time": 1078.4077816009521, | |
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
}, | |
{ | |
"model_name": "DeepSeek V3 0324", | |
"score": 0.13229665071770336, | |
"math_score": 0.1736842105263158, | |
"physics_score": 0.09090909090909091, | |
"total_tokens": 359162, | |
"evaluation_time": 4257.714092254639, | |
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
}, | |
{ | |
"model_name": "Gemma 3 4B", | |
"score": 0.12416267942583732, | |
"math_score": 0.22105263157894736, | |
"physics_score": 0.02727272727272727, | |
"total_tokens": 572095, | |
"evaluation_time": 1682.6655840873718, | |
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
} | |
] |