Text Generation
Transformers
Safetensors
Russian
qwen2
conversational
text-generation-inference

Комментарии по модели и README

#1
by RefalMachine - opened

Привет! Очень рад, что наша работа по Ruadapt была замечена и ее наработки используются в комьюнити, а также упоминаются в благодарностях.

Однако по описанию Вашей модели у меня есть комментарий: раз в качестве базы используется Ruadapt модель для дальнейших тюнов, можете, пожалуйста так и указать в карточке модели (там есть специальное поле для указания того, с какой базы происходил файнтьюн).

Также по коду дообучения на Grandmaster - вроде у Вас там выставлена максимальная длина + весьма небольшой bs, рекомендую попробовать (не факт, конечно, что будет лучше), поднять total bs до 64/128, а также указать max_seq_length 2048 (все равно в GM если смотреть на Ruadapt токенайзер, только около 200 примеров из 150т имеют размер выше, их не жалко потерять на мой взгляд). Также при увеличении total bs рекомендуется также подтянуть и lr повыше соответственно.

@RefalMachine Михаил, спасибо за замечания! Конечно, укажу Вашу модель в описании. Большое спасибо за Ваши рекомедации, буду пробовать и экспериментировать, приятно, что работа была замечена :).

Спасибо!

RefalMachine changed discussion status to closed
Your need to confirm your account before you can post a new comment.

Sign up or log in to comment