Планы

#1
by shpinog - opened

Есть ли планы выпустить что-то подобное 22b ?

Есть ли планы выпустить что-то подобное 22b ?

Может быть. Но я хз что можно замерджить среди 22б моделей. А что касается 12б моделей, то на мой взгляд уже потолок. Дальше только файнтюн

Можно и модели 30b, если есть на примете. Я никак не могу найти что-то хорошее с русским языком около 30-40b.

Планируется ли модель на основе gemma 3 12b?
Уже есть РП модели, вроде https://huggingface.co/SicariusSicariiStuff/Oni_Mitsubishi_12B
Однако там русский язык хромает. Но в целом модель обучаема на РП и цензура там убираема.
Хотелось бы аналог NekoMix на основе gemma 3 12b.

Не думаю, gemma 3 12b оказалсь очень прожорливой на память и там, где Nemo можно было ужать с большим контекстом и хорошей скоростью Gemma 3 не влезает совершенно

Можно и 22-27B. Что-то что влезет в 24гб при кванте не меньше q4. Ещё нет моделей moe, сейчас они вижу модные, всякие 4x8b 5x8b и тд, плюс каждый "эксперт " рассуждает отдельно.
Похоже сейчас эта лучшая модель , но t-pro q4_k_m с квантованным контекстом 64000 влезает в мою 3090 и он как будто русский знает получше.

Sign up or log in to comment