EgorKim
/

llm-course-hw1

Text Generation

Model card Files Files and versions

EgorKim commited on Mar 15

Commit

f74ebee

·

verified ·

1 Parent(s): a40ad59

Create README.md

Files changed (1) hide show

README.md +37 -0

README.md ADDED Viewed

	@@ -0,0 +1,37 @@

+---
+license: mit
+datasets:
+- IgorVolochay/russian_jokes
+language:
+- ru
+---
+Маленькая LLM для генерации несмешных шуток (пока что). Обучена на датасете [RussianJokes](https://huggingface.co/datasets/IgorVolochay/russian_jokes). Создана в рамках учебного проекта VK education.
+# Архитектура:
+10.55M параметров, SwiGLU, GQA, ALiBi, byte-level BPE
+- n_layer=6
+- n_head=6
+- n_kv_head=3
+- hidden_dim=384
+- intermediate_dim=1024
+# Как использовать
+```
+device = torch.device("cuda")
+tokenizer = ByteLevelBPETokenizer.from_pretrained(REPO_NAME)
+check_model = TransformerForCausalLM.from_pretrained(REPO_NAME)
+check_model = check_model.to(device)
+check_model = check_model.eval()
+text = "Штирлиц пришел домой"
+input_ids = torch.tensor(tokenizer.encode(text), device=device)
+model_output = check_model.generate(
+input_ids[None, :], max_new_tokens=200, eos_token_id=tokenizer.eos_token_id, do_sample=True, top_k=10
+)
+tokenizer.decode(model_output[0].tolist())
+```
+Output:
+```
+Штирлиц пришел домой к врачу и видит, что он пришел с ней.
+```