File size: 4,224 Bytes
0602132 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 |
---
language: tr
license: apache-2.0
library_name: transformers
tags:
- text-generation
- turkish
- deepseek
- moe
- mla
- pytorch
- causal-lm
datasets:
- tr_wikipedia
widget:
- text: "Merhaba dünya"
example_title: "Turkish Greeting"
- text: "Türkiye'nin başkenti"
example_title: "Turkish Geography"
- text: "Yapay zeka"
example_title: "Turkish Technology"
---
# Turkish DeepSeek Model
Bu model, DeepSeek mimarisi kullanılarak Türkçe metinler üzerinde eğitilmiş bir dil modelidir. Multi-head Latent Attention (MLA) ve Mixture of Experts (MoE) teknolojilerini içerir.
## Model Özellikleri
- **Parametre Sayısı**: ~192M
- **Kelime Hazinesi**: 50,256 token
- **Bağlam Uzunluğu**: 256 token
- **Dil**: Türkçe (tr)
- **Mimarisi**: DeepSeek with MLA + MoE
## Teknik Detaylar
- **Gizli Boyut**: 1024
- **Katman Sayısı**: 6 (1 yoğun + 5 MoE)
- **Attention Head**: 8
- **MoE Uzmanları**: 4 yönlendirilmiş + 2 paylaşımlı
- **Aktif Uzman**: 2 per token
## Kullanım
### Temel Kullanım
```python
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
# Model ve tokenizer'ı yükle
model = AutoModelForCausalLM.from_pretrained("your-username/turkish-deepseek", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("your-username/turkish-deepseek")
# Metin üretimi
prompt = "Merhaba dünya"
inputs = tokenizer(prompt, return_tensors="pt")
with torch.no_grad():
outputs = model.generate(
**inputs,
max_length=50,
temperature=0.7,
do_sample=True,
pad_token_id=tokenizer.pad_token_id
)
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(generated_text)
```
### Orijinal Implementation ile Kullanım
```python
# Orijinal implementasyonu kullanmak için
import torch
import sentencepiece as spm
# Tokenizer'ı yükle
tokenizer = spm.SentencePieceProcessor()
tokenizer.load("tokenizer.model")
# Model checkpoint'ini yükle
checkpoint = torch.load("pytorch_model.bin", map_location="cpu")
# Orijinal model sınıfınızı kullanarak yükleyin
# from your_original_implementation import Transformer, ModelArgs
# model = Transformer(args)
# model.load_state_dict(checkpoint)
```
## Eğitim Verisi
- **Kaynak**: Türkçe Wikipedia
- **Tokenization**: SentencePiece BPE
- **Kelime Hazinesi**: Türkçe diline optimize edilmiş
## Model Mimarisi
### Multi-head Latent Attention (MLA)
- Sıkıştırılmış key-value temsilleri (rank 256)
- Ayrı no-position ve position encoding bileşenleri
- Uzun diziler için verimli bellek kullanımı
### Mixture of Experts (MoE)
- Top-2 yönlendirme ve yük dengeleme
- Ortak desenler için paylaşımlı uzmanlar
- Seyrek aktivasyon ile azaltılmış hesaplama
### RoPE with YaRN Scaling
- Frekans ölçekleme ile rotational position embedding
- Eğitim uzunluğunun ötesinde genişletilmiş bağlam desteği
- Temel frekans: 10000.0
## Performans
- **Çıkarım**: Türkçe metin üretimi için optimize edilmiş
- **Bellek**: MLA, KV cache boyutunu azaltır
- **Hız**: MoE, kontrollü hesaplama ile daha büyük kapasiteye olanak tanır
## Sınırlamalar
- Ağırlıklı olarak Türkçe Wikipedia üzerinde eğitilmiş (sınırlı alan kapsamı)
- Bağlam uzunluğu 256 token ile sınırlı
- Eğitim verisinde mevcut önyargılar sergileyebilir
## Alıntı
Bu modeli kullanırsanız, lütfen alıntı yapın:
```bibtex
@misc{turkish-deepseek,
title={Turkish DeepSeek Language Model},
author={Your Name},
year={2024},
url={https://huggingface.co/your-username/turkish-deepseek}
}
```
## Lisans
Apache 2.0 License
## Model Card Authors
[Your Name]
---
## English Summary
This is a Turkish language model based on the DeepSeek architecture, featuring Multi-head Latent Attention (MLA) and Mixture of Experts (MoE). The model has ~192M parameters and was trained on Turkish Wikipedia data.
### Key Features
- **Architecture**: DeepSeek with advanced MLA and MoE components
- **Language**: Turkish (tr)
- **Training**: Turkish Wikipedia corpus
- **Vocabulary**: 50,256 tokens optimized for Turkish
### Usage
Load with `trust_remote_code=True` to use the custom implementation, or use the provided model files directly.
|