File size: 4,224 Bytes
0602132
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
---
language: tr
license: apache-2.0
library_name: transformers
tags:
- text-generation
- turkish
- deepseek
- moe
- mla
- pytorch
- causal-lm
datasets:
- tr_wikipedia
widget:
- text: "Merhaba dünya"
  example_title: "Turkish Greeting"
- text: "Türkiye'nin başkenti"
  example_title: "Turkish Geography"
- text: "Yapay zeka"
  example_title: "Turkish Technology"
---

# Turkish DeepSeek Model

Bu model, DeepSeek mimarisi kullanılarak Türkçe metinler üzerinde eğitilmiş bir dil modelidir. Multi-head Latent Attention (MLA) ve Mixture of Experts (MoE) teknolojilerini içerir.

## Model Özellikleri

- **Parametre Sayısı**: ~192M
- **Kelime Hazinesi**: 50,256 token
- **Bağlam Uzunluğu**: 256 token
- **Dil**: Türkçe (tr)
- **Mimarisi**: DeepSeek with MLA + MoE

## Teknik Detaylar

- **Gizli Boyut**: 1024
- **Katman Sayısı**: 6 (1 yoğun + 5 MoE)
- **Attention Head**: 8
- **MoE Uzmanları**: 4 yönlendirilmiş + 2 paylaşımlı
- **Aktif Uzman**: 2 per token

## Kullanım

### Temel Kullanım

```python
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# Model ve tokenizer'ı yükle
model = AutoModelForCausalLM.from_pretrained("your-username/turkish-deepseek", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("your-username/turkish-deepseek")

# Metin üretimi
prompt = "Merhaba dünya"
inputs = tokenizer(prompt, return_tensors="pt")
with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_length=50,
        temperature=0.7,
        do_sample=True,
        pad_token_id=tokenizer.pad_token_id
    )

generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(generated_text)
```

### Orijinal Implementation ile Kullanım

```python
# Orijinal implementasyonu kullanmak için
import torch
import sentencepiece as spm

# Tokenizer'ı yükle
tokenizer = spm.SentencePieceProcessor()
tokenizer.load("tokenizer.model")

# Model checkpoint'ini yükle
checkpoint = torch.load("pytorch_model.bin", map_location="cpu")

# Orijinal model sınıfınızı kullanarak yükleyin
# from your_original_implementation import Transformer, ModelArgs
# model = Transformer(args)
# model.load_state_dict(checkpoint)
```

## Eğitim Verisi

- **Kaynak**: Türkçe Wikipedia
- **Tokenization**: SentencePiece BPE
- **Kelime Hazinesi**: Türkçe diline optimize edilmiş

## Model Mimarisi

### Multi-head Latent Attention (MLA)
- Sıkıştırılmış key-value temsilleri (rank 256)
- Ayrı no-position ve position encoding bileşenleri
- Uzun diziler için verimli bellek kullanımı

### Mixture of Experts (MoE)
- Top-2 yönlendirme ve yük dengeleme
- Ortak desenler için paylaşımlı uzmanlar
- Seyrek aktivasyon ile azaltılmış hesaplama

### RoPE with YaRN Scaling
- Frekans ölçekleme ile rotational position embedding
- Eğitim uzunluğunun ötesinde genişletilmiş bağlam desteği
- Temel frekans: 10000.0

## Performans

- **Çıkarım**: Türkçe metin üretimi için optimize edilmiş
- **Bellek**: MLA, KV cache boyutunu azaltır
- **Hız**: MoE, kontrollü hesaplama ile daha büyük kapasiteye olanak tanır

## Sınırlamalar

- Ağırlıklı olarak Türkçe Wikipedia üzerinde eğitilmiş (sınırlı alan kapsamı)
- Bağlam uzunluğu 256 token ile sınırlı
- Eğitim verisinde mevcut önyargılar sergileyebilir

## Alıntı

Bu modeli kullanırsanız, lütfen alıntı yapın:

```bibtex
@misc{turkish-deepseek,
  title={Turkish DeepSeek Language Model},
  author={Your Name},
  year={2024},
  url={https://huggingface.co/your-username/turkish-deepseek}
}
```

## Lisans

Apache 2.0 License

## Model Card Authors

[Your Name]

---

## English Summary

This is a Turkish language model based on the DeepSeek architecture, featuring Multi-head Latent Attention (MLA) and Mixture of Experts (MoE). The model has ~192M parameters and was trained on Turkish Wikipedia data.

### Key Features
- **Architecture**: DeepSeek with advanced MLA and MoE components
- **Language**: Turkish (tr)
- **Training**: Turkish Wikipedia corpus
- **Vocabulary**: 50,256 tokens optimized for Turkish

### Usage
Load with `trust_remote_code=True` to use the custom implementation, or use the provided model files directly.