File size: 4,224 Bytes
---
language: tr
license: apache-2.0
library_name: transformers
tags:
- text-generation
- turkish
- deepseek
- moe
- mla
- pytorch
- causal-lm
datasets:
- tr_wikipedia
widget:
- text: "Merhaba dünya"
  example_title: "Turkish Greeting"
- text: "Türkiye'nin başkenti"
  example_title: "Turkish Geography"
- text: "Yapay zeka"
  example_title: "Turkish Technology"
---

# Turkish DeepSeek Model

Bu model, DeepSeek mimarisi kullanılarak Türkçe metinler üzerinde eğitilmiş bir dil modelidir. Multi-head Latent Attention (MLA) ve Mixture of Experts (MoE) teknolojilerini içerir.

## Model Özellikleri

- **Parametre Sayısı**: ~192M
- **Kelime Hazinesi**: 50,256 token
- **Bağlam Uzunluğu**: 256 token
- **Dil**: Türkçe (tr)
- **Mimarisi**: DeepSeek with MLA + MoE

## Teknik Detaylar

- **Gizli Boyut**: 1024
- **Katman Sayısı**: 6 (1 yoğun + 5 MoE)
- **Attention Head**: 8
- **MoE Uzmanları**: 4 yönlendirilmiş + 2 paylaşımlı
- **Aktif Uzman**: 2 per token

## Kullanım

### Temel Kullanım

```python
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# Model ve tokenizer'ı yükle
model = AutoModelForCausalLM.from_pretrained("your-username/turkish-deepseek", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("your-username/turkish-deepseek")

# Metin üretimi
prompt = "Merhaba dünya"
inputs = tokenizer(prompt, return_tensors="pt")
with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_length=50,
        temperature=0.7,
        do_sample=True,
        pad_token_id=tokenizer.pad_token_id
    )

generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(generated_text)
```

### Orijinal Implementation ile Kullanım

```python
# Orijinal implementasyonu kullanmak için
import torch
import sentencepiece as spm

# Tokenizer'ı yükle
tokenizer = spm.SentencePieceProcessor()
tokenizer.load("tokenizer.model")

# Model checkpoint'ini yükle
checkpoint = torch.load("pytorch_model.bin", map_location="cpu")

# Orijinal model sınıfınızı kullanarak yükleyin
# from your_original_implementation import Transformer, ModelArgs
# model = Transformer(args)
# model.load_state_dict(checkpoint)
```

## Eğitim Verisi

- **Kaynak**: Türkçe Wikipedia
- **Tokenization**: SentencePiece BPE
- **Kelime Hazinesi**: Türkçe diline optimize edilmiş

## Model Mimarisi

### Multi-head Latent Attention (MLA)
- Sıkıştırılmış key-value temsilleri (rank 256)
- Ayrı no-position ve position encoding bileşenleri
- Uzun diziler için verimli bellek kullanımı

### Mixture of Experts (MoE)
- Top-2 yönlendirme ve yük dengeleme
- Ortak desenler için paylaşımlı uzmanlar
- Seyrek aktivasyon ile azaltılmış hesaplama

### RoPE with YaRN Scaling
- Frekans ölçekleme ile rotational position embedding
- Eğitim uzunluğunun ötesinde genişletilmiş bağlam desteği
- Temel frekans: 10000.0

## Performans

- **Çıkarım**: Türkçe metin üretimi için optimize edilmiş
- **Bellek**: MLA, KV cache boyutunu azaltır
- **Hız**: MoE, kontrollü hesaplama ile daha büyük kapasiteye olanak tanır

## Sınırlamalar

- Ağırlıklı olarak Türkçe Wikipedia üzerinde eğitilmiş (sınırlı alan kapsamı)
- Bağlam uzunluğu 256 token ile sınırlı
- Eğitim verisinde mevcut önyargılar sergileyebilir

## Alıntı

Bu modeli kullanırsanız, lütfen alıntı yapın:

```bibtex
@misc{turkish-deepseek,
  title={Turkish DeepSeek Language Model},
  author={Your Name},
  year={2024},
  url={https://huggingface.co/your-username/turkish-deepseek}
}
```

## Lisans

Apache 2.0 License

## Model Card Authors

[Your Name]

---

## English Summary

This is a Turkish language model based on the DeepSeek architecture, featuring Multi-head Latent Attention (MLA) and Mixture of Experts (MoE). The model has ~192M parameters and was trained on Turkish Wikipedia data.

### Key Features
- **Architecture**: DeepSeek with advanced MLA and MoE components
- **Language**: Turkish (tr)
- **Training**: Turkish Wikipedia corpus
- **Vocabulary**: 50,256 tokens optimized for Turkish

### Usage
Load with `trust_remote_code=True` to use the custom implementation, or use the provided model files directly.