|
--- |
|
language: tr |
|
license: apache-2.0 |
|
library_name: transformers |
|
tags: |
|
- text-generation |
|
- turkish |
|
- deepseek |
|
- moe |
|
- mla |
|
- pytorch |
|
- causal-lm |
|
datasets: |
|
- tr_wikipedia |
|
widget: |
|
- text: "Merhaba dünya" |
|
example_title: "Turkish Greeting" |
|
- text: "Türkiye'nin başkenti" |
|
example_title: "Turkish Geography" |
|
- text: "Yapay zeka" |
|
example_title: "Turkish Technology" |
|
--- |
|
|
|
# Turkish DeepSeek Model |
|
|
|
Bu model, DeepSeek mimarisi kullanılarak Türkçe metinler üzerinde eğitilmiş bir dil modelidir. Multi-head Latent Attention (MLA) ve Mixture of Experts (MoE) teknolojilerini içerir. |
|
|
|
## Model Özellikleri |
|
|
|
- **Parametre Sayısı**: ~192M |
|
- **Kelime Hazinesi**: 50,256 token |
|
- **Bağlam Uzunluğu**: 256 token |
|
- **Dil**: Türkçe (tr) |
|
- **Mimarisi**: DeepSeek with MLA + MoE |
|
|
|
## Teknik Detaylar |
|
|
|
- **Gizli Boyut**: 1024 |
|
- **Katman Sayısı**: 6 (1 yoğun + 5 MoE) |
|
- **Attention Head**: 8 |
|
- **MoE Uzmanları**: 4 yönlendirilmiş + 2 paylaşımlı |
|
- **Aktif Uzman**: 2 per token |
|
|
|
## Kullanım |
|
|
|
### Temel Kullanım |
|
|
|
```python |
|
import torch |
|
from transformers import AutoTokenizer, AutoModelForCausalLM |
|
|
|
# Model ve tokenizer'ı yükle |
|
model = AutoModelForCausalLM.from_pretrained("your-username/turkish-deepseek", trust_remote_code=True) |
|
tokenizer = AutoTokenizer.from_pretrained("your-username/turkish-deepseek") |
|
|
|
# Metin üretimi |
|
prompt = "Merhaba dünya" |
|
inputs = tokenizer(prompt, return_tensors="pt") |
|
with torch.no_grad(): |
|
outputs = model.generate( |
|
**inputs, |
|
max_length=50, |
|
temperature=0.7, |
|
do_sample=True, |
|
pad_token_id=tokenizer.pad_token_id |
|
) |
|
|
|
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True) |
|
print(generated_text) |
|
``` |
|
|
|
### Orijinal Implementation ile Kullanım |
|
|
|
```python |
|
# Orijinal implementasyonu kullanmak için |
|
import torch |
|
import sentencepiece as spm |
|
|
|
# Tokenizer'ı yükle |
|
tokenizer = spm.SentencePieceProcessor() |
|
tokenizer.load("tokenizer.model") |
|
|
|
# Model checkpoint'ini yükle |
|
checkpoint = torch.load("pytorch_model.bin", map_location="cpu") |
|
|
|
# Orijinal model sınıfınızı kullanarak yükleyin |
|
# from your_original_implementation import Transformer, ModelArgs |
|
# model = Transformer(args) |
|
# model.load_state_dict(checkpoint) |
|
``` |
|
|
|
## Eğitim Verisi |
|
|
|
- **Kaynak**: Türkçe Wikipedia |
|
- **Tokenization**: SentencePiece BPE |
|
- **Kelime Hazinesi**: Türkçe diline optimize edilmiş |
|
|
|
## Model Mimarisi |
|
|
|
### Multi-head Latent Attention (MLA) |
|
- Sıkıştırılmış key-value temsilleri (rank 256) |
|
- Ayrı no-position ve position encoding bileşenleri |
|
- Uzun diziler için verimli bellek kullanımı |
|
|
|
### Mixture of Experts (MoE) |
|
- Top-2 yönlendirme ve yük dengeleme |
|
- Ortak desenler için paylaşımlı uzmanlar |
|
- Seyrek aktivasyon ile azaltılmış hesaplama |
|
|
|
### RoPE with YaRN Scaling |
|
- Frekans ölçekleme ile rotational position embedding |
|
- Eğitim uzunluğunun ötesinde genişletilmiş bağlam desteği |
|
- Temel frekans: 10000.0 |
|
|
|
## Performans |
|
|
|
- **Çıkarım**: Türkçe metin üretimi için optimize edilmiş |
|
- **Bellek**: MLA, KV cache boyutunu azaltır |
|
- **Hız**: MoE, kontrollü hesaplama ile daha büyük kapasiteye olanak tanır |
|
|
|
## Sınırlamalar |
|
|
|
- Ağırlıklı olarak Türkçe Wikipedia üzerinde eğitilmiş (sınırlı alan kapsamı) |
|
- Bağlam uzunluğu 256 token ile sınırlı |
|
- Eğitim verisinde mevcut önyargılar sergileyebilir |
|
|
|
## Alıntı |
|
|
|
Bu modeli kullanırsanız, lütfen alıntı yapın: |
|
|
|
```bibtex |
|
@misc{turkish-deepseek, |
|
title={Turkish DeepSeek Language Model}, |
|
author={Your Name}, |
|
year={2024}, |
|
url={https://huggingface.co/your-username/turkish-deepseek} |
|
} |
|
``` |
|
|
|
## Lisans |
|
|
|
Apache 2.0 License |
|
|
|
## Model Card Authors |
|
|
|
[Your Name] |
|
|
|
--- |
|
|
|
## English Summary |
|
|
|
This is a Turkish language model based on the DeepSeek architecture, featuring Multi-head Latent Attention (MLA) and Mixture of Experts (MoE). The model has ~192M parameters and was trained on Turkish Wikipedia data. |
|
|
|
### Key Features |
|
- **Architecture**: DeepSeek with advanced MLA and MoE components |
|
- **Language**: Turkish (tr) |
|
- **Training**: Turkish Wikipedia corpus |
|
- **Vocabulary**: 50,256 tokens optimized for Turkish |
|
|
|
### Usage |
|
Load with `trust_remote_code=True` to use the custom implementation, or use the provided model files directly. |
|
|