turkish-deepseek / README.md
alibayram's picture
Upload folder using huggingface_hub
0602132 verified
---
language: tr
license: apache-2.0
library_name: transformers
tags:
- text-generation
- turkish
- deepseek
- moe
- mla
- pytorch
- causal-lm
datasets:
- tr_wikipedia
widget:
- text: "Merhaba dünya"
example_title: "Turkish Greeting"
- text: "Türkiye'nin başkenti"
example_title: "Turkish Geography"
- text: "Yapay zeka"
example_title: "Turkish Technology"
---
# Turkish DeepSeek Model
Bu model, DeepSeek mimarisi kullanılarak Türkçe metinler üzerinde eğitilmiş bir dil modelidir. Multi-head Latent Attention (MLA) ve Mixture of Experts (MoE) teknolojilerini içerir.
## Model Özellikleri
- **Parametre Sayısı**: ~192M
- **Kelime Hazinesi**: 50,256 token
- **Bağlam Uzunluğu**: 256 token
- **Dil**: Türkçe (tr)
- **Mimarisi**: DeepSeek with MLA + MoE
## Teknik Detaylar
- **Gizli Boyut**: 1024
- **Katman Sayısı**: 6 (1 yoğun + 5 MoE)
- **Attention Head**: 8
- **MoE Uzmanları**: 4 yönlendirilmiş + 2 paylaşımlı
- **Aktif Uzman**: 2 per token
## Kullanım
### Temel Kullanım
```python
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
# Model ve tokenizer'ı yükle
model = AutoModelForCausalLM.from_pretrained("your-username/turkish-deepseek", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("your-username/turkish-deepseek")
# Metin üretimi
prompt = "Merhaba dünya"
inputs = tokenizer(prompt, return_tensors="pt")
with torch.no_grad():
outputs = model.generate(
**inputs,
max_length=50,
temperature=0.7,
do_sample=True,
pad_token_id=tokenizer.pad_token_id
)
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(generated_text)
```
### Orijinal Implementation ile Kullanım
```python
# Orijinal implementasyonu kullanmak için
import torch
import sentencepiece as spm
# Tokenizer'ı yükle
tokenizer = spm.SentencePieceProcessor()
tokenizer.load("tokenizer.model")
# Model checkpoint'ini yükle
checkpoint = torch.load("pytorch_model.bin", map_location="cpu")
# Orijinal model sınıfınızı kullanarak yükleyin
# from your_original_implementation import Transformer, ModelArgs
# model = Transformer(args)
# model.load_state_dict(checkpoint)
```
## Eğitim Verisi
- **Kaynak**: Türkçe Wikipedia
- **Tokenization**: SentencePiece BPE
- **Kelime Hazinesi**: Türkçe diline optimize edilmiş
## Model Mimarisi
### Multi-head Latent Attention (MLA)
- Sıkıştırılmış key-value temsilleri (rank 256)
- Ayrı no-position ve position encoding bileşenleri
- Uzun diziler için verimli bellek kullanımı
### Mixture of Experts (MoE)
- Top-2 yönlendirme ve yük dengeleme
- Ortak desenler için paylaşımlı uzmanlar
- Seyrek aktivasyon ile azaltılmış hesaplama
### RoPE with YaRN Scaling
- Frekans ölçekleme ile rotational position embedding
- Eğitim uzunluğunun ötesinde genişletilmiş bağlam desteği
- Temel frekans: 10000.0
## Performans
- **Çıkarım**: Türkçe metin üretimi için optimize edilmiş
- **Bellek**: MLA, KV cache boyutunu azaltır
- **Hız**: MoE, kontrollü hesaplama ile daha büyük kapasiteye olanak tanır
## Sınırlamalar
- Ağırlıklı olarak Türkçe Wikipedia üzerinde eğitilmiş (sınırlı alan kapsamı)
- Bağlam uzunluğu 256 token ile sınırlı
- Eğitim verisinde mevcut önyargılar sergileyebilir
## Alıntı
Bu modeli kullanırsanız, lütfen alıntı yapın:
```bibtex
@misc{turkish-deepseek,
title={Turkish DeepSeek Language Model},
author={Your Name},
year={2024},
url={https://huggingface.co/your-username/turkish-deepseek}
}
```
## Lisans
Apache 2.0 License
## Model Card Authors
[Your Name]
---
## English Summary
This is a Turkish language model based on the DeepSeek architecture, featuring Multi-head Latent Attention (MLA) and Mixture of Experts (MoE). The model has ~192M parameters and was trained on Turkish Wikipedia data.
### Key Features
- **Architecture**: DeepSeek with advanced MLA and MoE components
- **Language**: Turkish (tr)
- **Training**: Turkish Wikipedia corpus
- **Vocabulary**: 50,256 tokens optimized for Turkish
### Usage
Load with `trust_remote_code=True` to use the custom implementation, or use the provided model files directly.