turkish-deepseek / README.md

Upload folder using huggingface_hub

0602132 verified 28 days ago

4.22 kB

	---
	language: tr
	license: apache-2.0
	library_name: transformers
	tags:
	- text-generation
	- turkish
	- deepseek
	- moe
	- mla
	- pytorch
	- causal-lm
	datasets:
	- tr_wikipedia
	widget:
	- text: "Merhaba dünya"
	example_title: "Turkish Greeting"
	- text: "Türkiye'nin başkenti"
	example_title: "Turkish Geography"
	- text: "Yapay zeka"
	example_title: "Turkish Technology"
	---

	# Turkish DeepSeek Model

	Bu model, DeepSeek mimarisi kullanılarak Türkçe metinler üzerinde eğitilmiş bir dil modelidir. Multi-head Latent Attention (MLA) ve Mixture of Experts (MoE) teknolojilerini içerir.

	## Model Özellikleri

	- Parametre Sayısı: ~192M
	- Kelime Hazinesi: 50,256 token
	- Bağlam Uzunluğu: 256 token
	- Dil: Türkçe (tr)
	- Mimarisi: DeepSeek with MLA + MoE

	## Teknik Detaylar

	- Gizli Boyut: 1024
	- Katman Sayısı: 6 (1 yoğun + 5 MoE)
	- Attention Head: 8
	- MoE Uzmanları: 4 yönlendirilmiş + 2 paylaşımlı
	- Aktif Uzman: 2 per token

	## Kullanım

	### Temel Kullanım

	```python
	import torch
	from transformers import AutoTokenizer, AutoModelForCausalLM

	# Model ve tokenizer'ı yükle
	model = AutoModelForCausalLM.from_pretrained("your-username/turkish-deepseek", trust_remote_code=True)
	tokenizer = AutoTokenizer.from_pretrained("your-username/turkish-deepseek")

	# Metin üretimi
	prompt = "Merhaba dünya"
	inputs = tokenizer(prompt, return_tensors="pt")
	with torch.no_grad():
	outputs = model.generate(
	**inputs,
	max_length=50,
	temperature=0.7,
	do_sample=True,
	pad_token_id=tokenizer.pad_token_id
	)

	generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
	print(generated_text)
	```

	### Orijinal Implementation ile Kullanım

	```python
	# Orijinal implementasyonu kullanmak için
	import torch
	import sentencepiece as spm

	# Tokenizer'ı yükle
	tokenizer = spm.SentencePieceProcessor()
	tokenizer.load("tokenizer.model")

	# Model checkpoint'ini yükle
	checkpoint = torch.load("pytorch_model.bin", map_location="cpu")

	# Orijinal model sınıfınızı kullanarak yükleyin
	# from your_original_implementation import Transformer, ModelArgs
	# model = Transformer(args)
	# model.load_state_dict(checkpoint)
	```

	## Eğitim Verisi

	- Kaynak: Türkçe Wikipedia
	- Tokenization: SentencePiece BPE
	- Kelime Hazinesi: Türkçe diline optimize edilmiş

	## Model Mimarisi

	### Multi-head Latent Attention (MLA)
	- Sıkıştırılmış key-value temsilleri (rank 256)
	- Ayrı no-position ve position encoding bileşenleri
	- Uzun diziler için verimli bellek kullanımı

	### Mixture of Experts (MoE)
	- Top-2 yönlendirme ve yük dengeleme
	- Ortak desenler için paylaşımlı uzmanlar
	- Seyrek aktivasyon ile azaltılmış hesaplama

	### RoPE with YaRN Scaling
	- Frekans ölçekleme ile rotational position embedding
	- Eğitim uzunluğunun ötesinde genişletilmiş bağlam desteği
	- Temel frekans: 10000.0

	## Performans

	- Çıkarım: Türkçe metin üretimi için optimize edilmiş
	- Bellek: MLA, KV cache boyutunu azaltır
	- Hız: MoE, kontrollü hesaplama ile daha büyük kapasiteye olanak tanır

	## Sınırlamalar

	- Ağırlıklı olarak Türkçe Wikipedia üzerinde eğitilmiş (sınırlı alan kapsamı)
	- Bağlam uzunluğu 256 token ile sınırlı
	- Eğitim verisinde mevcut önyargılar sergileyebilir

	## Alıntı

	Bu modeli kullanırsanız, lütfen alıntı yapın:

	```bibtex
	@misc{turkish-deepseek,
	title={Turkish DeepSeek Language Model},
	author={Your Name},
	year={2024},
	url={https://huggingface.co/your-username/turkish-deepseek}
	}
	```

	## Lisans

	Apache 2.0 License

	## Model Card Authors

	[Your Name]

	---

	## English Summary

	This is a Turkish language model based on the DeepSeek architecture, featuring Multi-head Latent Attention (MLA) and Mixture of Experts (MoE). The model has ~192M parameters and was trained on Turkish Wikipedia data.

	### Key Features
	- Architecture: DeepSeek with advanced MLA and MoE components
	- Language: Turkish (tr)
	- Training: Turkish Wikipedia corpus
	- Vocabulary: 50,256 tokens optimized for Turkish

	### Usage
	Load with `trust_remote_code=True` to use the custom implementation, or use the provided model files directly.