📝 umt5-small Turkish Abstractive Summarization

🧠 Abstract

This model presents a fine-tuned version of umt5-small, specifically adapted for abstractive summarization of Turkish-language texts. Leveraging the multilingual capabilities of the original umT5 architecture, the model has been trained on a high-quality Turkish summarization dataset containing diverse news articles and their human-written summaries. The goal of this model is to generate coherent, concise, and semantically accurate summaries from long-form Turkish content, making it suitable for real-world applications such as news aggregation, document compression, and information retrieval.

Despite its small size the model demonstrates strong performance across standard evaluation metrics including ROUGE and METEOR, achieving results within the commonly accepted thresholds for Turkish-language summarization tasks. It strikes a practical balance between efficiency and quality, making it ideal for use in resource-constrained environments.


🔍 Metric Interpretation (Specific to Turkish)

  • ROUGE-1: Measures unigram (word-level) overlap between the generated summary and the reference text. For Turkish summarization tasks, scores below 0.30 generally indicate weak lexical alignment, while scores above 0.40 are considered strong and fluent outputs.

  • ROUGE-2: Evaluates bigram (two-word sequence) overlap. Since Turkish is an agglutinative language with rich morphology, achieving high bigram overlap is more difficult. Therefore, a range between 0.15–0.30 is considered average and acceptable for Turkish.

  • ROUGE-L: Captures the longest common subsequence, reflecting sentence-level fluency and structure similarity. Acceptable ranges for Turkish are generally close to ROUGE-1, typically between 0.28–0.40.

  • METEOR: Unlike ROUGE, METEOR also incorporates semantic similarity and synonymy. It performs relatively well on morphologically rich languages like Turkish. Scores in the range of 0.25–0.38 are commonly observed and considered good in Turkish summarization settings.


📊 Acceptable Metric Ranges And Performance Metrics

Metric Score Acceptable Range Interpretation
ROUGE-1 0.42 0.30 – 0.45 Weak < 0.30, Good > 0.40
ROUGE-2 0.26 0.15 – 0.30 Typical for bigram-level
ROUGE-L 0.36 0.28 – 0.40 Similar to ROUGE-1
METEOR 0.33 0.25 – 0.38 Balanced lexical & semantic match

🚀 Usage Example

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch

tokenizer = AutoTokenizer.from_pretrained("your_username/umt5-small-turkish-summary")
model = AutoModelForSeq2SeqLM.from_pretrained("your_username/umt5-small-turkish-summary")

text = "Insert Turkish text to summarize."
inputs = tokenizer(text, return_tensors="pt", max_length=1024, truncation=True)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

with torch.no_grad():
    outputs = model.generate(
                input_ids=inputs["input_ids"].to(device),
                attention_mask=inputs["attention_mask"].to(device),
                do_sample=True,
                num_beams=8,
                top_k=40,
                top_p=0.97,
                max_new_tokens=100,
                no_repeat_ngram_size=1,
                length_penalty=1.16,
                early_stopping=True
            )
summaries = tokenizer.batch_decode(outputs, skip_special_tokens=True)
print(summaries)

Original Text Generated Summary
Text 1: TUSAŞ tarafından son yıllarda artık Türkiye için dış kaynaklardan bağımsız özgün tasarım hava araçları da yapılmaya başlanmıştır. Bunlardan ilki TUSAŞ ZİU adlı zirai ilaçlama uçağı tamamen TUSAŞ tarafından tasarlanmış ve uçmuştur. Bunu takiben yürürlükte pek çok özgün tasarım projesi mevcuttur. 2008 yılı itibarı ile Gözcü (antiterör amaçlı insansız gözlem uçağı), Keklik ve Turna-g (her ikisi de avcı pilotları için hedef uçak) insansız uçakları TUSAŞ tasarımı ve üretimi uçaklar olarak Türk Hava Kuvvetleri envanterinde yer almaktadır. Gözcü'nün yeni bir modeli hâlen tasarlanmaktadır. İnsansız hava araçları dışında HÜRKUŞ adlı bir eğitim uçağı (jet uçağı ile aynı kontrollere sahip ama jet motoru içermeyen düşük işletme maliyetli bir eğitim uçağı) tasarımı ve geliştirilmesi tamamlanmış seri üretimine başlanmıştır. Taktik amaçlı insansız hava aracı ANKA'nın geliştirilmesi devam etmektedir. T-38 ve C-130 Hercules uçaklarının yenilenmesi gerçekleştirilmektedir. Göktürk-1 keşif ve gözlem uydusunun TÜBİTAK UZAY ile birlikte entegrasyonunun gerçekleştirildiği Uzay Sistemleri Entegrasyon ve Test Merkezi(USET), TUSAŞ'a bağlı olarak işletilmektedir. Summary 1: TUSAŞ'ın geliştirdiği yeni insansız hava araçları, Türk Hava Kuvvetleri envanterinde yer alarak savunma sanayisinde önemli bir adım attı.
Text 2: Kuruluş yıllarından bu yana ileri teknolojiye dayalı olarak, programlı bir şekilde müşteri ve ürün yelpazesini genişletmiş olup, bugün modern elektronik cihaz ve sistemler geliştiren, üreten, tesis eden, pazarlayan ve satış sonrası hizmetlerini yürüten entegre bir elektronik sanayii kuruluşu hâline gelmiş ASELSAN,[1] farklı yatırım ve üretim yapısı gerektiren proje konularına bağlı olarak Aviyonik ve Güdüm Sistemleri (AGS), Haberleşme ve Bilgi Teknolojileri (HBT), Savunma Sistem Teknolojileri (SST), Radar Elektronik Harp (REHİS), Mikroelektronik ve Elektro-Optik (MGEO) ve Ulaşım, Güvenlik, Enerji, Sağlık, Otomasyon (UGES) olmak üzere altı ayrı sektör başkanlığını yapısında bulundurmaktadır. Ankara'da Macunköy, Akyurt, Gölbaşı[7], Temelli ve Teknokent'te yerleşik beş ve İstanbul Teknopark olmak üzere toplam 6 ayrı tesiste üretim ve mühendislik faaliyetlerini sürdürmekte olan ASELSAN'ın Genel Müdürlüğü Ankara, Macunköy'de bulunmaktadır. Summary 2: ASELSAN, modern elektronik cihaz ve sistemler geliştirmek üzere 6 farklı tesiste üretim kapasitesini artırarak sektördeki konumunu güçlendiriyor.
Text 3: Özgürlük ve bağımsızlık benim karakterimdir" diyen Atatürk, modern Türkiye'nin kuruluşunda bu düşüncesinden güç almıştır. Bağımsız olmak, başkaca güçlerin güdümüne girmemek, diğer devletlerle birlikte oluşan topluluklarda Türkiye'nin millî çıkarlarının gerektirdiği biçimde davranabilmektir. Atatürk için tam bağımsızlık "siyasi, malî, iktisadî, adlî, askerî, kültürel ve benzeri her hususta" gerçekleşmelidir. Bunun için birçok devrim gerçekleştirmiştir. Bu doğrultuda Atatürk, başlattığı Türk Kurtuluş Savaşı'nın parolasını ise "Ya istiklâl ya ölüm!" olarak belirlemiştir. Summary 3: Atatürk, modern Türkiye'nin kuruluşunda 'Özgürlük ve bağımsızlık benim karakterimdir' diyerek güçlü bir duruş sergiledi.
Downloads last month
21
Safetensors
Model size
307M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for RegenAI/umt5-small-turkish-summary

Base model

google/umt5-small
Finetuned
(6)
this model