Model Card: sergeyzt50/slovak-ner-full

Prehľad

Tento model je jemne doladenou verziou modelu SlovakBERT pre úlohu rozpoznávania pomenovaných entít (NER) v slovenskom jazyku. Bol trénovaný kombináciou dát zo zdrojov WikiANN a conll2003-SK-NER, pričom využíva stratégiu transferového učenia.

Model je schopný identifikovať typy entít ako:

  • PER – Osoby (napr. Ján, Mária Kováčová)
  • LOC – Miesta (napr. Bratislava, Tatry)
  • ORG – Organizácie (napr. Univerzita Komenského, Google)
  • MISC – Ostatné (napr. Olympijské hry, Slovenská technická univerzita)

Datasety použité na trénovanie

1. ju-bezdek/conll2003-SK-NER

2. unimelb-nlp/wikiann

Datasety boli zlúčené a ich anotácie boli zjednotené do spoločného label space.


Výsledky evaluácie

Tréningový skript vyhodnocoval presnosť každých 1000 krokov. Konečný model dosiahol tieto výsledky:

  • F1-score (weighted): 0.924
  • Presnosť: 0.927
  • Recall: 0.921

Krivka výkonu bola stabilná a nezaznamenala známky preučenia.


Licencia

Tento model je dostupný výhradne na výskumné a nekomerčné účely. Ak máte záujem o jeho rozšírené použitie, kontaktujte autora.


Autor

Model vytvoril sergeyzt50 ako súčasť bakalárskej práce na Technickej univerzite v Košiciach, Fakulta elektrotechniky a informatiky.

Dátum poslednej úpravy: 14.05.2025

Downloads last month
35
Safetensors
Model size
124M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for sergeyzt50/slovak-ner-full

Adapter
(2)
this model

Datasets used to train sergeyzt50/slovak-ner-full