Tento model byl vytvořen v rámci bakalářské práce Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči. Byl trénován po dobu 10 epoch na datové sadě ParlaSpeech a dosáhl hodnoty WER 7,9 %.
Při trénování byla většina modelu zmrazena – trénovala se pouze embedding vrstva, vrstvy typu cross-attention a projekční vrstva (tzv. adaptér) mezi výstupy enkodéru a vstupy dekodéru. Adaptér se skládá z 1D konvoluční vrstvy pro podvzorkování a dvoublokového Transformer enkodéru.
Model dosahuje pouze o 0,9 procentního bodu horší WER než plně trénovaný model bez adaptéru, a to i přesto, že využívá přibližně polovinu trénovatelných parametrů.
@thesis{huml2025efektivni,
author = {Dominik Huml},
title = {Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči},
year = {2025},
school = {Vysoké učení technické v~Brně, Fakulta informačních technologií},
type = {Bakalářská práce},
address = {Brno},
supervisor = {Ing. Alexander Polok}
}
- Downloads last month
- 1
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
Model tree for TheRamsay/ClTRUS-gpt2-74M-transformer-adapter
Base model
fav-kky/gpt2-small-cs