Tento model byl vytvořen v rámci bakalářské práce Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči. Byl trénován po dobu 10 epoch na datové sadě ParlaSpeech a dosáhl hodnoty WER 7,9 %.

Při trénování byla většina modelu zmrazena – trénovala se pouze embedding vrstva, vrstvy typu cross-attention a projekční vrstva (tzv. adaptér) mezi výstupy enkodéru a vstupy dekodéru. Adaptér se skládá z 1D konvoluční vrstvy pro podvzorkování a dvoublokového Transformer enkodéru.

Model dosahuje pouze o 0,9 procentního bodu horší WER než plně trénovaný model bez adaptéru, a to i přesto, že využívá přibližně polovinu trénovatelných parametrů.

adapter bock

@thesis{huml2025efektivni,
  author        = {Dominik Huml},
  title         = {Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči},
  year          = {2025},
  school        = {Vysoké učení technické v~Brně, Fakulta informačních technologií},
  type          = {Bakalářská práce},
  address       = {Brno},
  supervisor    = {Ing. Alexander Polok}
}
Downloads last month
1
Safetensors
Model size
78.1M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for TheRamsay/ClTRUS-gpt2-74M-transformer-adapter

Finetuned
(1)
this model

Dataset used to train TheRamsay/ClTRUS-gpt2-74M-transformer-adapter