Dobrodošli u blog post RSA Team-a koji detaljno istražuje proces fine-tuninga OpenAI Whisper Large v3 modela za srpski jezik. Kroz ovaj pregled, pružit ćemo uvid u tehničke detalje, resurse korištene tokom treninga, performanse modela, kao i relevantna razmatranja koja mogu korisnicima pružiti sveobuhvatan uvid u naš rad.
Whisper Large v3 Model
Whisper Large v3, kruna istraživanja iz oblasti automatskog prepoznavanja govora (ASR) i prevođenja govora, predstavlja moćan korak naprijed u domenu umjetne inteligencije. Proizašao iz rada “Robust Speech Recognition via Large-Scale Weak Supervision” autora Aleca Radforda i njegovog tima iz OpenAI, ovaj model nosi sa sobom bogatstvo znanja stečenog tokom treniranja na impresivnih 680 hiljada sati označenih podataka.
Whisper Large v3 dijeli arhitekturu sa prethodnim velikim modelima, a ipak unapređuje performanse s nekoliko ključnih inovacija. Sa ulazom od 128 Mel frekvencijskih binova umjesto tradicionalnih 80, model pruža dublje razumijevanje zvuka. Dodatak novog jezičkog tokena za kantonski jezik proširuje njegovu upotrebu na različite jezičke zajednice.
Treniran na 1 milion sati slabije označenih i 4 miliona sati pseudo-označenih audio podataka prikupljenih Whisper large-v2 modelom, Whisper Large v3 je prošao kroz dva ciklusa treninga, ukupno trajanja 2.0 epohe. Ovi podaci čine osnovu za generalizaciju modela na mnogo različitih jezičkih domena, smanjujući greške za 10% do 20% u odnosu na prethodnu verziju.
Whisper je baziran na Transformer arhitekturi, poznatoj i kao encoder-decoder model, ili sequence-to-sequence model. S obzirom na tip treninga, postoji nekoliko konfiguracija Whisper checkpointa, od manjih, fokusiranih na engleski jezik, do najvećih, isključivo posvećenih multijezičnosti. Svi ovi pre-trenirani checkpointovi su dostupni na Hugging Face Hubu, pružajući širok spektar opcija za istraživače i developere.
Fine-Tuning Proces
Fine tuning proces je izveden na izuzetno snažnom sistemu, uključujući 1 x A100 80GB grafičku karticu, 16 vCPU i 125 GB RAM-a. Sa 7 sati audio snimaka, dobijenih iz Common Voice – Mozilla 16.1 dataset-a, proces je trajao oko 6 sati. Važno je napomenuti da bi veći skup podataka mogao rezultirati još boljim rezultatima.
Rezultati treniranja
whisper-large-v3-sr postiže izuzetne rezultate na evaluacionom setu, s gubicima od 0.3961 i WER (Word Error Rate) od 17.2694. Ovaj rezultat ukazuje na visoku preciznost modela u prepoznavanju reči iz izvornih audio snimaka.
Hyperparametri
- learning_rate: 1e-05
- train_batch_size: 16
- eval_batch_size: 8
- seed: 42
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- lr_scheduler_warmup_steps: 500
- training_steps: 4000
- mixed_precision_training: Native AMP
Framework i Biblioteke
- Transformers 4.38.0.dev0
- Pytorch 2.1.1+cu121
- Datasets 2.16.1
- Tokenizers 0.15.1
Zaključak
RSA Team je postigao značajan uspeh fine tuniranjem OpenAI Whisper Large v3 modela za srpski jezik. Iako je korišćen relativno mali skup podataka, rezultati su impresivni, a sam model može služiti kao odlična osnova za buduće istraživačke projekte u domenu glasovnih tehnologija na srpskom jeziku.