Syntéza reči je pre mňa, povedal by som, životne dôležitá. Telefóny a počítače okolo mňa rozprávajú, inak by som ich bez zraku ani nemohol používať. Pre náš jazyk bolo dostupných zopár hlasov, mnohé ale trpia rôznymi otravnými neduhmi. Žiaľ, veľké spoločnosti neboli ochotné počúvať pripomienky nevidiacich. Aby ste si to vedeli lepšie predstaviť. Ak hlas namiesto bunda číta banda, namiesto gate gejt a najnovšie namiesto to (napr vo vete podaj mi to) tú (podaj mi tú), počúvanie textov začne byť únavné.
A tak sme si nedávno s kamarátmi povedali, že si jednoducho spravíme vlastný hlas. Máme za sebou mesiace študovania pravidiel jazyka, niekoľko hodín nahrávania vzoriek, nejakého toho programovania a výsledok je vonku. Má ešte zopár chybičiek, ale už teraz ho bežne používam na čítanie textov (mimochodom, čítať si knihu alebo todo list vlastným hlasom je zaujímavá skúsenosť). A vtipné je to aj ak na prácu použijem zatiaľ neoficiálnu verziu hlasu mojej manželky. Určite máme pred sebou ešte dosť práce. Nové možnosti ponúka tiež umelá inteligencia. Zatiaľ sme ju ale nevyužili, nakoľko hlas musí byť dostupný aj offline a reagovať pružne, mal by rýchlo spolupracovať aj pri písaní textov, navigácii v systéme a pod. Práve v týchto chvíľach sa hlas dostáva k nevidiacim. Dostupný je zdarma pod licenciou CC0 pre čítače obrazovky vo Windowse a čoskoro bude vonku aj verzia pre Android. Takisto by sa mal objaviť aj v zariadeniach Apple, kde je situácia ešte o čosi horšia.
S pokusmi vyrobiť vlastný hlas som experimentoval už skôr. Podrobne o tom píšem v Prvej a Druhej časti tohto článku. Teraz sme však takpovediac vo finále.
Na výrobu hlasu sme použili syntézu reči RH Voice. Výroba hlasu v skratke pozostávala z nasledujúcich krokov:
- Vytvorenie textu, podľa ktorého sa hlas naučí hovoriť. Texty sme čerpali z projektu Mozilla Common voice a Slovenského národného korpusu.
- Bolo potrebné nahrať približne 3600 viet (asi tri hodiny záznamu). Každá veta musí byť v samostatnom súbore.
- Zvukové súbory som ekvalizérom a expanderom upravil tak, aby obsahovali potrebné frekvencie a zároveň neobsahovali šum a ozvenu miestnosti.
- Peter Vágner spolu so Zvonimirom Stanečićom naštudovali pravidlá Slovenčiny a následne ich implementovali. To zabezpečuje, že hlas správne vyslovuje mäkké hlásky, ale zároveň pozná aj rôzne výnimky.
- Hlas bolo následne potrebné natrénovať. Počas tréningu sa hlas vytvoril z viet a nahrávok na základe definovaných pravidiel.
- Postupne sme pridávali vzorky a upravovali pravidlá a v prvotnom testovaní nám pomohli Peter Lecký, Peter Nedorost a Marek Macko.
Hlas je na svete a v súčasnosti už pracujeme na ďalších. Ukážky a súbory na stiahnutie sú dostupné na Samostatnej stránke.