Viete si predstaviť, ako vyzerala výroba syntetického hlasu pred desiatimi rokmi? Najprv ste si sadli v nahrávacom štúdiu a dlhé hodiny ste čítali nezmyselné vety. Následne ste z nahratého textu oddeľovali hlásky a slabiky. Potom ste si museli naprogramovať rozhranie, ktoré dokázalo z nahratých dát poskladať slová. Dnes vám postačí dobrá miestnosť bez okolitého ruchu a ozveny, kvalitný mikrofón a webový prehliadač. Ostatné zariadi umelá inteligencia.
Ako to funguje?
Pár nadšencov z celého sveta sa spojilo a vytvorili projekt Lyrebird. Na tomto mieste sa vyhnem technickým detailom. V skratke hlasovú vzorku dostane umelá inteligencia. Tá ju spracuje a následne dokáže prečítať ľubovoľný text.
Prvý rozruch spôsobila nahrávka so syntetickým hlasom Donalda Trumpa. V súvislosti s tým sa potom vynorili rôzne etické otázky. My sa teraz zameriame na vytváranie rečovej syntézy, čo môže byť časom užitočné pre nás ako nevidiacich a slabozrakých používateľov. Hneď na úvod treba povedať, že v súčasnosti služba umožňuje vytvoriť len anglicky hovoriacu syntézu. Navyše, vo free podmienkach ponúka ako výstup len mp3 súbor s pár vetami. Služba je však už dostupná aj komerčne a tešia sa z nej napríklad ľudia s postihnutím ALS, ktorý môžu svojim hlasom hovoriť aj v neskorších štádiách svojho postihnutia.
Ideme sa pohrať, začíname
Nás zaujíma služba Vocal avatar. Najprv je potrebné sa zaregistrovať. Služba si pýta len e-mail, heslo a overenie e-mailovej adresy. Po prihlásení môžeme okamžite vytvárať našu hlasovú vzorku. Aby umelá inteligencia dostala rozumnú vzorku, potrebujeme nahrať 30 viet textu v angličtine. Zatváram sa do relatívne tichej miestnosti. Ide o klasickú izbu v byte s miernou ozvenou. Mám tu kvalitný mikrofón Zoom H1 pripojený k počítaču cez USB. Do systému sa nedajú posielať súbory, nahrávanie musíme spraviť v prehliadači.
Na tomto mieste treba povedať, že všetko je prístupné aj z pohľadu nevidiaceho používateľa. V rozhraní nájdete tlačidlá aj nadpisy. Ak viete po Anglicky, s obsluhou si určite poradíte. Pri prvom nahrávaní je potrebné nastaviť zdieľanie mikrofónu. Odporúčam povoliť pre všetky relácie, aby ste to nemuseli nastavovať pri každej vete. Už len stačí spustiť nahrávanie, prečítať vetu a nahrávanie zastaviť. Nahrávku si môžeme vypočuť, zmazať, prípadne na novo nahrať a napokon odoslať. Takto postupujeme vetu po vete, pričom všetky nahrávky sa ukladajú na server. To znamená, že prácu môžeme prerušiť a pokračovať neskôr.
Po prvých tridsiatich nahratých vetách sa zobrazí možnosť na vytvorenie hlasu. Pri vytváraní hlasu nemusíme byť online, môžeme zatvoriť okno prehliadača. Spracovanie mojej vzorky trvalo vyše troch hodín.
Výsledok
Takto znie môj syntetický hlas vygenerovaný cez Lyrebird.
Pre porovnanie, takto znie môj hlas reálne.
Na záver ešte jedna perlička. Kedysi sme s kamarátom vyrábali pokusne slovenskú syntézu reči. Strihaním vzoriek som strávil pár zimných večerov. Výsledok?
Záver
je jasné, že na bežné použitie je táto vzorka nedostatočná. Ja nie som native speaker, v miestnosti mám echo a poskytol som systému sotva dve minúty vzoriek. Mám v pláne vzorku prepracovať a uvidíme, čo z toho potom vylezie. Zdá sa však, že vytváranie syntetických hlasov bude čoskoro oveľa jednoduchšie. Ak sa chcete pohrať, môžete rovnako ako ja využiť službu Vocal avatar.
zaujímavé čítanie a počúvanie
Služba Lyrebird bola pomenovaná podľa austrálskeho vtáka, ktorý dokáže napodobňovať všakovaké zvuky.
Ak vás zaujíma vývoj syntetických hlasov, existuje pekný prierez aj s ukážkami
Ondro, Lyrebird je už súčasťou iného projektu
Pekné, pekné, len sa to musí ešte vymakať. 🙂
Veľmi zaujímavé. Určite to v budúcnosti vyskúšam. Koniec koncov, zaujíma to aj Trumpa a Obamu. 🙂