Szépen hangzó számok

Egyre több olyan telefonos informatikai rendszer működik, ahol a kért információkat nem a vonal másik végén ülő személy adja meg, hanem előre rögzített beszédet hallunk. A visszajátszott tárolt szöveg hangminősége kiváló, ha az üzenetben nincs változó adat, ugyanis ilyenkor semmi más nem történik, mint a digitálisan rögzített hang élethű visszajátszása (például: Itt az ébresztőszolgálat. Kérése szerint ébresztjük). Abban az esetben azonban, ha a közölni kívánt információ változó adatokat - például számokat - is tartalmaz, gyökeresen megváltozik a helyzet (például: Itt az ébresztőszolgálat. Kérése szerint hét órakor ébresztjük). Ez utóbbi üzenet három összetevőből áll, nevezetesen két állandó rész közrefog egy változót. Kell tehát készíteni egy olyan elemkészletet, amiből a változó rész összerakható, majd azt az állandó szövegek közé illeszteni. A Magyarországon működő rendszereknél jelenleg ezt úgy oldják meg, hogy rögzítenek minden szót, amiből egy szám összeállítható (például a számok egytől tízig, továbbá tizen..., huszon..., száz, ezer, millió stb.), majd ezeket egymás mellé téve áll össze a kért adat (a bankszámla állása, a telefonszámla aktuális értéke, egy telefonszám stb.). E megoldásnak két alapvető hibája van. Egyrészt nem lehet a változó részt észrevétlenül az állandó keretbe illeszteni, a számok szaggatottak, döcögősen hangzanak, intonációjuk más, mint az állandó szövegé. A másik probléma, hogy e megoldások nem illeszkednek a magyar nyelv szokásaihoz, azaz nem olyan bontásban hangzanak el a számok, ahogyan megszoktuk (például telefonszámoknál).

A Magyar Tudományos Akadémia Nyelvtudományi Intézetének fonetikai laboratóriumában a Budapesti Műszaki Egyetem távközlési és telematikai tanszékével (BME TTT) együttműködve Olaszy Gábor tudományos főmunkatárs vezetésével a közelmúltban megoldást találtak a döcögős számfelolvasó gépi hang kiküszöbölésére. Kiindulásul egy hipotézis szolgált, miszerint kizárólag fonetikai szabályok felhasználásával és megalkotásával lehet olyan számfelolvasó algoritmust készíteni, aminek eredményeképpen a létrehozott szám folyamatosan hangzik, és prozódiája is olyan, hogy megközelíti a természetes emberi hangzást. A jelenlegi rendszereknél alkalmazott huszonhárom-huszonöt elem helyett a kutatómunka során mintegy kétszázhúsz számelemet határoztak meg, majd ezekből egy fonetikai szabályokra épülő algoritmus segítségével állították össze a számokat. Hogyan is kell ezt a gyakorlatban elképzelni? Hogyan és miből tevődik össze ez a nagyszámú elemkészlet? A fonetikai szabályokat alapul véve egy szám nem egyetlen elemnek felel meg, hanem környezetétől függően akár háromnak vagy négynek is. Vegyük például az „ezer" számot. Másként hangzik abban a szóban, hogy „ezerötszáz", mint abban, hogy „ötszázezer". Eltérések vannak az időzítésben, a hangsúlyban és a koartikulációban. Olaszy Gábor a fonetikai szabályokat alapul véve egy hétjegyű számokból álló listát készített (közel nyolcszáz szám), e számokat a bemondó digitális hangrögzítőre mondta, majd következett a szétvagdosás. Ezután a fonetikai szabályokra építve megalkották az elemeket összeillesztő algoritmust, majd a programot is elkészítették, aminek eredménye az élő beszédtől gyakorlatilag nem megkülönböztethető szép számfelolvasás-hangzás.

Valós alkalmazásoknál (például banki számfelolvasó, áruk árának automatikus bemondása, ipari számadatok telefonos lekérdezése) a szoftvert természetesen illeszteni kell a működési környezethez, ez a feladat azonban Olaszy Gábor elmondása szerint semmivel sem jelent nagyobb és költségesebb munkát, mint a ma használatos megoldások. A fonetikai laboratórium és a BME TTT együttműködésében elért kutatási eredményeket is felhasználó korábbi hangbemondó rendszerek üzemelnek többek között az Első Pesti Telefontársaság számlalekérdező és hangposta-rendszerében. A legújabb számfelolvasó hangját egy demótelefonszámon (463-1862) lehet meghallgatni. A fejlesztőknek nincs tudomásuk arról, hogy külföldön lennének ilyen jó minőségű, kis erőforrásigényű rendszerek, ezért tervezik, hogy idegen nyelvű változatokat is készítenek. MaJu


Telecomputer
2. évfolyam, 13. szám, 1997. június 16.


Ezt az oldalt a Hungary.Network tartja fenn.