Egyre több olyan telefonos informatikai rendszer működik, ahol a kért információkat nem a vonal másik végén ülő személy adja meg, hanem előre rögzített beszédet hallunk. A visszajátszott tárolt szöveg hangminősége kiváló, ha az üzenetben nincs változó adat, ugyanis ilyenkor semmi más nem történik, mint a digitálisan rögzített hang élethű visszajátszása (például: Itt az ébresztőszolgálat. Kérése szerint ébresztjük). Abban az esetben azonban, ha a közölni kívánt információ változó adatokat - például számokat - is tartalmaz, gyökeresen megváltozik a helyzet (például: Itt az ébresztőszolgálat. Kérése szerint hét órakor ébresztjük). Ez utóbbi üzenet három összetevőből áll, nevezetesen két állandó rész közrefog egy változót. Kell tehát készíteni egy olyan elemkészletet, amiből a változó rész összerakható, majd azt az állandó szövegek közé illeszteni. A Magyarországon működő rendszereknél jelenleg ezt úgy oldják meg, hogy rögzítenek minden szót, amiből egy szám összeállítható (például a számok egytől tízig, továbbá tizen..., huszon..., száz, ezer, millió stb.), majd ezeket egymás mellé téve áll össze a kért adat (a bankszámla állása, a telefonszámla aktuális értéke, egy telefonszám stb.). E megoldásnak két alapvető hibája van. Egyrészt nem lehet a változó részt észrevétlenül az állandó keretbe illeszteni, a számok szaggatottak, döcögősen hangzanak, intonációjuk más, mint az állandó szövegé. A másik probléma, hogy e megoldások nem illeszkednek a magyar nyelv szokásaihoz, azaz nem olyan bontásban hangzanak el a számok, ahogyan megszoktuk (például telefonszámoknál).
A Magyar Tudományos Akadémia Nyelvtudományi Intézetének fonetikai laboratóriumában a Budapesti Műszaki Egyetem távközlési és telematikai tanszékével (BME TTT) együttműködve Olaszy Gábor tudományos főmunkatárs vezetésével a közelmúltban megoldást találtak a döcögős számfelolvasó gépi hang kiküszöbölésére. Kiindulásul egy hipotézis szolgált, miszerint kizárólag fonetikai szabályok felhasználásával és megalkotásával lehet olyan számfelolvasó algoritmust készíteni, aminek eredményeképpen a létrehozott szám folyamatosan hangzik, és prozódiája is olyan, hogy megközelíti a természetes emberi hangzást. A jelenlegi rendszereknél alkalmazott huszonhárom-huszonöt elem helyett a kutatómunka során mintegy kétszázhúsz számelemet határoztak meg, majd ezekből egy fonetikai szabályokra épülő algoritmus segítségével állították össze a számokat. Hogyan is kell ezt a gyakorlatban elképzelni? Hogyan és miből tevődik össze ez a nagyszámú elemkészlet? A fonetikai szabályokat alapul véve egy szám nem egyetlen elemnek felel meg, hanem környezetétől függően akár háromnak vagy négynek is. Vegyük például az „ezer" számot. Másként hangzik abban a szóban, hogy „ezerötszáz", mint abban, hogy „ötszázezer". Eltérések vannak az időzítésben, a hangsúlyban és a koartikulációban. Olaszy Gábor a fonetikai szabályokat alapul véve egy hétjegyű számokból álló listát készített (közel nyolcszáz szám), e számokat a bemondó digitális hangrögzítőre mondta, majd következett a szétvagdosás. Ezután a fonetikai szabályokra építve megalkották az elemeket összeillesztő algoritmust, majd a programot is elkészítették, aminek eredménye az élő beszédtől gyakorlatilag nem megkülönböztethető szép számfelolvasás-hangzás.
Valós alkalmazásoknál (például banki számfelolvasó, áruk árának automatikus bemondása, ipari számadatok telefonos lekérdezése) a szoftvert természetesen illeszteni kell a működési környezethez, ez a feladat azonban Olaszy Gábor elmondása szerint semmivel sem jelent nagyobb és költségesebb munkát, mint a ma használatos megoldások. A fonetikai laboratórium és a BME TTT együttműködésében elért kutatási eredményeket is felhasználó korábbi hangbemondó rendszerek üzemelnek többek között az Első Pesti Telefontársaság számlalekérdező és hangposta-rendszerében. A legújabb számfelolvasó hangját egy demótelefonszámon (463-1862) lehet meghallgatni. A fejlesztőknek nincs tudomásuk arról, hogy külföldön lennének ilyen jó minőségű, kis erőforrásigényű rendszerek, ezért tervezik, hogy idegen nyelvű változatokat is készítenek. MaJu
