Felolvasó számítógépek

Kevesen tudják, hogy Magyarország élen jár a világban a fonetika és a nyelvészet gyakorlati felhasználásában a számítógépes beszédszintetizálásra. Most azonban a Westel 900-nak a Budapesten rendezett hatodik EuroSpeech kongresszus alkalmából tett bejelentése a kutatások eredményeinek széles körben való felhasználásáról szól. Megkezdődött a Westel 900-nál az e-mailfelolvasó rendszer - munkanéven levélmondó - kísérleti üzeme, és várhatóan decembertől nyilvános lesz ez a szolgáltatás.

Nem egyszerű a feladat, eddig csak német és angol nyelven sikerült eljutni az üzemszerű szolgáltatásig. Ahogy azt a Westel 900 és az EuroSpeech ’99 konferencia közös sajtótájékoztatóján Németh Géza adjunktus elmondta, a rendszer előfeldolgozással kezdi, kiválasztja a levél tárgyát és tartalmát, megvizsgálja a kódkészletét, majd, ha felolvashatónak találja - nem idegen nyelvű a szöveg -, a Morphologic eljárásával valamit javít a szövegén, visszateszi a hiányzó ékezeteket, majd felolvassa a levél tartalmát. Kipróbálható volt a kiállításon és a BNV-n is. A levélmondó érthetően olvas, a prozódiára is ügyel, magyarosan intonál, és figyelemmel van az írásjelekre.

A Westelnél megvalósuló levélmondó a felolvasó rendszer OMFB által támogatott fejlesztési munkáinak az első gyakorlati eredménye.

A Budapesti Műszaki Egyetem Távközlési és Telematikai Tanszéke és a Westel 900 közötti együttműködés kölcsönös előnyök mellett évek óta tart, hangsúlyozta a sajtótájékoztatón Sugár András vezérigazgató és Gordos Géza tanszékvezető, az EuroSpeech konferencia elnöke. Az e-mailfelolvasó rendszer bejelentésének apropót adó EuroSpeech ’99 konferencián közel ezer kutató vett részt hétszáznál több előadással és bemutatóval. A világ sok országában kutatók százai dolgoznak például a beszélő személyétől független szóértő algoritmusokon, s már akár ötven dollárért is lehet - a diktáló hangját, beszédstílusát megtanulni képes - diktálóprogramot kapni PC-re. A szöveggé alakított beszédnek a gép általi továbbfeldolgozásán is nagy erőkkel dolgoznak ipari és akadémiai kutatóhelyeken egyaránt. Ha a beszédfeldolgozás hasznát meg akarjuk világítani, mindig előkerül a nagy álom, amikor én magyarul beszélek a telefonba, és a másik oldalon japán barátom az én hangomon, de japánul hallja amit mondok. Ez az, ami a technika mai szintjén elérhetetlen, de különféle alesetekben vannak gyakorlati eredmények. Sokféle kérdésre, sokféle feladatra születnek változatos, ilyen-olyan szempontból elfogadható algoritmusok, de még az angol nyelvű programok is csak a kötött szöveg - "folyószámla", "betét", "átutalás" - felismerésénél tartanak. Ilyen megoldást használhatnak bankokban, amikor a gép kérdéseire néhány szóban érdemben lehet válaszolni.

Az EuroSpeech ’99 plenáris előadásainak egyikét az MTA Nyelvészeti Intézet osztályvezetője, a beszédszintetizálási kutatásokban a kezdet kezdetétől részt vevő Gósy Mária tartotta. Előadása azonban nem a technikáról, az algoritmusokról szólt, hanem arról, hogy az ember hol tart a nyelv, a beszédmegértés megértésében. Sokféle betegség, agyi sérülés tanulmányozása révén már meglehetős részletességgel leírták kutatók, hogy az agyunk mely részei a beszédnek, a hallottak megértésének melyik lépésével hozhatók öszszefüggésbe.

Gósy Mária magyarországi megfigyeléseket elemzett, melyekből sok érdekes következtetés vonható le. Az egyikből például az, hogy bizonyos előfeltételek megléte esetén a hallásban, az érzékelésben korlátozottak a megértésben alig maradnak el átlagos társaiktól. Ugyanakkor 8-13 éves iskolásokkal végzett kísérletek azt jelzik, hogy a beszédmegértésben hatalmas különbségek lehetnek a gyermekek között, ami aztán a felnőttkorra is kihathat. Az eredmények, amelyeket Gósy Mária nagy sikert aratott előadásában összefoglalt, úgy voltak összeválogatva, hogy egy nagyon erős, a gépi megértés szempontjából is fontos állítást alapozzanak meg: azt, hogy a beszéd és a megértés képességét az ember nem az agy fizikai struktúrájának, hanem az agy magasabb szintű működésének, funkcionalitásának köszönheti.

A plenáris előadások között számos szekcióban folyt a műhelymunka, a világ minden tájáról összegyűlt tudósok - zömük harminc évnél fiatalabb volt - ismerték, vitatták meg egymás ötleteit. A számítógépes beszédfeldolgozás értelméről, hasznáról és lehetőségeiről kérdeztünk meg néhányat a kongresszus szervezői, az ez irányú tevékenységek meghatározó szereplői közül. A nyilatkozatokból is kitűnik, hogy a kutatások legnagyobb mozgatórugója a gazdasági haszon, a pénz, mint ahogy a mindennapi életet elérő kézzelfogható eredmények - a társalgó tűzhely és társai - hatalmas beruházást, pénzt igényelnek.

A Gósy Mária által fellelt megértési különbségek azonos korú gyermekek között lehetnek kulturális eredetűek, mint ahogy arra Ivan Illich amerikai szociológus már a hatvanas években felhívta a figyelmet. Például egy városi aszfalton nőtt gyereknek fel lehet tenni olyan, a háziállatokkal kapcsolatos kérdést, amit ő csak azért nem ért meg, mert nem tudja, miről van szó.

Hasonló eset a vidéki gyermek esetében is elképzelhető. Bármi legyen is azonban az oka a kísérletben vizsgált gyerekek közötti különbségeknek, az biztos, hogy az információs kor felé közeledve a számítógépes adatfeldolgozás az információ sűrűségét oly mértékben megnöveli, hogy a pillanatnyi szituáció felismerése egyre több helyen, egyre több munkakörben követel a száz év előttinél jóval gyorsabb megértést, erőteljesebb elvonatkoztatási készséget.

Aki ezeket nem szerzi, nem kapja meg gyermekkorában, annak a munkaereje csak nagyon rossz áron vagy sehogy sem lesz eladható a világpiacon. Vagyis ha száz éve, hetven éve fontos volt a tanítás, az iskola, mint ahogy az volt, akkor ma többszörösen annak kellene lennie ahhoz, hogy Magyarország feljebb kapaszkodhassék a világgazdasági ranglétrán.

Vargha Márton