Ahogy a résztvevők látták

Mi lesz a kis nyelvekkel?

Roger K. Moore az Európai Beszéd Kommunikációs Szövetség (ESCA) elnöke a beszédfeldolgozás lehetőségeiről:

A kutatások célja, hogy tudjunk a számítógéppel hangosan kommunikálni, parancsokat adni neki, hiszen az ember számára ez a legtermészetesebb módja az interakciónak. A nagy álom a kutatások kezdete, az ötvenes évek óta is a természetes nyelven folyó beszédkommunikáció megvalósítása a számítógéppel, a nagy összetett rendszerekkel. A gépi felolvasás viszonylag gyorsan fejlődik, de már az, hogy a gép formáljon mondatokat, sokkal nehezebb feladat. Mindazonáltal a számítógépnek beszélni még mindig köny-nyebb, mint a beszédet felismerni, amiben most a diktafonok, az egyszerű parancsokkal történő vezérlés megvalósulásának korát éljük.

- Vannak a világban kis és nagy népek. A gazdaság, a piac logikája a nagy nyelvek beszédfeldolgozásának kedvez. Lehet-e valamit tenni azért, hogy a viszonylag levesek által beszélt nyelvek ne maradjanak ki, azokon is lehessen majd például telefonálni?

- Minden nyelv nagyon bonyolult, és minden nyelvnek megvannak a maga sajátosságai, amik nehezítik a gépi beszédmegértést. Afrikában vannak nyelvek, amelyekben Európában ismeretlen hangokat találunk, Ázsiában sok helyen a hangmagasság is jelentéssel bír, nem is beszélve a gesztikulálás, a testbeszéd jelentőségéről. Ez mind mind komoly kihívást jelent a beszédfeldogozás számára. Szerintem a megoldás az eredmények széles körben ismertté tétele, hiszen azok közül sok általános, viszonylag nyelvfüggetlen.

Ugyanakkor a nyelvi különbségek és a viszonylag kis belső piacok egyaránt megnehezítik a gyakorlati felhasználást. Az ESCA el is határozta, hogy kiemelten támogatja, segíti a beszédfeldolgozási kutatásokat mindenütt Európában. Négy külön csoport működik az ESCÁ-n belül, ezek közül kettő nyelvi problémákkal foglalkozik, s közülük az egyik a francia nyelven beszélőké, a másik kifejezettten a kis nyelveké.

Beszédkutatás Magyarországon?

Németh Géza, a konferencia tudományos titkára, a BME Telemetriai és Távközlési Tanszékének adjunktusa:

- Hiszek abban, hogy a világ tudásalapon működik, és ha az emberek élni akarnak, akkor egyre inkább a tudásukat kell eladniuk. Az pedig, hogy az idei, sorban a hatodik EuroSpeech konferenciát mi rendezhettük meg, a mi kis csapatunk tudásának az elismerése. Ez felveti a kérdést, hogy ha lehet Magyarországon ATM/kutatóintézet, akkor miért ne lehetne beszédfeldolgozási is, ha már ennyire elismer minket a világ.

- Ebből a szempontból talán szerencsés, hogy a Westel 900 éppen itt a konferencián jelentette be a levélmondó kísérletet. Ez jelezheti azt, hogy megindult az ipar érdeklődése a terület iránt.

- Valamilyen szintű érdeklődés mindig volt, a nyolcvanas évek elején bemutatott beszélőgépünk újabb és újabb változatai sokfelé működnek az országban, erőművekben, diszpécserközpontokban. Sokat jelentenek ezek a rendszerek a vakoknak, különösen a számítógéppel dolgozóknak. Amikor a Matávnál a nagy számcsere zajlott, akkor mi készítettük az új számokat bemondó rendszert is. Az egész világon abban az időben kezdtek megjelenni az első felolvasó programok, és a mienk az első három egyike volt. Azóta sokat fejlődtek a megoldásaink, remélem, ezzel a részben OMFB támogatással fejlesztett új programmal már sikerül megfelelni a széles közönség igényeinek is.

- Ha a másik oldalt nézzük, lesz-e és mikor diktálás után tárcsázó, magyarul szöveget leíró program?

- A tanszéken Tatai Péter és Vicsi Klára vezetésével folyik egy kifejezetten mérnöki megközelítésű kutatás a beszédértés témakörben. Ebből elkészülhetne valami beszélőtől független tárcsázóprogram, komoly ipari érdeklődés és támogatás esetén. Ahhoz, hogy valamilyen, gyakorlatban felhasználható eredmény szülessen, pénz kell. Ezt a témát a világon mindenütt támogatja az állam. Ahhoz, hogy adatbázisok létrejöjjenek, hogy az angol dialektusokról sok száz órás adatbázisok legyenek hozzáférhetőek, az amerikai állam által finanszírozott alapkutatásokra volt szükség. Csehországban 1996 óta van nemzeti beszédkommunikációs program, ami hat labort, adatbázis-fejesztést jelent, komoly állami támogatással. Ráadásul a magyar diktálórendszert azon az alapon, ahogy az angolt létrehozták, szerintem nem lehet elkészíteni. A magyar nyelv tudományosan a legnehezebb, és ugyanakkor kicsi a piaca. A nagy amerikai rendszerek 60-80 ezer szóalakkal dolgoznak, nálunk a 90 százalékos lefedettséghez kilencszázezres adatbázisra lenne szükség. Nagyságrendi az eltérés, ami a költségekben is jelentkezik. Még hozzávetőlegesen sem tudnám megmondani, mikor jöhet létre egy magyar leíró program.

Lesz-e a Dragonnak magyar változata?

Janet M. Baker, a Dragon Systems, Inc. elnöke és vezérigazgatója:

- Magam harminc éve foglalkozom beszédfeldolgozással. A hetvenes évek elején kezdtem diákként és doktori ösztöndíjasként a Carnegie Melon egyetemen. Dolgoztunk az IBM-nél a férjemmel beszédfelismerésen, még mielőtt megalakult volna ez a részleg. A Dragon Systemst több mint tizenhét évvel ezelőtt alapítottuk, és ma piacvezetők vagyunk a diktálórendszerrel, messze megelőzve a második legnagyobb IBM-et. Mi voltunk az elsők a piacon a folyamatos, általános beszédet leírni képes programmal. Beépíthető változatot adunk azoknak a szoftvereseknek, akik saját alkalmazásukban akarják használni a beszédfelismerést.

- Elfogadja a program a magyaros angolkiejtést is?

- Aki angolul beszél, azt egy rövid, ötperces gyakorlás után megérti. Bele van építve egy automatikus tanulási képesség. Tanul a hibákból, folyamatosan erősíti a megértést.

- Megállnak ezen a szinten, vagy dolgoznak más irányokban is?

- Arra számítunk, hogy a beszéd, a beszédfeldolgozás egyre szélesebb körben válik fontossá a világban. Az autóban, a telefonban, a gyógyításban és így tovább. Gépi fordításon is dolgozunk, és mások által készített fordítókhoz is illesztjük a diktálórendszerünket.

- Vannak magyarországi kapcsolataik?

- Célunk, hogy minden lényeges nyelvre legyen megoldásunk, és a magyar is ezek közé a nyelvek közé tartozik. Világszerte sok ipari és egyetemi csoporttal dolgozunk együtt, Szívesen működnénk együtt magyarokkal is.

Lehet-e az embert utánozni?

Gósy Mária, a konferencia alelnöke, az MTA Nyelvtudományi Intézetének osztályvezetője:

- Az agyműködés szimulálására, az emberi megértés utánzására szolgálnak a neuronhálózat-modellek, de nem tudunk eleget az agyról. Még az olyan sok oldalról vizsgált, leírt betegség is hozhat újdonságot, mint az afázia. Az a beszédzavar, amit az előadásomban bemutattam, egy nagyon ritka agyi sérülés, lézió következménye. Ha valaki azt mondja nekem, mielőtt ezt az embert, akinek a beszédét bejátszottuk, hallottam volna, hogy sérülhet a beszéd egyik szintje, míg a szegmentáció ép marad, nem hiszem el. Annyi mindent nem tudunk még az agy funkcionális működéséről, hogy ez az egész kérdés nagyon nehéz. Mégis innen kell kiindulni, ha a beszédet géppel meg akarjuk érteni. Ahhoz, hogy olyan gépet létrehozzunk, ami ugyanúgy megérti a beszédet mint mi, nagyon sok kutatásra van szükség. Mint fonetikával és pszicholingvisztikával foglalkozó ember azt mondom, hogy az akusztika nagyon fontos, de nem eleget mond, túl sok hibát eredményez. A matematikai, akusztikai alapú számításos, képletes megoldások egy bizonyos szintig elvisznek, és onnan már gond van. Messze vagyunk még attól, hogy az agy működését ismertnek mondjuk.

Az angol nyelvvel ráadásul jóval könnyebb is, mint a magyarral, hiszen mi ragozunk, ők nem, náluk kötött szórend van a mondatban, nálunk nincs. Ez nagyságrendi eltérés. Nagyon sok szabály kell, nagyon nagy adatbáziskapacitás.

- Van-e, lesz-e ön szerint valamilyen következménye a hazai kutatásokra annak, hogy az Európai Beszéd Kommunikációs Szövetség, az ESCA Budapestre hozta hatodik konferenciáját?

- Martonyi János külügyminiszter mondta a megnyitón, hogy mi úgy vagyunk Európa polgárai, hogy magyarok vagyunk. Igaz ez a technikára is. Ha a szemléletünk, a magyar nyelvhez való viszonyunk jó, őrizzük a nyelvünket, ami csak a miénk, akkor eljutunk oda, hogy amikor átvesszük a megfelelő technikát, kidolgozzuk a mi nyelvünkre, és így vállaljuk az egészet. Ez nem idő, hanem felfogás kérdése. Az is jó, hogy a magyar tudósok nagyon elöl járnak a beszédkutatásban. A mesterséges beszédet a világon először mi valósítottuk meg itt, Magyarországon már a nyolcvanas évek elején, s az amerikaiak sokat átvettek a mi eredményeinkből.

Van-e köze a "Helyes-e"-nek a beszédfeldolgozáshoz?

Prószéky Gábor, a konferencia-előadások kiadásának egyik szervezője, a magyarországi szervezőbizottság tagja, a Helyes-e helyesírás-ellenőrzőt és a MobiDic szótárprogramot készítő vállalkozás, a Morphologic ügyvezetője:

- Ha a fonetikai, technikai oldalt nézzük, akkor a Morphologicnak valóban nem sok köze van ahhoz, amiről az EuroSpeech ’99-en szó van. De ma már mindenki tudja, hogy a nyelvi kutatásokat és a beszédfeldolgozást össze kell hozni, mert az, amivel itt a sok műszaki szakember dolgozik, az mégiscsak a nyelv. Együtt kell tehát működniük azoknak, akik a tartalommal, a beszéd értelmével foglalkoznak. Nem véletlenül vagyok tehát tagja az EuroSpeech ’99 szervezőbizottságának, s nem véletlenül állítottuk mi össze a Morphologicnál a konferencia kiadványát. Régi és jó a kapcsolatunk a BME Telematikai és Távközlési Tanszékével, együtt dolgozunk. A felolvasó rendszer, a beszédszintetizálás nem él meg a szöveg előfeldolgozása, elemzése nélkül. A prozódiailag elfogadható szintetizált beszédhez tudni kell, hol vannak szóhatárok, speciális átkötések, hangváltozások, hol hiányoznak az ékezetek. A nyelvi előfeldolgozás eredményeképpen nem azt mondja a gép, hogy vaszár, hanem azt, hogy vas-zár, mert megtalálom a szó tövét. Az e-mail írásakor nem nagyon törődnek a küldők az elütésekkel, ha ezekből néhányat kijavítunk, már érthetőbb lesz a Westel 900 levélmondója által felolvasott szöveg.

Szívesen vennénk részt beszédfelismerési kutatásokban is, de az nem nagyon van. Eszköz- és időigényes, és ma Magyarországon mindkettő hiánycikk a tudományban.

- Azért láttam itt a kiállításon érdekes dolgokat, például a szegediek a JATE-ról számbemondást felismerő programot hoztak.

- Igen, az elszigetelt, egy-két kötött szóból álló parancs vagy információ felismerése az megy. Nem is kell hozzá nyelvi feldolgozás. De ha már magyar beszédet, mondjuk, csak tagolt diktálást leíró programot akarnának írni, akkor szükségük lenne ránk. A folyamatos beszédben már maga az is gond, hogy hol vannak a szóhatárok, mikor kell a szegmenseket tartalmazó szótárhoz fordulni. Kell egy nyelvi eszköz, ami ebben segít. Nekünk van is ilyen, várjuk, hogy valaki belevágjon a diktálás után gépelő programba, és használni kezdje.

Bár ez szerintem elsősorban pénzkérdés. Franciára, németre, spanyolra, angolra van program, de magyarra nincs, mert nincs, aki ebbe fektetne dollármilliókat. Pedig van néhány cég a világban, ahol százórás hanganyagból már tudnak használható leíró rendszert készíteni. Őrületesen nagy gépeken hatalmas statisztikai elemzéseket csinálnak, s az lesz az alapja a dobozolható terméknek.

Pénz híján mi itt ötletekkel próbálkozhatunk. Életrevalónak találom például azt, hogy párhuzamosan, egymásra figyelve működjön együtt a fonetikai és a nyelvi elemző. Van egy technológia, ami már egy kicsit mondatszinten is felismeri, ha ugyanazt a jelsorozatot másképp kell értelmezni az egyik mondatban, mint a másikban, és ettől aztán leírva is lehet más. Ez is hasznos lehet a beszédfelismerésben.

- Néhány éve egy Hewlett-Packard reklámfilmben földrengés után mindenki a Palmhoz hasonló kis eszközt haznált a terepen. Egy jelenetben a csinos rendőrnő angolul belebeszélt, és a másik oldalon a kioktatott sofőr spanyolul hallhatta, hogy arra nem szabad menni. Ez a beszédfeldolgozás végső célja?

- Messze vagyunk még ettől, de ha megvalósul, akkor az elején ott lesz a beszédfelismerés, létrejön egy szöveg, belép a gépi fordító, s a végén a beszédszintetizátor. Ez teljesen lineáris feldolgozás. Az ember másképp működik. Ahogy hallgatom a másikat, folyamatosan alakul bennem a mondanivalója, és mire elmondja, én már mondom a választ. Idén jelent meg egy monográfia Futó Iván szerkesztésében a mesterséges intelligenciáról (a MI-ről), és már kapható Kis Balázzsal közös könyvem, Számítógéppel emberi nyelven címmel. Ezekben azt írom, hogy ma már nem része a nyelvfeldolgozás a mesterséges intelligenciának. Amit itt, a konferencián látunk, az nem annak a modellezése, ahogy az ember működik - ez a MI egyik meghatározása -, hanem olyan fizikai rendszerek kialakítása, amelyek korlátozott körülmények között, korlátozott értelemben ugyanazt az eredményt adják, amit az ember. Például felolvasnak, mint a Westel 900 levélmondója, de nem úgy ahogy mi tesszük.