Jelölőnyelv

Minden szöveg többszörös információt hordoz. Csak az első ezek közül az, amelyet olvasáskor felfedezünk benne. Újságnál például a második réteg az, ami „a sorok között" van. Ezek után következnek azok, amelyeket a tudósok a szövegeket szétszedve, újra összerakva derítenek ki. A tudományos elemzésnek vannak mennyiségi, statisztikai, logikai módszerei, és van az intuíció. Az elemzés algoritmikus módszereiben sokat segít a számítógép.

A Biblia tanulmányozásához, használatához például évszázadok óta használnak egy-egy szó, gondolat ismétlődéseit kimutató szótárt, konkordanciát. A számítógépes bibliák már alapszolgáltatásként adják meg a szavak előfordulását, hiszen egyszerű keresés kell hozzá. A bibliai versek után álló utalások, hivatkozások viszont már a gondolatok közötti kapcsolatokat mutatják, ezeket jóval nehezebb lenne számítógépes algoritmussal rekonstruálni, létrehozni.

Ahhoz, hogy egy szöveget a szavakon és a betűkön túlmenően is elemezni lehessen, össze lehessen hasonlítani, valamilyen előkészítésnek kell alávetni. Minél egységesebb ez az előfeldolgozás, annál nagyobb lesz a vizsgálható adathalmaz, annál több érdekes információhoz juthatnak a tudósok. Az ilyesfajta előkészítés lényegét legjobban viszonylag rövid, de sokféle adatot tartalmazó anyagon lehet megérteni. Vegyünk például egy könyvtári katalógust, amelyben a cédulákon szerepel a szerző, a cím, a kiadó neve, a lapok száma, az illusztrációk száma, az ETO-besorolás, a raktári jelzet. Ha ezeket vesszővel elválasztva, de a hiányzó adat helyét gondosan kihagyva rögzítjük számítógépen, akkor jól feldolgozható, keresésre is használható adatbázist kapunk. Csak éppen az adatok sorrendje és teljessége könyvtáranként változhat, így ha egyesíteni akarjuk több könyvtár számítógépes katalógusát, külön programot kell írni hozzá.

Ezért dolgoztak ki a strukturált dokumentumok számítógépes tárolására, feldolgozására egy - kicsit szószátyár - eljárást, a jelölő, marker használatát. A jelölés abból áll, hogy az anyag minden külön egységét zárójelbe tesszük, és a zárójel elején feltüntetjük, milyen adatot tartalmaz. A katalóguscédula ekkor kinézhet például így: <\szerző|Vargha Balázs<\cím|Játékoskönyv> <\Kiadó|Ifjúsági Könyvkiadó<\Kiadás helye|Budapest<\Kiadás éve|1953> <\Illuszrálta|Illés Árpád>.

Az sem baj, ha két katalógusállományban mások az elnevezések, az sem, ha más a sorrend, az egységesítés már könnyen megtörténhet. A lényeg az, hogy a jelölés, a marker alapján összekereshetők az adatok.

A legelterjedtebb jelölőnyelv a világhálón használt HTML: Hypertext Markup Language. Ez tulajdonképpen egyetlen SGML dokumentumtípus. Egyetlen példája a tudományos életben, lexikonszerkesztésben széles körben használt Standard General Markup Language-nek, amely 1986 óta nemzetközi szabvány. Rajta - mármint a HTML-en kívül - számtalan alkalmazásspecifikus SGML-dokumentumtípus lehetséges.

Az általános jelöléssel ellátott szöveg logikusan és erősen tagolt, van egy világos szerkezete. Pontos szabályok írják le, hogy hogyan kell a szöveg elején lévő definíciós részben megadni, hogy milyen egységekből épül fel a szöveg. A már említett HTML nem más, mint egy SGML-dokumentumtípus, ahol a dokumentumok elejéről lehagyják a - mindenki által elfogadott, tehát közös - definíciós részt, és beépítik a tallózókba.

Hasonló alkalmazásspecifikus SGML-dokumentumtípus sok más helyen is előfordul. Ebből következik a HTML viszonylagos gyorsasága, az adatállományok rövidsége és ugyanakkor a HTML rugalmatlansága. Ez a rugalmatlanság azt is jelenti, hogy hiába ért egyet mindenki egy-egy újítással, annak előbb végig kell mennie az internet egyeztető fórumain, aztán meg kell jelennie a tallózókban ahhoz, hogy széles körben használni lehessen. A teljesen általános SGML és a nagyon leszűkített HTML között van az XML, melyet korábban SGML Lightnak is neveztek. Ennek a leírása csak mintegy tizedrésze az SGML-ének, és a dokumentumban használt jelölések leírása is egyszerűbb, rövidebb benne, mint az SGML-ben. Tulajdonképpen a HTML tekinthető az első XML-dokumentumtípusnak, s így kanyarodik vissza az XML az internethez, amely a létrehozását inspirálta.


Telecomputer
3. évfolyam, 13. szám, 1998. június 29.


Ezt az oldalt a Hungary.Network tartja fenn.