fbpx

Alig hibázik a mesterséges intelligencia, amely Arany, Móra és mások kéziratait digitalizálja

Arany János akadémiai kézirathagyatékának, Móra Ferenc levelezésének és Pázmány Péter prédikációinak a mesterséges intelligencia bevonásával történő feldolgozását tűzte ki célul az a projekt, melynek vezetője Palkó Gábor, az ELTE BTK Digitális Bölcsészet Tanszék, illetve a Digitális Örökség Nemzeti Laboratórium vezetője.

Milyen típusú szaktudás, milyen technológia kell a XIX. században magyar nyelven, kézzel írt szövegek számítógéppel olvashatóvá tételéhez?

Az előkészítés során feltétlenül szükség van a korszakot jól ismerő kutatók szakértelmére, a mesterséges intelligencia-alkalmazások, de különösen a mélytanulásos nyelvi technológiákban jártas informatikusok tudására – és természetesen digitális bölcsészekre, digitális filológusokra.  

A mesterséges intelligencia alkalmazásával olyan területeken is hatalmas az előrelépés, amelyeken korábban rendkívül nagy élőmunka-ráfordítással lehetett eredményeket elérni. A kulturális örökség digitalizálása terén a kézírásfelismertetés az egyik ígéretes fejlesztési terület. 

A nem túl régen nyomtatott vagy írógéppel rögzített szövegek viszonylag könnyen digitalizálhatók a negyedszázaddal ezelőtt kifejlesztett optikai karakterfelismerő programoknak köszönhetően. 

A valódi, vagyis kézírással lejegyzett kéziratok feldolgozása azonban teljesen háttérbe szorult, mivel mostanáig nem voltak olyan általános modellek, amelyek képesek lennének figyelembe venni az adott dokumentumcsoport sajátos jellemzőit.

Emellett a magyar nyelvű kéziratok azért is hátrányban vannak, mert a mesterségesintelligencia-eszközöket a nagy világnyelvekre fejlesztik ki.

Ezen okok miatt a magyar nyelven, kézzel írt dokumentumok különösen alulreprezentáltak a digitális kulturális örökség egészében.

A Digitális Örökség Nemzeti Laboratórium, a DH-LAB egyik elsődleges feladata ezeknek a problémáknak a megoldása.

Nemrégiben vehették át a 2024. évi Társadalmi Innovációs Díjat az Arany János akadémiai hivatalos kéziratait feldolgozó program kifejlesztéséért. Miért pont Arany János akadémiai irataira esett a választás? 

Több érv szólt emellett: egyrészt Arany születésének bicentenáriuma, amelynek megünneplésére régóta készült az egész magyarság.

Az igen összetett feladat első fázisa a romániai és magyarországi gyűjteményekben fellelhető kéziratok beszkennelése, vagyis a digitális fakszimilék előállítása volt.

Ennek a munkának az egyik jelentős eredményeként kiderült, hogy a korábban ismert, mintegy 2500 kéziratoldalhoz képest egy nagyságrenddel több, körülbelül 30 000 oldal maradt fenn Arany János hivatali munkásságából. 

Mint ismeretes, Arany János 1865-től tizenkét éven át volt a Magyar Tudományos Akadémia, az MTA titoknoka, mai kifejezésünkkel főtitkára. A nagy költő által az ebben a pozícióban végzett adminisztratív munka óriási jelentőségű: e bő évtized alatt megszervezte és kialakította az akadémia működési kereteit.

Az előállított digitalizált korpusz alapján lehetővé válik egy digitális kritikai kiadás jövőbeni létrehozása, amely

szűkebben véve mélyebb betekintést nyújt majd Arany MTA főtitkári tevékenységébe, tágabb értelemben viszont az 1860-as és 1870-es évek hazai tudományos, kulturális és művészeti életébe.    

Hogyan lesz a digitális fakszimilékből, vagyis a beszkennelt kéziratoldalakból számítógéppel olvasható, kereshető szöveg?

A digitális technológia egyik legnagyobb kihívása a kézírás-felismertetés, amelyet az angol neve, Handwritten Text Recognition rövidítése alapján mindenki HTR-nek hív. A HTR a mesterséges intelligenciának azt a tulajdonságát használja ki, hogy az MI tanítható.

Minél nagyobb a betanításra szolgáló minta, és minél több visszajelzést kap a szoftver, annál pontosabb lesz majd az eredmény.

Ahogy említettem, a HTR modellek fejlesztésével sokan foglalkoznak, főleg a nagy világnyelveken. A nyílt forráskódú szoftverekkel végzett első kísérleteink eredménye nagyon magas, mintegy 30%-os karakterhiba-arányt eredményezett. A második modell jelentős javulást mutatott, a hibaarány a felére csökkent. Amiatt azonban, hogy ez a modell csak Arany kéziratain lett tanítva, nem volt alkalmas arra, hogy a teljes korpuszból magas minőségű átírásokat készítsen. 

Féloldalas lett volna az eredmény, ha csak az Arany János kézírásával lejegyzett szövegeket dolgozzuk fel, hiszen a hivatali iratok közül sokat a főtitkár munkatársai jegyeztek le.

Csak a harmadik Arany-modellünknél értük el az elfogadhatónak számító 6%-os hibaarányt:

ebben a fázisban már nemcsak Arany, de további mintegy harminc kéz által írt, közel 900 kéziratoldalon tanítottuk és finomhangoltuk a szoftvert.  

Erről a 900 oldalról számoltak be egy tavalyi konferencián. Milyen eredményeket értek el azóta?

Mivel a modell azóta nem egyetlen ember kézírásának sajátosságait, hanem több tucatnyi ember egyedi írásmódját tanulta meg olvasni, ezáltal képessé vált egy magasabb rendű tudásra,

melynek következtében addig ismeretlen, korábban soha nem látott kézírást is elfogadható szinten ismer fel. Bátran kijelenthetjük, hogy

a modell már jelenleg is alkalmas arra, hogy nagy mennyiségű, különféle szerzők alkotta kéziratot tegyünk vele kereshetővé a magyar nyelvű dokumentumhagyományból.

Célunk éppen ennek az általános alkalmazhatóságnak a kiaknázása és a felismerés színvonalának további javítása. Ennek érdekében újabb és újabb kézirategyütteseket vonunk be a modell továbbtanításába.

Csak egy példát emelek ki: a Móra Ferenc Múzeum szakembereinek közreműködésével most készült el a Móra-kéziratok felismerésére szolgáló modellünk tanítóanyaga, így a kéziratok felismertetése hamarosan elkezdődik.

A kereshetővé váló dokumentumokat a Manda DB szolgáltatáson keresztül a nagyközönség számára is elérhetővé tesszük.

Móra Ferenc Walleshausen Ilonához írt levele „Kedves Lelkeim!” megszólítással. Forrás: Manda DB Móra Ferenc levelezése

Hogyan tanítják a mesterséges intelligenciát? A kívülállók számára elmagyarázná röviden, hogyan zajlik a betanítás és a finomhangolás? Külön tanítják a szoftvernek a 150 évvel ezelőtti helyesírási szabályokat? Amikor nem Arany akadémiai kéziratait dolgozzák fel, akkor más szabályokat állítanak föl, és azokra tanítják meg az algoritmust?  

A ma széles körben használt nyelvi modellek, amelyekre az MI alkalmazások épülnek, időben és kulturálisan is átfogó tudással rendelkeznek. Akkor jó egy modell, ha sok nyelven és különböző korszakok szövegein tanították. Az általunk használt eszköz esetében is ez történt, milliónyi kézirat szövegén tanították be előre. 

Mi a modell által megszerzett tudásra építünk.

Ma már elegendő akár száz, kétszáz emberi szakértelemmel kijavított átirat ahhoz, hogy az eszköz a korábban megismert sok-sok ezer mellett egy újabb „kéz” sajátosságait is elsajátítsa.

Lényegében egy-egy egyedi kézírás jellegzetességeit kell a betanított modell tudásához hozzáigazítanunk. 

Ami a nyelvi jellemzőket, a helyesírást, a szókincset illeti, ezeknél a modelleknél az adott korszak sajátosságainak felismerése nagyon érdekesen alakul. A modell egyszerre sajátítja el a nyelvi képességeket, az olvasást és a látást, vagyis az íráskép felismerését.

Annak érdekében, hogy a modell magyar nyelvi tudását javítsuk, „szintetikus” tanítóanyag előállításával kísérletezünk.

Tapasztalataink szerint ez a módszer értékes százalékokkal javítja a hatékonyságot. Ebben az esetben már digitalizált korabeli dokumentumok szövegéből állítunk elő az emberi kézírást imitáló képeket, majd ezeket vegyítjük a tényleges kéziratfotókkal, valamint az átiratokkal, és ezzel a módszerrel javítjuk a modell magyar nyelvismeretét.

Kézírásfelismertetéssel más tudományos műhelyek is foglalkoznak Magyarországon. Tudomásom szerint több helyen egy külföldön kifejlesztett, igen drága célszoftvert használnak a HTR feladatokhoz. A DH-LAB miért döntött saját fejlesztésű modell kialakítása mellett?

A magyar nyelvű kulturális örökséget őrző intézményekben hatalmas mennyiségű kézírásos dokumentum található, amelyek digitalizálása, kereshetővé tétele nemzeti létkérdés.

Számunkra világossá vált, hogy a magyar nyelvű kéziratok tömeges digitalizálása és az e célt szolgáló, a közgyűjtemények számára szabadon átadható, közös erővel fejleszthető modell létrehozása nyílt forráskódú eszközök használatát teszi szükségessé. 

Az ELTE vezetésével működő DH-LAB konzorcium feladata azonban nem szolgáltatások fenntartása, hanem olyan munkamenetek, jó gyakorlatok és eszközök fejlesztése, amelyeket a közgyűjtemények felhasználhatnak és saját napi gyakorlatuk részévé tehetnek. A mi fő feladatunk a megszerzett tudás megosztása, átadása az együttműködő partnereinknek.

A kutatók és a nagyközönség mikor, hol tekintheti meg Arany János hivatali iratait és azok átírását?

A hivatali iratok digitalizálásában és a felismertetett kéziratok kereshető formátumú közreadásában a Magyar Tudományos Akadémia Könyvtárával működünk együtt.

A kéziratfotók már jelenleg is elérhetők a könyvtár internetes szolgáltatásában.

Az ún. egyrétegű, vagyis csak képeket tartalmazó PDF dokumentumokat a könyvtár munkatársai kereshető szöveggé átalakított, „kétrétegű” PDF fájlokra cserélik, így nemcsak a nagyközönség, de az internetes keresőmotorok is hozzáférnek a szövegekhez, miáltal azok bekerülnek a digitális örökség körforgásába, mert bizonyára sokan olvassák és hivatkozzák majd ezeket a kéziratokat. 

A Kulturális és Innovációs Minisztérium az általa alapított Társadalmi Innovációs Díjat évente adományozza – többek között – együttműködésre alapuló, társadalmi szükséglet kielégítésére irányuló, nemzetközileg is adaptálható új ötlet kifejlesztéséért és megvalósításáért. Mely intézmények és kik vettek részt az innovációs díjjal elismert fejlesztésben?

Név szerint öt munkatársat emelnék ki: a HUN-REN Bölcsészettudományi Kutatóközpont (HUN-REN BTK) Irodalomtudományi Intézetéből Fellegi Zsófiát és Bobák Barbarát, a DH-LAB részéről Nemeskey Dávidot, Fekete Norbertet és Szekrényes Istvánt.

A nyílt tudományosság elveinek megfelelő kézírásfelismerő modellt saját hardver környezetben, intézményi összefogással dolgoztuk ki. A DH-LAB a HUN-REN BTK Irodalomtudományi Intézete, a Miskolci Egyetem, valamint az ELTE BTK Történettudományi Intézet Digitális Bölcsészet Tanszék szakértőinek, illetve az ELTE Informatikai Kar Mesterséges Intelligencia Tanszék hallgatóinak közreműködésével alakítja ki a magyar nyelvre optimalizált MI eszközök alkalmazásának módszertanát.

A közeljövőben milyen terveik vannak az MI és a kézírás-felismertetés terén? 

Két új fejlesztési irányt emelnék ki. Egyrészt megkezdtük az Arany hivatali iratok generatív MI eszközökkel való adatgazdagítását:

az egyes iratok szövegét a legfejlettebb csevegő alkalmazások céljára fejlesztett modellekkel elolvastatjuk, és azok műfajáról, illetve az iratokban említett személyekről, helyszínekről „kérdezzük” őket.

Az MI csetbottól kapott válasz színvonala természetesen nem éri el egy irodalomtörténész tudásszintjét, arra azonban jó, hogy pillanatok alatt rendelhessünk a keresést segítő ún. metaadatokat az ember számára elolvashatatlan mennyiségű, rendkívül értékes dokumentumokhoz. 

Arany János akadémiai kézirata és a HTR által felismert szöveg 
(Képernyőkép a DH-LAB szerverén futó, nem nyilvános alkalmazásból)
Az ELTE csetbot összefoglalója Arany János akadémiai iratának tartalmáról
(Képernyőkép a DH-LAB szerverén futó, nem nyilvános alkalmazásból)

További fejlesztési irány a hagyományos eszközökkel feldolgozhatatlan dokumentumtípusok felismertetésére alkalmas modellek létrehozása.

Ennek keretében a Magyar Nemzeti Levéltárral minisztertanácsi jegyzőkönyvek gépiratait digitalizáljuk, a Pázmány Péter Katolikus Egyetem kutatóival pedig régi nyomtatványok feldolgozását kezdtük meg.

Jelenleg zajlik Pázmány Péter több ezer oldalt kitevő prédikációnak felismertetése az MI eszközeink segítségével.

A XVII. század elejéről származó nyomtatványok felismertetése rendkívül nehéz, adott esetben a kézírásnál is nehezebb feladat. Ennek oka, hogy hiába készültek nyomdában ezek a kiadványok, a betűk alakja, sűrűsége változó, az egyes nyomdák betűkészlete jelentős változatosságot mutat, és abban az időben még a magyar helyesírás sem sztenderdizálódott. Ezen okok miatt

az 1600-as években készült nyomtatványok felismerésére az újabbkori nyomtatott szövegek felismerésére kifejlesztett eszközök nem alkalmasak. 

Az alábbi ábrán a felismertetett szövegben látható hibák ellenére a kritikai kiadások készítésének folyamata már a jelenlegi technológiával is többszörösére gyorsítható, és bízunk abban, hogy a mesterséges intelligenciára épülő modell minősége sokat fog még javulni.

Pázmány Péter: A római anyaszentegyház szokásából minden vasárnapokra és egy-néhány innepekre rendelt evangeliumokrul predikációk (Pozsony 1636)

 

További hírek