A mesterséges intelligenciát már irodalmi szövegek elemzésénél is fel lehet használni

Kedden kezdődik az FCI Európa Kutyakiállítást Budapesten
2021-12-27
Elhunyt Király Tibor jogtudós, az MTA rendes tagja
2021-12-28
Show all

A mesterséges intelligenciát már irodalmi szövegek elemzésénél is fel lehet használni

Az úgynevezett nyelvtechnológusok által kifejlesztett szoftverekkel az irodalmi szövegeket nyelvtanilag is lehet elemezni, rá lehet keresni egyes kifejezések gyakoriságára, drámaszövegekben pedig fel lehet deríteni a szereplők közötti kapcsolatokat és hálózatokat – mondta a Tudás.hu-nak Palkó Gábor. Az ELTE Bölcsészettudományi Kar Digitális Bölcsészeti Tanszékének vezetőjével ennek a különleges, viszonylag új tudományágnak az eredményeiről, hasznosítási lehetőségeiről beszélgettünk.

Az úgynevezett nyelvtechnológusok által kifejlesztett szoftverekkel az irodalmi szövegeket nyelvtanilag is lehet elemezni, rá lehet keresni egyes kifejezések gyakoriságára, drámaszövegekben pedig fel lehet deríteni a szereplők közötti kapcsolatokat és hálózatokat

A közvélemény számára ma még eléggé szokatlan, hogy létezik egy első pillantásra két ellentétes tagból álló fogalompár, a ’digitális bölcsészet’, ami egyfajta tudományág lett, és nemrég tanszéke is alakult az ELTE-n. Ön, a tanszékvezető hogyan jutott el mondjuk, Ady Endre: A grófi szérűn című versének elemzésétől a „webaratásig”?

A digitális bölcsészet egyszerű megfogalmazásban a bölcsészeti anyagoknak a mesterséges intelligenciával történő feldolgozását jelenti. A munkánk egyik célja éppen az, hogy közelebb hozza egymáshoz az informatikát és a bölcsészetet.

Az én személyes utam tulajdonképpen egy kitérővel kezdődött. Irodalomtörténészként nem kaptam az ELTE-n állást és a Petőfi Irodalmi Múzeumba kerültem, mint webszerkesztő.

A PIM pedig az Europeana nevű platformon keresztül- ahol digitalizált könyvtári és múzeumi anyagokhoz lehet hozzájutni – intenzíven kapcsolódott be a nemzetközi múzeumi digitalizálási projektekbe. Ott tapasztaltam, hogy Nyugat-Európa mennyivel előbbre tart nálunk ezen a területen. Én tehát a múzeumi digitalizáció felől érkeztem. 2020 novembere óta létezik a tanszékünk, egyelőre mindössze hárman dolgozunk itt.

Ehhez a munkához informatikusnak vagy bölcsésznek kell lenni?

Számítógépes nyelvészek, digitális bölcsészek és számítástechnikai szakemberek összehangolt munkájára van szükség. Intézményi szinten pedig egyetemek, kutatóhelyek, közgyűjtemények és piaci szereplők szoros együttműködésére. Munkánk a nyelv gépi feldolgozására alapozódik.

Én eredetileg irodalomtörténész vagyok, illetve digitális filológus, Indig Balázs kollégám számítógépes nyelvész, tehát ő egyszerre bölcsész és mérnök, a harmadik kolléga pedig Horváth Péter, aki nyelvész-bölcsészként került a tanszékre.

De különféle pályázati projekteknek köszönhetően, ennél sokkal többen, több tucatnyian tevékenykednek még a kutatási témáinkhoz kapcsolódva a tanszék körül. Elsőrendű feladatunk természetesen az oktatás. A Bölcsészkar vezetése ugyanis kötelezővé tette minden alapszakos bölcsészhallgató számára egy digitális bölcsészeti óra elvégzését és ez évente 1500 diákot jelent. Ezen kívül minden doktorandusznak, aki a bölcsészkaron doktorál, kötelező részt vennie nálunk egy többnapos workshopon.

Értsd meg az algoritmust!

Ezzel az oktatással azt szeretnék elérni, hogy a jövő bölcsészei ne csupán „lila” bölcsészek legyenek, akik nem képesek kiemelni a fejüket a könyvekből?

A digitális technológiát ma már mindenki használja. De nagy a veszélye annak, hogy úgy kúszik be a számítógép használata a bölcsészeti kutatásokba, hogy azokat a programokat, amelyeket egyre szélesebb körben alkalmazunk, a bölcsészek természetesnek veszik, de nem értik, ezáltal nem is tudják igazán kreatívan kihasználni.

Persze nem arról van szó, hogy mindenkinek tisztában kell lennie a teljes műszaki tartalommal, hanem hogy megértsék a saját tudományterületükön működő informatikai gondolkodást és gyakorlatot, azokat a felületeket, algoritmusokat, amelyek mögött a mesterséges intelligencia áll.  Ennek a nehéz feladatnak a végrehajtását nagyban segíti, hogy kutatási tevékenységünk jelenleg a Labor anyagi és intézményi keretei között zajlik.

Ön úgy említi a Labort, ahogy annakidején a titkosügynökök CÉG-ként beszéltek a tekintélyes CIA-ről.

Valóban jelentős projektről van szó. A Digitális Örökség Nemzeti Laboratóriuma (DH-LAB) azzal a céllal jött létre, hogy elősegítse a mesterséges intelligencia felhasználását a felhalmozott magyar kulturális örökség feldolgozásában.

Intézményi összefogásban például a Miskolci Egyetemmel, illetve a Magyar Nemzeti Levéltárral MI-alapú módszereket fejlesztünk a magyar nyelvű anyagok feldolgozására, a lehető legszélesebb körű közzétételére és a módszerek, eszközök piaci hasznosítására. Technológiai partnerünk a Monguz Kft..

Az interneten szabadon elérhető irodalmi korpuszokat hoztunk létre. Ezek magyar művek szövegeit tartalmazó, kereshető, úgynevezett annotált adatbázisok. A korpuszok anyagainak kiválasztásánál elsősorban a Magyar Elektronikus Könyvtárban publikált művekre támaszkodunk. Jelenleg a Regénykorpusz közel 400 regényt, a Verskopusz több mint 40 költő tízezret is meghaladó számú versét tartalmazza. A Drámakorpuszba pedig a 40 klasszikus dráma mellé kortárs művek is bekerülnek majd.

Rímek, szavak, hálózatok

Mit lehet megvizsgálni a kiválasztott művekben?

Az irodalomi korpuszokkal való foglalatoskodást a „távoli olvasás” – kifejezéssel szoktuk leírni. A művek gépi vizsgálatával a szövegekben sajátos belső összefüggéseket lehet feltárni.

Nyelvtechnológusaink egyebek között olyan, a magyar nyelvre optimalizált szoftvereket fejlesztettek ki, amelyekkel a művek szavait fel lehet dolgozni szófajilag, morfológiailag, vagy például a műben megjelenő kifejezések gyakoriságát illetően.

A versek esetében ezek mellett például a szerkezetekre, rímtípusokra, ritmusképletekre lehet rákeresni (Horváth Péter ír erre a célra programokat), de a drámáknál is egy-egy konkrét szereplő szövegének jellegzetes nyelvi elemeire kereshetünk: szavakra, szófajokra, nyelvi szerkezetekre. Szemes Botond kollégánk például kimutatta, hogy Madách Az ember tragédiája című művében leggyakrabban elvont fogalmakat használ, olyanokat, mint a „társadalom” vagy az „eszme”. Lucifer szövegében pedig gyakran szerepel a „tagadás” és az „ördög” vagy a „kérd” szó.

De a kifejlesztett algoritmusok segítségével ugyanígy rá lehet keresni egy dráma szereplőinek dramaturgiai funkciójára, megszólalásaik gyakoriságára, a darab karaktereit összekötő kapcsolati hálóra is.

Ismert hálózatelméleti elemzés például Franco Moretti Hamlet-olvasata, amely az egy-egy jelenetben együtt szereplő karaktereknek az interakcióit, hálózatait tárja fel. De ezt a módszert más drámáknál is fel lehet használni, mert a művelet automatizálható, tehát egy másik drámában a hálózatokat a kód alapján már a számítógép fogja felderíteni. És mindez a technológia segítségével már vizualizálható is. Együttműködő partnerünk, a DraCor nevű nemzetközi projekt keretei között ez már magyar drámák esetében is lehetséges.

Nem kell attól tartani, hogy az irodalmi művek ilyesfajta „feltrancsírozásával” semmivé lesz a műalkotások fő értéke: a titkot rejtő csoda?

Egyáltalán nem. Hiszen a hagyományos irodalomtudományi elemzések is “feltrancsírozzák” a műveket, vagyis rejtett mintázatokat tárnak fel, csak ezt a vizsgálódást most a mesterséges intelligencia végzi, és a technológiai adottságoknak köszönhetően sokkal nagyobb, és akár többnyelvű anyagon. Ennek segítségével fontos következtetéseket lehet levonni.

Egy példa erre: a művekben a mesterséges intelligencia által felfedezett bizonyos szóhasználatok alapján nemcsak a szerző nyelvi sajátosságaira, hanem az adott kor irodalmi stílusára, trendjeire, az irodalmi kultúra változására is lehet következtetni.

És ezzel meg lehet erősíteni, de akár cáfolni is lehet az irodalomtudomány, a történettudomány, esetleg a kultúrtörténet korábbi megállapításait és következtetéseit. Tehát a ránk maradt kulturális örökség feldolgozásának nagyon hasznos eszközéről és módszeréről van szó.

Említette a közgyűjtemény-informatizálást is a digitális bölcsészet feladatai között.

Érdekes szoftverfejlesztések vannak ezen a területen is. Hogy mást ne említsek, az irodalmi hagyatékok esetében nagy a jelentősége a kéziratok és a nyomtatott szövegek automatikus felismertetésének, az úgynevezett OCR és HTR technológiáknak. És fontos a célzott, intelligens hozzáférés a határon belüli és kívüli digitalizált kulturális örökséghez.

Rendcsinálás a világhálón

És mi történik az interneten fellelhető, esetlegesen és zabolátlanul burjánzó anyagokkal?

Az utóbbi évek gyökeresen megváltozott médiahasználatának eredményeképpen valóban mérhetetlen mennyiségű anyag születik az interneten. De a technológiai fejlődésnek köszönhetően, rendkívül gyorsan megváltoztak a kutatásmódszertanok is.

Mi a digitálisan született (born-digital) anyagokból természetesen csak egyes részterületeken tudunk bizonyos „rendet vágni”.

A webaratásnál először is meg kell szabadulni a felhalmozott „szeméttől”, hogy következhessen a gépi tárgyszavazás, az ésszerű szelektálás, az anyagoknak a mesterséges intelligenciával segített feldolgozása, a kutatás felgyorsítása. Itt nem csupán irodalmi anyagokról van szó. A piaci tevékenységek, mint a piackutatás, a PR, vagy éppen a politikai elemzések is megkövetelik a hatékonyabb internetes adatfeldolgozást. A webes forrású magyar nyelvű anyagok sokszínűek: lehetnek sajtóanyagok, médiatermékek, de megnőtt az úgynevezett web 2.0-ás anyagok kutatási jelentősége is, amelyek blogokból, fórumokról, chatszobákból származnak.

Nyilván a felhasználási igény is sokféle.

Valóban, lehet szó bölcsészeti, társadalomtudományi, netán politikai vagy piaci horizontú kutatásról.

Mi elsősorban a magyar híroldalakat figyeljük, az ott megjelenteket különféle saját fejlesztésű algoritmusok segítségével dolgozzuk fel és tesszük kutathatóvá.

Sokan használják a szoftvereinket, ha például a kisebbség témakörében, vagy mondjuk a bevándorlás témakörében kutatnak, de természetesen jelenleg a világjárvány sokoldalú és intelligens megközelítése van fókuszban. És mivel az anyagmennyiség növekedése megállíthatatlan, a munkánk soha nem ér véget, a rendelkezésre álló szolgáltatásokat, vagyis, módszereket, algoritmusokat több szinten is folyamatosan fejleszteni kell.

Comments are closed.

Weboldalunk bizonyos funkcióinak működéséhez és a célzott hirdetésekhez sütikkel gyűjt névtelen látogatottsági információkat. Az Elfogadom gombra kattintva a webhely használatával Ön elfogadja a weboldal sütikre vonatkozó aktuális adatévelmi irányelveinket. További információért kattintson ide.

The cookie settings on this website are set to "allow cookies" to give you the best browsing experience possible. If you continue to use this website without changing your cookie settings or you click "Accept" below then you are consenting to this.

Close