Különleges adatbázist hoztak létre magyar költők életművéből az ELTE kutatói

Elárvereznek egy Picasso-portrét, akár 55 millió dollárt is megadhatnak érte
2021-04-08
Megtalálták az elveszett aranyvárost Egyiptomban
2021-04-09
Show all

Különleges adatbázist hoztak létre magyar költők életművéből az ELTE kutatói

A digitális oktatás idején, az érettségi vizsgákhoz közeledve jó tudni, milyen eszközökkel segítik a kutatók a tanulást és a tanítást. A középiskolai tananyagban szereplő magyar költők művei immár nemcsak online szöveggyűjteményekben, de egy különleges adatbázisban, a Verskorpuszban is hozzáférhetők. A vasárnapi Költészet Napja előtt a versek rímeit, ritmusait és más rejtett tulajdonságait feltáró, szabad hozzáférésű adatbázisról kérdezzük Palkó Gábort, az ELTE Digitális Bölcsészet Tanszék egyetemi docensét.

verskorpusz - magyar költők, versek a neten. Palkó Gábor

Verskorpusznak nevezték el az adatbázist – mit takar ez a szokatlan szókapcsolat?

A korpusz fogalmát a nyelvészektől kölcsönöztük. Már az 1960-as években is léteztek olyan kutatások, amelyek számítógépes feldolgozás céljára gyűjtöttek össze hatalmas mennyiségű természetes nyelvi szöveget. Később ilyen módszerrel hoztak létre szótárakat is; az egyik leghíresebb a Collins’ COBUILD egynyelvű értelmező szótár. Ennek hátterében az a filozófia áll, hogy a nyelvről való tudást nem csak elméleti feltételezésekből kiindulva, hanem a korpuszok statisztikai, számítógépes vizsgálatára alapozva is gyarapíthatjuk, melynek révén olyan mintázatokra bukkanhatunk, amelyek a korábbi, spekulatív modellek felől nézve rejtve maradtak.A korpusznyelvészet összegyűjti az adott nyelvterületről a szövegeket, különféle szempontok alapján annotálja, vagyis felcímkézi azokat, majd a nyelvi jellemzők közötti keresések révén tár fel összefüggéseket. Ilyen céllal jött létre a Magyar Nemzeti Szövegtár. A Verskorpusz létrehozásakor hasonló cél lebegett a szemünk előtt: létrehozni a magyar költészet nyelvét reprezentáló szöveggyűjteményt, azt gépi úton felcímkézni, majd keresésekkel feltárni rejtett mintázatokat. A korpusz szó keresztezése a költészettel egyébként nem az ELTE digitális bölcsészeinek „találmánya”. A cseh kollégák már egy évtizede kísérleteznek számítógépes versfeldolgozással: a 2010-es évek közepén tették közzé a Cseh Verskorpuszt (Corpus of Czech Verse), ami tudomásom szerint a legnagyobb ilyen gyűjtemény a világon.

A korpusz nyelvészeti szakkifejezés, jelentése egy adott nyelv adott időpontban használt változatára vonatkozó szövegek összessége. A szó a latin corpus (test) szóból ered, és a “nyelvi test”, nyelvi összesség értelemben használják. (Wikipedia)

Eddig 45 költő műveit dolgozták fel, Radnóti és Juhász Gyula várólistán

Kiknek a művei kereshetők a Verskorpuszban?

A korpuszba bekerült versek forrása a Magyar Elektronikus Könyvtár számos, szerzői jogi védelem alatt már nem álló költői életművet tartalmazó gyűjteménye. A technikai feltételeken túl (vagyis, hogy megfelelő formátumban rendelkezésre állnak-e jó minőségű digitális szövegek) a szerzők kiválasztásának szempontja az volt, hogy az iskolai kánonhoz tartoznak-e. Igyekeztünk a magyar verskultúra szempontjából legjelentősebb, legismertebb életműveket összegyűjteni. Ez hátrányokkal is jár: a NAT-ban szereplő költők döntő többsége férfi, és ez az aránytalanság jellemző a jelenlegi gyűjteményünkre. Azt remélem, a Verskorpusz további építése lehetővé teszi majd a kánonba be nem került líra integrálását, ami hosszabb távon akár a kánon átrendeződésének alapját is képezheti.

Janus Pannonius, Juhász Gyula, Radnóti Miklós versei miért maradtak ki az adatbázisból? Tervezik bővíteni a tartalmat? Ha igen, mely költők alkotásaival?

Jelenleg 45 költő összegyűjtött versei találhatók a gyűjteményben. Mivel a korpusz magyar nyelvi elemzőeszközöket használ, úgy döntöttünk, fordításokat nem használunk, hiszen az eredeti szöveg és a fordítás keletkezése között eltelt idő (miközben a nyelv változott), illetve a fordító saját költői nyelve befolyásolná azokat a mintázatokat, amelyeket a szolgáltatásból kiolvashatunk a magyar lírai nyelvről. A gyűjteményt folyamatosan bővítjük, Juhász Gyula és Radnóti a lista elején állnak!

A költemények mely nyelvtani és poétikai tulajdonságait tárja föl a Verskorpusz?

A szavak grammatikai tulajdonságainak azonosítására a Nyelvtudományi Intézetben fejlesztett e-magyar programot használtuk. Az eszköz segítségével automatizált módon meg tudjuk adni a versekben szereplő szavak szótári alakját, szófaját és morfológiai jellemzőit. Ez nemcsak azért izgalmas, mert egy adott szótő minden toldalékolt alakja listázható, vagy mert egy szó meghatározott szófajú környezetére is kereshetünk. A mintázatok feltárása szempontjából talán még érdekesebb, hogy a szolgáltatás gyakorisági listákat is létrehoz, így néhány kattintással összeállítható, egymás mellé helyezhető a költők által leírt leggyakoribb főnevek listája, de láthatóvá tehető az is, a magyar költészettörténetben hogyan változott meg a jelen és múlt idejű igék aránya, vagy épp a megszólítás, a második személyű igealakok használati gyakorisága. A grammatikai jellemzőkön túl hangzásjellemzőket is jelölünk a versekben, így listázhatjuk azokat a verseket, amelyek egy meghatározott rímképlettel rendelkeznek, illetve rákereshetünk szavakra azok fonológiai jellemzői (például hangrendjük vagy szótagszámuk) alapján. Az említett tulajdonságok mellett a versek megjelenítésénél pedig láthatjuk a sorok szótagszámát és időmértékes ritmusképletét is.

József Attila születésnapjának tiszteletére kérem, az ő versein keresztül mutassa be röviden, hogyan lehet használni a szolgáltatást?

Könnyű dolgom van, hiszen a Tanszék munkatársa, Horváth Péter publikált egy tanulmányt József Attila műveinek kvantitatív elemzéséről, melynek során a Verskorpusz kapcsán fejlesztett eszközöket használta. Az adatbázis 585 József Attila verset tartalmaz, ezekben valamivel több mint 10 ezer szó szótári alakjára visszavezethető 61 ezer szóalak fordul elő. A versekben 179 alkalommal szerepel a szeret ige valamilyen formája, a költő a létige és a tud ige után ezt használja a legsűrűbben. József Attila verseiben a leggyakoribb az öt szóból álló sor, tipikus verssora tíz szótagos. A költők teljes életművére vonatkozó adatokat összevethetjük egymással, de az egyes versekre vonatkozó számadatokat is lekérhetjük, így következtethetünk egy adott szöveg és az életmű egészének viszonyára.

A tepsi és a harkály szó csak egyszer szerepel József Attilánál

Egy átlagos érdeklődésű középiskolás mit tud profitálni a Verskorpuszból? Várható, hogy diákok is használják majd tanulmányaikhoz az adatbázist, vagy inkább az irodalommal hivatásszerűen foglalkozókra számítanak?

A Verskorpusz elsődleges célközönsége véleményem szerint az a kutató vagy egyetemi hallgató, aki az irodalmi nyelv számszerűsíthető jellemzőire is kíváncsi. A szolgáltatásnak ugyanakkor egy középiskolai irodalomóra, vagy akár verselemzési feladat összefüggésében is lehet szerepe, a versformák, a költői nyelv hangzó elemeinek tanításakor egyenesen kötelező!

Az ELTE-n Molnár Gábor Tamás vezetésével működő Digitális Írástudás és Irodalomoktatás Kutatócsoport kvantitatív vizsgálatokkal bizonyította, hogy az irodalomórán az interaktív digitális eszközök használata növeli a diákok bevonásának lehetőségét, a motivációt, illetve elősegíti az irodalmi szöveg értelmezését. Remélem, hogy ezt felismerve a tanárok előszeretettel használják majd a Verskorpusz nyújtotta lehetőségeket.

Az emelt szintű magyar irodalom érettségire készülők ismerik a hapax legomenon, az egyéni szóalkotás fogalmát. József Attila költészetére különösen jellemzők a szabad asszociációkon alapuló, új költői kifejezések. Meg lehet keresni a Verskorpuszban az egyedülálló, csak egyszer előforduló szavakat?

Nagyon jó kérdés! Az adatbázis lehetővé teszi, hogy gyakorisági listákat készítsünk akár a szóalakok, akár a szótövek előfordulásai alapján, így könnyedén előállíthatjuk, mondjuk, József Attila költészetében az egyszer szereplő főneveket tartalmazó táblázatot. Ez azonban nem jelenti azt, hogy a szolgáltatás csak a költői kreativitás, az egyéni szóalkotás kitűnő példáit játszaná a kezünkre. Ha egy pillantást vetünk erre a listára, kiderül, hogy a valódi költői értékkel bíró összetételek mellé köznyelvi szavak kerülnek. Ki gondolná, hogy József Attila költészetében ugyanúgy egyetlen egyszer szerepel a szösz-sötét, vagy a levegő-lepke, mint a tepsi vagy a harkály? De a gépi intelligencia nem vállalhat át minden feladatot az emberitől!

Segíthet élménnyé tenni az irodalomórát

Milyen szerepet játszik a Verskorpuszban a mesterséges intelligencia?

A természetes nyelvi elemző eszközök rendkívül komplex szoftverek, amelyeket hosszú éveken át fejlesztenek számítógépes nyelvészekből és mérnökökből álló kutatócsoportok. Sajnos, ezek az eszközök – nem kis részben a magyar nyelv komplexitása és egyedisége miatt – a magyar szövegek esetében kevésbé hatékonyan működnek. Ezért is vállalta fel az ELTE vezetésével 2020 őszén létrejött Digitális Örökség Nemzeti Laboratórium, hogy a kulturális örökség területén segíti, előmozdítja a mesterséges intelligencia eszközeinek hatékonyságát és elterjedtségét; ennek a feladatnak egyik első lépcsőfoka a Verskorpusz.

A tanárok szerint az innovatív, élményszerű irodalomtanítással több diákot lehet olvasóvá nevelni, mint a lexikális tudás erőltetésével. A webkultúrára is építő új módszertan záloga a tanárképzés. Tervezik a magyartanárok képzésébe integrálni a Digitális Bölcsészet Tanszéken zajló fejlesztéseket?

A már korábban említett Digitális Írástudás és Irodalomoktatás Kutatócsoport éppen erre tesz kísérletet: akkreditált tanártovábbképzést szervez, iskolai kísérleti órákat tart, kvantitatív és kvalitatív vizsgálatokat folytat, tanulmányköteteket publikál. A kutatócsoport munkája nyáron véget ér, de remélem, lesz lehetőségünk egy újabb pályázati ciklusban a munkát folytatni.

Korábban ön foglalkozott a középiskolai irodalomtanítás elvi kérdéseivel. Fontosnak tartja az irodalomtanításban a művek értelmezését? Segíti a befogadást az irodalmi szövegek minél komplexebb, minél intenzívebb bemutatása?

Az irodalomoktatás lényege a művekkel való párbeszéd, mely a bemutatással, megtapasztaltatással indul, majd jó esetben kialakul az a kreatív-interaktív befogadói attitűd, ami nélkül nincs műélvezet és irodalomértés. Az irodalomtörténeti folyamatok, az életrajzi adatok, a műformák tanítása csak annyiban legitimálható, ha mind az előbbi célt szolgálja.

Milyen irányban tervezik a Verskorpusz fejlesztését? Elképzelhető, hogy a jelenleg zárt adatbázist kinyitják a hipertextualitás, vagy akár a „sharing culture”, a közösségi tapasztalat-megosztás irányába?

Nagyon örülnék, ha a Verskorpusz részévé válna a digitális médium közösségi és hálózatos gyakorlatainak, ha széles körben idézett és hivatkozott eleme lehetne a hálózati kultúrának, de magát a szolgáltatást nem szeretnénk “megnyitni” ilyen irányba. A fejlesztés a már említett, kánontágító bővítésen túl a mind komplexebben elemezhető poétikai jellemzők: strófaszerkezetek, ütemhangsúlyok, szimultán verselés irányába mutat. A szóbeágyazások és a neurális hálózatok új gépi tanulási technológiái olyan területekre is utat nyithatnak – mint például a költői alakzatok gépi elemzése –, melyek a régebbi, szabályalapú eljárások idején még elképzelhetetlenek voltak.

„Add a kezembe e zárt világ kilincsét” – Elmondhatjuk, hogy az ELTE kutatóinak munkája eleget tesz a József Attila-i kérésnek?

A költői nyelv világa, amennyiben csak a befogadás dialogikus aktusában születik meg, mindig is nyitott volt. A líraolvasás folyamatát a számszerűsíthető jellemzők láthatóvá tétele nem helyettesíti, ugyanakkor lehetővé teszi új, korábban észrevehetetlen mintázatok felismerését. Ennyiben valóban új ajtókat nyitunk meg az úton velünk tartók előtt.

Cikk küldése e-mailben

Vélemény, hozzászólás?