Olyan változás előtt állunk, mint amikor felfedezték a számítógépet

A napokban jelentették be, hogy a Microsoft több mint 10 milliárd dollárt fog befektetni a mesterséges intelligencia fejlesztésekre létrehozott OpenAI vállalkozásba. Emellé a cég vezérigazgatója azt nyilatkozta, hogy szándékaik szerint a fejlesztések léptéke a személyi számítógép és az internet nagyságrendjével egyenértékű.

Sok mindent lehet mondani a Microsoftra, de az ígéreteit nem szokta úgy elfelejteni, mint a Facebook néven elhíresült Meta a metaverzum-fejlesztéseiben elégetett másfél milliárd dollárját. A több mint 10 milliárd dollár az jelenleg több mint 3650 milliárd forint, és nem beruházás, hanem fejlesztés, tehát az eredmények anyagi vonzata ennél nagyságrendekkel nagyobb lehet.

Az OpenAI vállalat legismertebb, létező termékei a ChatGPT beszélgető robot, és a DALL·E szöveg-kép átalakító. Mindkét meghatározás magyarázatra szorul.

Szöveg és kép

A beszélgető robot nem a szórakoztatóipar, hanem a szolgáltató ipar területére tartozik, továbbá a szakszerű meghatározás szerint „nyelvi generatív mesterséges intelligencia”, azaz megadott témájú szöveges tartalmakat előállító automata, mondjuk úgy, fogalmazó gép. Igen, a ChatGPT kifogástalan „kis színes” újságcikkeket, és – kellő felkészítés után – közepesnél nem sokkal rosszabb novellákat tud írni. De a jelenleg leggyakoribb felhasználási módja az ügyfélszolgálati munkatárs. A Debrecenben nemrég üzembe helyezett, „Komondor” nevű magyar szuperszámítógép a magyar nyelvű generatív mesterségesintelligencia- (MI-) termékek egyik alapja lesz.

A szöveg-kép átalakító pedig az a szolgáltatás, amely rövid, szöveges meghatározás alapján fotót vagy festményt állít elő. Szintén sokat szerepel a hírekben, mert az eddig ismert, humán szöveg-kép átalakítók (festőművészek, illusztrátorok, grafikusok) épp mostanában kezdenek aggódni a jövőjük felől a DALL·E és hasonló MI-festőautomaták miatt. Szintén friss hír, hogy az egyik legnagyobb és legismertebb képbank, a Getty Images beperelt egy MI-képgeneráló vállalkozást (nem a DALL·E-t, hanem a Stable AI nevűt), mert az engedély és persze licencdíj nélkül (többek között) a Getty Images online elérhető, vízjeles fotóit használta betanításra – és a vízjelek olvashatóan megjelentek a generált képeken.

Netflix-újdonságok a la DALL·E
Netflix-újdonságok a la DALL·E
Forrás: Netflix.com

A per eredménye valószínűleg meg fogja határozni a generatív MI-termékek piacának működését. Meg kell állapodnia az adathalmazok felhasználóinak az adathalmazok kezelőivel, hogy előbbiek fizessenek az utóbbiaknak. Ettől talán megnyugszanak az alkotók, pedig még nekik is meg kell állapodniuk az adathalmaz-kezelővel, hogy ők mennyit kapnak ilyenkor, és hogyan győződhetnek meg arról, hogy tényleg azért és annyit kaptak, amennyi megilleti őket – de ez már a romkomok esküvő utáni történeteinek kategóriája.

Mindent eldönt a betanítás

Van az a mondás, hogy „Akinek kalapácsa van, az mindent szögnek fog látni.”

Nem lehet elég erősen hangsúlyozni, hogy bármilyen mesterséges intelligencia alapú megoldás működése alapvetően a betanításához felhasznált adathalmaztól függ.

Ugye, olyan másfél éve hullámzott az interneten, hogy egy MI-tudóscsoport megalkotta Beethoven X. szimfóniáját. (Valójában annak „csak” az első, mintegy 10 perces tételét.) Aki meghallgatta, azonnal feltűnt neki, hogy az V. („Sors”) szimfónia első 4 hangja nagy súllyal szerepelhetett az input adathalmazban. Mindenki emlékszik arra a rettenetes fiaskóra, amelynek során a sötét bőrű portrékat nem tartalmazó képekkel tanított arcfelismerő majmokként azonosította az afroamerikaiakat.

Körülbelül azóta stratégiai jelentőségű a mesterséges intelligencia betanításához felhasznált adathalmaz. Ami egyébként mondhatni emberemlékezet óta így van: gyermekünk olyan okos lesz, amennyit és ahogyan tanítunk neki. Abból fog válogatni. Ha soha nem mutatjuk meg neki, hogy „Nézd, ott egy veréb a bokron!”, nem fogja mélyen megérteni a „reszket a szívem, mert eszembe jutottál” verssort. Ha soha nem mutatunk neki parittyát, nem fogja feltalálni a hajítógépet.

A mesterséges intelligencia is csak annyira kreatív, amilyen változatos a betanításra használt adathalmaz. Ha annak magas a diverzitása, és megengedjük „neki”, hogy bármit felhasználhat, akkor lesznek meglepetések.

Forrongás várható

Az alkotók pedig nyugtalankodnak, mondhatni szokás szerint attól félnek, hogy nem lesz rájuk szükség.

Leonardo Utolsó vacsora kiegészítve
Leonardo Utolsó vacsora kiegészítve Forrás: ArtNet.com

Azért szokás szerint, mert a fotográfia kezdetén is aggódtak, hogy vége a festészetnek, a rádiózás kezdetén is aggódtak, hogy vége a zenélésnek, a CD majd Napster miatt aggódtak a zenekarokért stb.

Az igaz, hogy a Photoshop óta nem tűnnek annyira nagy teljesítménynek Malevics vagy Vasarely művei. Az anyagviselkedés-szimulációk fejlődésével Pollock és a foltfestők művei nem tűnnek különösebben bonyolultnak. (Azok egyébként, csak az általuk bennünk okozott élmények kisebbek… Megjegyezzük, hogy a ruhák testkövetésével még az Avatar II-ben is vannak problémák.)

Vagyis meg fog változni a gyakorló művészek szerepe, a mesterséges intelligencia egyre általánosabbá válása valódi, széles és mély diszrupció lesz a teljes emberi kultúrában, de ettől nem félni kell, hanem kihasználni. Ahhoz, hogy a generált szöveg jól érthető és egyértelmű legyen, a kimenetet szerkeszteni kell. Ahhoz, hogy a filmhez MI-vel generált kísérőzene a kívánt hatást keltse, zenésznek kell paramétereznie az algoritmust, és ahhoz, hogy a DALL·E által alkotott meseillusztráció ne legyen a megkívántnál ijesztőbb, valódi grafikusnak kell minősítenie az eredményt, amihez nem keveset kell tanulniuk mindhármójuknak.

Azért a Wordbe épített dolgozatgenerátor miatt nem irigylem a norvég tanárokat sem, alig tanulták meg a Google-plágiumok kiszűrését…

További hírek