Rideg tény, hogy radikálisan nőni fog a mesterséges intelligenciával előállított tartalom mindenhol

Az reménytelen, hogy a tartalomgyártók jelezzék, termékük részben vagy egészben mesterséges intelligencia eredetű. Pedig elemi szükség lenne erre, nehogy az MI-kimenetet ismét bemenetként hasznosítsák, ugyanis az ilyen „visszatáplálás” a tartalmak minőségének gyors és látványos romlásához vezet. Vagy mégsem?

A szabatosság kedvéért leszögezzük, hogy a generatív mesterséges intelligenciáról van szó: arról, amely előre megadott utasítások (a „prompt”) alapján szöveget, képet vagy videóklipet hoz létre.

A generatív mesterséges intelligencia
Forrás: Open Internet for Democracy

Alapvetően statisztikai alapon működik, a prompt szavaihoz tartozó tartalom a betanításhoz használt tartalomtömegben (a korpuszban) tapasztalható előfordulási gyakorisága alapján. A „tartalom” szót tágan kell értelmezni, ha csak szöveges tartalomról beszélünk, akkor is vannak szavak, szókapcsolatok, egymás közelében előforduló szavak, mondatok, mondatcsoportok, nyelvtani szabályok stb. stb., tehát az előfordulás több szintje is „játszik”.

Ki fizeti a révészt?

Az eredmény annál jobb, minél nagyobb volt a korpusz, és minél okosabb volt a feldolgozás módja, a „modell”.

Az Open-AI- (Microsoft-) univerzumban a ChatGPT 4o, a Google-univerzumban a Gemma 2 modellnél tartunk, mind a kettő könnyen felfogható (médiabarát) szuperképessége, hogy valós idejű, interaktív társalgásra képes úgy, hogy a szavába lehet vágni, és nem esik ki a témából.

Lehet hangolni a társalgás modorát: hidegre, barátságosra, viccesre stb.

A történeti hűséghez hozzá tartozik, hogy a Gemma 2-t még csak bemutatta a Google, kereskedelmi forgalomba 2024 nyarán kerül majd. Fontos a „kereskedelmi” szó: folyamatosan érik a piac, az MI-termékek fizetős verziói sokkal jobbak, mint a nyilvánosan elérhető ingyenesek.

Ki fizet értük? Azok a cégek, amelyek már végrehajtottak 10-30 százalékos létszámcsökkentést, hogy digitalizált folyamataik tartalom-előállító elemeit minél inkább optimalizálják. Az MI-szolgáltatásokat havidíjas konstrukcióban, privát- vagy hibrid felhőinfrastruktúrán nyújtják: a „privát felhő” a vállalat saját hálózatának korszerű megnevezése, a hibrid felhő pedig a privát felhő és a nyilvános, bérelt szolgáltatások keveréke. Azért, hogy a céges adatok ne jussanak illetéktelen kezekbe, a cég- (szakma-) specifikus korpusz a privát hálózaton van, terjednek az ilyen, mintegy „személyre szabott” MI-szolgáltatások.

Na de térjünk vissza az összeomláshoz.

MI-szolgáltatások
Forrás: Rawpixel.com

Nézzünk szembe a rideg ténnyel, hogy a nyilvánosan elérhető tartalomban folyamatosan nőni fog a mesterségesen előállított tartalom részaránya, legyen szó média („szórakoztató”) vagy informatív („hivatalos”) tartalomról. Ilyenformán a betanításra használt tartalmakban is egyre több lesz a mesterségesintelligencia-eredetű, és nemcsak az MI-szolgáltatók sanda tevékenysége miatt, hanem a humán tartalomgyártók (ún. „újságírók”, „elemzők”, „szerzők”) önként és dalolva használnak fel munkájukhoz forrásanyagként (előttük ismert vagy ismeretlen mértékben és módon) mesterséges eredetű tartalmat.

A hígulás nem rontja a minőséget

Ez a körülmény két okból fontos. Egyrészt ez a fajta, úgymond „organikus” hígulás elkerülhetetlen. Másrészt, és ez a jelen írás fő mondanivalója: vannak tanulmányok, amelyek szerint az ilyen „organikusan” hígult tartalom nem rontja az MI működését.

A tanulmányok azt igenis bebizonyították, hogy a tisztán MI-eredetű betanító anyagok durván roncsolják a kimenet minőségét. A tisztán MI-eredetű betanító anyagok aránya mondhatni hatványos arányban rongál: ha n-szer visszaforgatják, akkor a kimenet minősége olyan lesz, mintha n-szer kisebb terjedelmű korpuszon tanították volna be, márpedig mind az elmélet, mind a gyakorlat szerint az MI annál jobb, minél nagyobb a korpusz.

A tanulmányok készítésekor a modellek felkészítéséhez az előző generációs modellek kimenetét használták, ami merőben idegen a gyakorlattól. Azt azért kristálytisztán bebizonyította, hogy a tisztán mesterséges agyaggal való betanítás nem célszerű, de hál’ istennek nem is történik meg. A valóságban – ez nem igazán mellbevágó – a nagy MI-szolgáltató cégek kiterjedtebb és alapos (és költséges) jellemzően és túlnyomó részt humán előfeldolgozása következtében az MI-szolgáltatások minősége nem romlik.

Az emberi beavatkozás továbbra is fontos

Más a helyzet a kisebb cégek és a közösségi (nyílt forrású) MI-eszközök terén. Ezeknek a vállalkozásoknak általában nincs elég forrásuk arra, hogy olyan mértékű előszűrést végezzenek, amely megelőzi a hosszú távú minőségromlást: a kimenet „hallucinálását” (például hamis állítások megjelenését) avagy részrehajlását (kisebbségellenes, rasszista megnyilvánulásokat).

Mesterséges intelligencia
Forrás: Wikimedia commons

Végkövetkeztetésünk szintén nem lesz nagyon meglepő: ne adjunk ki a kezünkből tisztán mesterséges eredetű anyagot, legyen az szöveg, kép vagy film. Használjuk a gépet intenzíven és okosan, de ne hagyjuk ellenőrzés nélkül: a humán „szerkesztés”, kompozíció megőrzi a mű organikus jellegét – és fenntartja a generatív mesterséges intelligencia további, hatékony használatának lehetőségét. Hasonlóan ahhoz, ahogy a reklámblokkoló nem kizárólagos alkalmazása fenntartja az ingyenes tartalom elérhetőségét.

További hírek