A gyerekek tanulási módszerével fejlesztik a mesterséges intelligenciát

Eddig képek és szövegek tömegével tanították a mesterséges intelligenciákat. Most a gyerekek tanulását próbálják meg algoritmizálni a kutatók, hogy önállóan tanulni képes MI-ket állítsanak elő.

Ha jobban belegondolunk, a csecsemők, a kisgyerekek hihetetlen és elképesztő fejlődésen mennek keresztül növekedésük során. Gügyögő kisbabákból pár év alatt hihetetlenül fejlett lényekké válnak, válunk, elképesztő kommunikációs és alkalmazkodó képességről téve tanúbizonyságot.

Hihetetlenül sokan kutatták a csecsemők, a gyerekek fejlődését, számtalan elmélet lát, látott  napvilágot erről a folyamatról. Néhány tudós azt állítja, hogy a nyelvelsajátítás nagy része asszociatív tanulással magyarázható; ennek során a hangokat érzetekhez társítjuk, hasonlóan ahhoz, ahogyan a kutyák a csengő hangját az ételhez kapcsolják. Mások azt állítják, hogy vannak az emberi elmébe beépített öröklött, már a tudatosságot megelőző képességek, amelyek a nyelvek formáját alakítják, s amelyek döntő fontosságúak a tanulásban.

Megint mások azt állítják, hogy a kisgyermekek az új szavak megértését más szavak megértésére építik.

New York Times című lap egy potenciális forradalmi áttörésről számol be ezen a területen. Brenden Lake a New York University pszichológusa, és felesége Tammy Kwan saját kislányukon, Lunán végeztek kísérleteket. A tizenegy hónapos kísérletsorozat során az emberi és a mesterséges intelligenciára szakosodott tudósházaspár minden héten egy órán keresztül egy kamerát erősített Lunára, s játék közben a gyermek szemszögéből rögzítette az eseményeket. Céljuk az, hogy az így készült videók segítségével olyan nyelvi modellt fejlesszenek ki, amely ugyanazt az érzékszervi inputot használja, mint amit egy kisgyermek – mondhatni, egy LunaBotot szeretnének készíteni.

Az emberi elmét az MI segítségével megérteni számos akadályba ütközik, ami nem csoda, hiszen a kettő merőben különbözik egymástól. A modern nyelvi és multimodális modellek – mint például az OpenAI GPT-4 és a Google Gemini – neurális hálózatokon épülnek fel, kevés beépített struktúrával, és főként a megnövekedett számítási teljesítmény és az egyre bővülő adatbázisok felhasználásának eredményeként fejlődnek.

A Meta legújabb nagy nyelvi modelljét, a Llama 3-at több mint tízezer milliárd szó felhasználásával képezték ki. Ehhez képest egy átlagos ötéves gyermek alig több mint 300 ezer szóval találkozik.

A jelenlegi mesterséges intelligenciák képesek elemezni a képek képpontjait, a szövegek karaktereit, viszont nem képesek megkóstolni a sajtot vagy a gyümölcsöket, nem éhesek vagy szomjasak, nem érzik a hideget és a meleget, holott ezek az érzékszervi tapasztalatok alapvető fontosságúak a gyerekek tanulása során.

A kutatók ugyan mindent megtesznek azért, hogy a gyermek teljes érzékelési folyamát kódokká alakítsák, de az érzékelés, az érzetek döntő fontosságú aspektusai elkerülhetetlenül kimaradnak.

Amit látunk, az csak az aktív tanulási folyamat pusztán töredéke

mondta az amerikai lapnak Michael Frank, a Stanford pszichológusa, aki évek óta próbálja kamerával rögzíteni az emberi tapasztalatokat. Laboratóriuma jelenleg több mint 25 gyerekkel dolgozik, köztük Lunával, hogy rögzítse az otthoni és a társas környezetben szerzett tapasztalataikat.

Az ember nem egyszerű adatfelvevő, mint az MI-k neurális hálói, hanem tudattal, szándékkal, akarattal rendelkező lény. Minden, amit látunk, minden tárgy, amit megérintünk, minden szó, amit hallunk, párosul az adott pillanatban meglévő hiedelmeinkkel és vágyainkkal.

Mély kapcsolat van aközött, amit tanulni próbálunk, és a beérkező adatok között

mondta Linda Smith, az Indiana University pszichológusa.

A jelenlegi modellek csupán jóslásokra képesek. Befogadják és feldolgozzák az inputokat, s ebből adódóan megadják az általuk legjobbnak vélt választ.

Az igazán nagy probléma az MI-k képzése során az emberi szándék modellezése. Az újabb kutatások ezt a képzési adatok strukturálásával próbálják meg elérni. A jelenleg legfejlettebb MI-k fejlesztői az adatmennyiséget igyekeznek növelni. Dr. Smith és laboratóriuma viszont kevesebb adatból több “értelmet” próbál meg kinyerni.

Az MI-k kialakítását, fejlesztését és felhasználást komoly fogalmi problémák is szegélyezik.

A külső felhasználó számára a fejlett MI-k nagyon is emberinek tűnhetnek – annak ellenére, hogy nem emberi módon jöttek létre.

A közelmúltban a Google és a Microsoft laboratóriumaiból származó új modellek féreérthető (szinte emberi) állításokat tettek a tudatosságról, az intelligenciáról és az érzékelő képességről.

Márciusban a Claude 3, az Anthropic nevű MI kutató startup legújabb modellje hatalmas vitát kavart, amikor egy véletlenszerű, pizzafeltétekről szóló, egymástól független dokumentumok hosszú listájába rejtett mondat elemzése után azt a gyanút fogalmazta meg, hogy tesztelés alatt áll. Az ilyen híreknek persze gyakran inkább marketingfogás szaga van, mintsem objektív tudományos ereje. Viszont rávilágít arra a nagyon is emberi tulajdonságra, amely értelmet szeretne tulajdonítani az MI-knek.

Az emberi elmék azonban más módon is közelednek a virtuális elmékhez. Tom Griffiths, a Princeton University kognitívitással foglalkozó kutatója fordított utat javasol. Szerinte az emberi intelligencia korlátainak leírása és hasonló korlátokkal rendelkező modellek építése segíthet abban, hogy magát az emberi intelligenciát is jobban megértsük. Így “értelmesebb”, emberibb, hatékonyabb MI-k megalkotására nyílna lehetőség.

Februárban Brenden Lake és munkatársai létrehozták az első olyan mesterséges intelligencia modellt, amelyet egy gyermek tapasztalatai alapján képeztek ki –  felhasználva a Michael Frank laboratóriumában több mint tíz év alatt rögzített videókat. A modell leírását a Science című folyóiratban publikálták. A cikk szerint a modell 60 órányi felvétel alapján képes volt a különböző pillanatokat szavakkal összekapcsolni. Ha beírják a modellbe, hogy „homok”, a modell felidézi azt a 11 évvel ezelőtti pillanatot, amikor a kisfiú, akinek az élményeit felhasználták az MI betanítására, az édesanyjával a tengerparton járt. Ha az „autó” szót írjuk be, az MI  előhív egy olyan videót, amelyet egy ülésmagasítóban ülő kisfiúra rögzített kamerával vettek fel.

A tanításhoz használt videók régiek és szemcsések, és az adatok meglehetősen gyéren állnak rendelkezésre. Viszont az MI képessége, hogy a világ valamiféle fogalmi leképezését kialakítsa, azt sugallja, hogy a nyelvi ismeretek felfogása főként asszociációkon keresztül lehetséges.

Az MI-k ilyenfajta megközelítése és tanítása nagyon messzire vezető kérdéseket vet fel. Mennyire lehet emberivé tenni a mesterséges intelligenciát? Egyáltalán: mi tesz minket emberré?

Ha ez a tudományterület eljut oda, hogy az MI-ket csak az egyetlen gyermek által látott adatok alapján képezzük ki, és azok jól teljesítenek a teszteken, az hatalmas tudományos eredmény lenne

kommentálta a helyzetet Brenden Lake.

További hírek