fbpx

Hogyan hallucinál a képi mesterséges intelligencia?

Talán nem közismert, de a műszaki, technikai tárgyakat ábrázoló, mesterséges intelligencia által generált képek tele vannak hibákkal annyira, hogy ezek a hibák egyértelműen és világosan árulkodnak a kép mesterséges eredetéről. Az alábbiakban bemutatjuk a képi hallucináció jelenségét

Amint az ma már közismert, a generatív mesterséges intelligencia működése a szöveges és képi művekben lévő elemek gyakoriságain alapul. Talán csak egyelőre, de a generatív MI nem veszi figyelembe az elemek között fennálló oksági, logikai stb. kapcsolatokat. Ezek a betanításához használt adattömegben általában érvényesülnek, így a generált művek általában érvényesnek, logikusnak, megfelelőnek tűnnek. Ha nem, ezt a jelenséget nevezik „hallucinációnak”.

2023 elején a generatív MI képek például szinte képtelenek voltak ép kezet „rajzolni”. A lábakkal könnyebben boldogultak, mert a lábujjak általában a cipőben rejtőznek. Mostanra sokat okosodtak, de van még tanulnivaló.

Miért van a férfi kezében két íróeszköz? Vagy ami nem golyóstoll, az szivar?
Miért van egy kézben két íróeszköz? Vagy ami nem golyóstoll, az szivar?
Forrás: Justin VIktor – Midjourney

A kezek is elég érdekesek, de az igazi hallucináció a pedáloknál van: azok ugyanis egymással szemben vannak a pedáltengely két oldalán.

A bicikli pedálok egymással szemben vannak a pedáltengely két oldalán.
Forrás: Midjourney – Gróf József

Így néz ki egy igazi kerékpár az MI-eredetű képhez hasonló helyzetben:

A pedálok így néznek ki egy igazi kerékpáron.

A műszaki-technikai tárgyak azért jelentenek kihívást a mesterséges intelligenciának, mert nagyságrenddel többféle ún. alaksajátosság található rajtuk, mint az emberi testen. Csak csavarfejből van vagy húszféle, és az anyákról még szó sem esett. A generálás statisztikai jellege az árnyalatok, fényességek, pixeles minták ismétlésében kimerül, az MI-nek fogalma sincs az ábrázolni kívánt alkatrészek funkciójáról, valódi kapcsolatairól.

A legdurvább hibát a Stability AI követte el a szerzőnek, amikor a képből kifelé mutató, Glock automata pisztolyt kellett volna ábrázolni egy hangya mellső lábában.

Glock automata pisztoly. A ravasz (elsütőbillentyű) a csőtorkolattal ellentétes irányban görbe, tökéletes ellentétben a valósággal
Mi a durva? Hogy a ravasz (elsütőbillentyű) a csőtorkolattal ellentétes irányban görbe, tökéletes ellentétben a valósággal
Forrás: Stability AI- Kenczler Mihály

Egyébként a valóságos pisztoly így néz ki:

Glock automata pisztoly a valóságban
Forrás: glock.com

Alkatrésznek tűnő árnyalatcsoportok alkotják a képen látható kamerának tűnő motívum alját.

Alkatrésznek tűnő árnyalatcsoportok alkotják a képen látható kamerának tűnő motívum alját.
Forrás: 123rf.com

Összehasonlításul alább egy igazi kamera fotója látható: minden a helyén, talplemez, konzol, tartócsavar.

Egy igazi kamera fotója látható: minden a helyén, talplemez, konzol, tartócsavar.
(Forrás: Sure24)

Igazán felháborító marhaságokat elektronikus termékek, nyomtatott áramköri lapok képének generálásakor követ el a mesterséges intelligencia. Honnan tudná, hogy a nyomtatott áramköri lapon a vezető csíknak nincs saját fénye, hogy a felületszerelt, miniatűr alkatrészek sokkal kisebbek a klasszikus, beültetve szerelt elemeknél?

Menet közben színt váltanak a semmivel sem kapcsolódó vezetőcsíkok – az egyetlen mentsége a képnek, hogy nem konkrét terméket ábrázol, hanem csak „hangulatfestő” illusztráció
Menet közben színt váltanak a semmivel sem kapcsolódó vezetőcsíkok – az egyetlen mentsége a képnek, hogy nem konkrét terméket ábrázol, hanem csak „hangulatfestő” illusztráció
Forrás: 123rf.com

Ugyancsak érdekes megoldása az MI-nak, hogy beültetett ellenállásokat rak egy felületszerelt integrált áramkör(nek látszó) árnyalategyüttesbe! Ilyeneknek itt semmi helye nincs.

Érdekes megoldása az MI-nak, hogy beültetett ellenállásokat rak egy felületszerelt integrált áramkör(nek látszó) árnyalategyüttesbe! Ilyeneknek itt semmi helye nincs.
Forrás: Midjourney – Gróf József

Végezetül álljon itt egy cuki kis kép, amely az okoseszközök huncut természetét illusztrálja.

Egy cuki kis kép, amely az okoseszközök huncut természetét illusztrálja, de mióta van az okostelefon alján nyomógomb?
Minden a helyén van, igaz? De mióta van az okostelefon alján nyomógomb? Forrás: Adobe Firefly – Justin VIktor

Remélem, sikerült felkelteni az Olvasó egészséges kételkedését a generatív mesterséges intelligencia iránt. A szöveget „alkotó” MI is hasonló hibákat tud elkövetni – de azokat nehezebben vesszük észre. Félreértés ne essék, számos célra rendkívül hasznos és hatékony az MI, például összefoglalók készítésére, gépi nyersfordítsra, stb. De a klasszikus közmondás igaz maradt: „Bolond lyukból bolond szél fú”, azaz a mesterséges intelligencia termékének minősége alapvetően a bemenet és prompt (a létrehozásra irányuló kifejezés) minőségétől függ.

További hírek