Gépi látás

A gépi látás egy gyűjtőfogalom, amelybe a környezet mindenféle számítógépes érzékelése beletartozik a különböző távolságmérő szenzoroktól a kameraképek feldolgozásán keresztül a tisztán matematikai alapú adatfeldolgozásig.

A gépi látás egyik csoportját a különböző érzékelőkből kinyert adatok alkotják. Az érzékelők különböző technológiákkal működnek, amely lehet például ultrahangos, lézeres, rádióhullámos. Az eszközök mérési tartománya és ideális működési körülménye között jelentős eltérések mutatkoznak. Alapvetően elmondható, hogy a felhasználás alapján szükséges kiválasztani a technológiát. Egy önvezető autónál nem engedhető meg, hogy a sűrű adatlekérés miatt hibás adatot közöljön a szenzor. Egy lassan mozgó garázskapu esetén bőségesen elegendő a másodpercenkénti 10 adatközlés, így akár néhány dolláros szenzorok is képesek kiszolgálni a rendszert.

Ahhoz, hogy a számítógépes rendszer által érzékelt objektumokat ne kelljen minden esetben a nulláról újra meghatározni, mi azt a technológiai megoldást szoktuk választani, hogy egy valóságos objektumot egyszer azonosítunk, azután különböző matematikai műveletekkel kiszámoljuk a lehetséges helyét és már csak azt a célterületet szükséges átvizsgálni. Természetesen ez függ a projekttől is, de általánosságban elmondható, ezzel a megoldással jelentős számítási kapacitást lehet megtakarítani, miközben a modellek megbízhatósága nőni fog. A vizuális alapú mesterséges intelligencia megoldások sokkal hatékonyabbak, ha nagy bizonyossággal tudható, hogy az adott célterületen megtalálható a keresett objektum. Nagyon sokféle különböző számítási megoldás létezik arra, hogy egy tárgy helyzetét prediktáljuk. A leginkább elterjedtebbek a KALMAN-filtert használó algoritmusok. Nekünk is van többféle saját fejlesztésű algoritmusunk, amelyek közül néhány egyszerűbb, mások jóval komplexebb feladatok megoldására képesek, hogy ne csak egy számítógépes játékban lévő ellenfelet tudjanak prediktálni, hanem egy valóságos közlekedési szituációban is megállják a helyüket.

A számítógépes képfeldolgozás magában foglalja az álló- és mozgóképek processzálását is. Természetesen egy mozgókép felfogható állóképek sorozataként is. Az elhatárolás mégis azért fontos, mert a mozgóképet alkotó képkockák között van összefüggés, adatkapcsolat. A gépi látás közül a képi feldolgozás a leginkább számításigényes, illetve a leginkább zavarérzékeny. Egy rosszul betanított neurális hálózat könnyen hibás eredményt ad, ha a betanító adathalmazhoz képest más típusú képet lát. Például egy rendszer, amelyet csak nap közben tanítottak, könnyen zavarba jön késő éjszaka vagy sűrű hóesésben. Azért, hogy az apróbb hibák elkerülhetők legyenek, a képi előfeldolgozás elkerülhetetlen. Az alkalmazott technológiák nem sokban különböznek attól, amelyet egy fotó retusálásakor használunk. A saját tapasztalatunk az, hogy komplex rendszerekben érdemes minél több egymást átfedő technológiát alkalmazni és nem csak az egyikre bízni az operatív működést. Természetesen kivétel mindig van, így néhol elkerülhetetlen az, hogy csak egy rendszert használjunk. Önvezető autóban magától értetődő dolog az érzékelők és kamerák együttes használata. Egy olyan feladatnál azonban, ahol egy fizikálisan létező tárgyat kívánunk digitálisan eltüntetni a képről, elegendő kizárólag kamerákat és helymeghatározó algoritmusokat használni. Ilyen megoldást mi is alkalmaztunk olyan projektben, amelynek egyetlen célja a valóság digitális elmaszkolása volt.