Vještačka inteligencija je pobijedila ljude u čitanju s usana

Par novih studija pokazuje da mašina može razumjeti ono što govorite bez da čuje zvuk.

Čitanje usana je veoma teško, ovisno o kontekstu i poznavanju jezika, kao što to čini na vizualnim tragovima. Ali istraživači su pokazali da se strojno učenje može koristiti za razlučivanje govora iz tihih video zapisa učinkovitije od profesionalnih čitača usana.

U jednom projektu, tim sa Odsjeka za kompjuterske nauke Univerziteta u Oksfordu razvio je novi sistem umjetne inteligencije nazvan LipNet. Kao što je Quartz naveo, njegov sistem je izgrađen na skupu podataka poznatom kao GRID, koji se sastoji od dobro osvijetljenih isječaka ljudi koji čitaju kazne od tri sekunde. Svaka rečenica se zasniva na nizu riječi koje slijede isti uzorak.


Tim je koristio taj skup podataka za obuku neuronske mreže, sličnu vrsti koja se često koristi za prepoznavanje govora. U ovom slučaju, međutim, neuronska mreža identifikuje varijacije u obliku usta tokom vremena, učeći da poveže tu informaciju sa objašnjenjem onoga što se kaže. AI ne analizira snimke u odlomcima, već razmatra cijelu stvar, omogućujući joj da stekne razumijevanje konteksta iz rečenice koja se analizira. To je važno, jer ima manje oblika usta nego zvukova koje proizvodi ljudski glas.

Kada je testiran, sistem je uspio identificirati 93,4 posto riječi ispravno. Ljudski volonteri za čitanje usana koji su tražili da obavljaju iste zadatke identifikovali su samo 52,3 posto riječi ispravno.

Ali kako izvještava New Scientist, drugi tim iz Odsjeka za inženjerske nauke u Oksfordu, koji je radio sa Google DeepMindom, ugrizao je prilično težak zadatak. Umjesto upotrebe urednog i konzistentnog skupa podataka kao što je GRID, koristi se serija od 100.000 video klipova snimljenih sa BBC televizije. Ovi videozapisi imaju mnogo širi raspon jezika, sa daleko više varijacija u osvjetljenju i položajima glave.



Koristeći sličan pristup, Oxford i DeepMind tim su uspeli da stvore AI koji je bio u stanju da identifikuje 46.8% svih riječi ispravno. To je takođe daleko bolje od ljudi, koji su zabilježili samo 12,4 posto riječi bez greške. Jasno je da postoji mnogo razloga zašto je preciznost niža, od osvjetljenja i orijentacije do veće složenosti jezika.

Razliku po strani, oba eksperimenta pokazuju da AI značajno nadmašuje ljude na čitanju usana, a nije teško ni zamisliti potencijalne aplikacije za takav softver. U budućnosti, Skype bi mogao popuniti praznine kada je pozivatelj u bučnom okruženju, recimo, ili bi osobe sa poteškoćama sa sluhom mogle zadržati svoj pametni telefon tako da „čuje“ ono što neko govori.

Izvor: https://www.technologyreview.com/s/602949/ai-has-beaten-humans-at-lip-reading/

Leave a Reply

Your email address will not be published. Required fields are marked *