Izgrađen pomoću transformatorskih modela, koji pokreću velike jezičke modele (LLM) kao što je ChatGPT, novi alat, life2vec, obučen je na skupu podataka koji je izvučen iz cijele populacije Danske—6 miliona ljudi. Danska vlada je skup podataka stavila na raspolaganje samo istraživačima.
Alat koji su istraživači izgradili na osnovu ovog složenog skupa podataka sposoban je da predvidi budućnost, uključujući životni vijek pojedinaca, s preciznošću koja premašuje najsavremenije modele. No, uprkos svojoj prediktivnoj moći, tim koji stoji iza istraživanja kaže da se najbolje koristi kao temelj za budući rad, a ne kao cilj sam po sebi.
“Iako koristimo predviđanje kako bismo procijenili koliko su ovi modeli dobri, alat se ne bi trebao koristiti za predviđanje na stvarnim ljudima”, kaže Tina Eliassi-Rad, profesorica informatike i inauguralni predsjednik Joseph E. Aoun, profesor na Northeastern University. “To je model predviđanja zasnovan na specifičnom skupu podataka određene populacije.”
Eliassi-Rad je u projekat unijela svoju ekspertizu etike vještačke inteligencije. „Ovi alati vam omogućavaju da sagledate svoje društvo na drugačiji način: politike koje imate, pravila i propise koje imate“, kaže ona. “O tome možete razmišljati kao o skeniranju onoga što se dešava na terenu.”
Uključivanjem društvenih naučnika u proces izrade ovog alata, tim se nada da će on donijeti pristup usredsređen na ljude razvoju AI koji ne gubi iz vida ljude usred ogromnog skupa podataka na kojem je njihov alat obučen.
Ovaj model nudi mnogo sveobuhvatniji odraz svijeta kako ga žive ljudska bića od mnogih drugih modela”, kaže Sune Lehmann, autorica rada, koji je nedavno objavljen u Nature Computational Science. Istraživački brifing na ovu temu predstavljen je u isti broj časopisa.
U srcu life2vec-a je ogroman skup podataka koji su istraživači koristili za obuku svog modela. Podacima raspolaže Statistički zavod Danske, centralni organ za dansku statistiku, i, iako su strogo regulirani, mogu im pristupiti neki članovi javnosti, uključujući istraživače. Razlog zašto je tako strogo kontrolisan je što uključuje detaljan registar svakog danskog državljanina.
Mnogi događaji i elementi koji čine život i koji su navedeni u podacima, od zdravstvenih faktora i obrazovanja do prihoda. Istraživači su koristili te podatke za kreiranje dugih obrazaca ponavljajućih životnih događaja kako bi se uključili u njihov model, uzimajući pristup transformatorskog modela koji se koristi za obuku LLM-a o jeziku i prilagođavajući ga za ljudski život predstavljen kao slijed događaja.
“Cijela priča o ljudskom životu, na neki način, može se smatrati i kao ogromna duga rečenica mnogih stvari koje se mogu dogoditi osobi”, kaže Lehmann, profesor mreže i nauke o složenosti na DTU Compute, Technical Univerzitet u Danskoj i prethodno postdoktorski saradnik na Northeastern.
Model koristi informacije koje uči posmatrajući milione sekvenci životnih događaja kako bi izgradio ono što se naziva vektorskim reprezentacijama u prostorima za ugradnju, gdje počinje kategorizirati i crtati veze između životnih događaja poput prihoda, obrazovanja ili zdravstvenih faktora. Ovi prostori za ugrađivanje služe kao osnova za predviđanja koja model na kraju napravi.
Jedan od životnih događaja koji su istraživači predvidjeli bila je vjerovatnoća smrtnosti osobe.
“Kada vizualiziramo prostor koji model koristi za predviđanje, on izgleda kao dugačak cilindar koji vas vodi od male vjerovatnoće smrti do visoke vjerovatnoće smrti”, kaže Lehmann. “Onda možemo pokazati da je na kraju, gdje postoji velika vjerovatnoća smrti, mnogo tih ljudi zaista umrlo, a na kraju gdje je mala vjerovatnoća smrti, uzroci smrti su nešto što nismo mogli predvidjeti, poput automobila nesreće.”
Rad takođe ilustruje kako je model sposoban da predvidi pojedinačne odgovore na standardni upitnik ličnosti, posebno kada je reč o ekstrovertnosti.
Eliassi-Rad i Lehmann primjećuju da, iako model daje vrlo precizna predviđanja, ona su zasnovana na korelacijama, visoko specifičnim kulturnim i društvenim kontekstima i vrstama predrasuda koje postoje u svakom skupu podataka.
“Ova vrsta alata je poput opservatorije društva – a ne svih društava”, kaže Eliassi-Rad. “Ova studija je rađena u Danskoj, a Danska ima svoju kulturu, svoje zakone i sopstvena društvena pravila. Da li se to može uraditi u Americi je druga priča.”
S obzirom na sva ta upozorenja, Eliassi-Rad i Lehmann svoj prediktivni model gledaju manje kao krajnji proizvod, a više kao početak razgovora. Lehmann kaže da su velike tehnološke kompanije vjerovatno godinama stvarale ove vrste prediktivnih algoritama u zaključanim sobama. On se nada da ovaj rad može početi stvarati otvorenije, javno razumijevanje o tome kako ovi alati funkcionišu, za šta su sposobni i kako bi se trebali i ne bi trebali koristiti.
Izvor: https://phys.org/news/2023-12-ai-human-lifespan-good.html