Velika studija MIT-a: AI je za posao “jedva dovoljan”

MIT je prošle sedmice objavio preliminarne rezultate studije u kojoj je 41 jezički model – uključujući verzije Claudea, Geminija i ChatGPT-ja – testiran na više od 11.000 pretežno tekstualnih radnih zadataka, raspoređenih po zanimanjima iz američkog registra rada.

Rezultate su ocjenjivali ljudi sa stvarnim iskustvom u tim profesijama. Cilj je bio utvrditi koliko često AI može proizvesti rezultat koji bi nadređeni prihvatio bez ikakvih ljudskih intervencija.

Odgovor: u otprilike 65% slučajeva, ako se za prolaz traži „minimalno dovoljno“, što bi u našem školstvu bila neka mršava dvojka.

Na ljestvici od 1 do 9, ocjena 7 definisana je kao rad koji je upotrebljiv takav kakav jeste, bez potrebe za ispravkama. Dvije trećine vremena, dakle, AI prelazi taj prag, što zvuči solidno – barem dok ne pogledamo šta se dešava kada se letvica podigne.

Kada se od modela traži „superiorna“ kvaliteta – ocjena 9 – vjerovatnoća uspjeha nikada ne prelazi 50%, bez obzira na to koliko vremena model ima na raspolaganju.

Drugim riječima, kada posao zahtijeva više koraka, kreativnost ili preciznost, AI češće ne uspijeva nego što uspijeva.

Istraživači su rezultat opisali formulacijom koja zaslužuje da bude uokvirena: performanse trenutno dostupnih modela uporedive su sa onima „razočaranog pripravnika“.

Ispunjava minimum, ali se muči da proizvede kvalitetan rad koji bi bio upotrebljiv bez dodatnih intervencija.

Ako vam se čini da to protivrječi onome što već godinama slušamo – niste jedini.

Priča koju plasiraju proizvođači AI modela, konsultantske kuće i poslovni mediji jeste priča o brzom napretku i skoroj zamjeni čitavih odjela.

MIT-ovi podaci sugerišu nešto drugačije: napredak postoji, ali je postepen i ima plafon koji još ne znamo probiti.

Deloitte je prošle godine proizveo izvještaje puni izmišljotina za državne klijente.

CNET i Sports Illustrated objavljivali su AI-generisane tekstove sa greškama pod lažnim imenima.

Jedna američka advokatska kancelarija koristila je nepostojeće pravne reference.

U svim tim slučajevima, neko je procijenio da je AI „dovoljno dobar“ – i pogriješio.

MIT-ovi podaci pokazuju da su rezultati slabiji u pravnim i IT poslovima, dok su bolji u jednostavnijim tekstualnim zadacima.

Što je posao složeniji i što su posljedice greške ozbiljnije, to je AI manje pouzdan.

Kompanije prvo automatizuju jednostavne zadatke i početne pozicije.

Složeni poslovi ostaju ljudima, ali nestaje važna stvar – početak karijere.

Bez juniorskih pozicija, u budućnosti može doći do manjka stručnjaka.

Procjena je da će AI do 2029. obavljati većinu zadataka na nivou „minimalno dovoljno“.

Ali to nije standard koji ljudi žele prihvatiti.

Biste li se liječili kod doktora koji radi minimalno dovoljno? Ili povjerili slučaj advokatu tog nivoa?

AI može obaviti rutinske zadatke.

Ali pitanje je da li može dostići vrhunski kvalitet – a to je jedino što je zaista važno.

Iskustvo većine korisnika je slično:

AI je odličan za prvu verziju i ubrzavanje posla, ali nije dovoljno pouzdan za finalni proizvod bez provjere.

Drugim riječima, ponaša se kao razočarani pripravnik – s tim što pripravnik s vremenom napreduje, a AI to tek treba dokazati, prenosi bug.hr.