Istraživači testiraju da li vještačka inteligencija razumije književnost
Istraživači iz Škole za inženjering Kolumbijskog univerziteta u Njujorku bave se ovim pitanjem pomoću novog, etički zasnovanog okvira evaluacije.
“Prije nego što možemo stvarno vjerovati analitičkim sposobnostima velikih jezičkih modela, potrebni su nam dokazi o tome šta oni mogu, a šta ne mogu da urade“, kažu istraživači, te dodaju da
ako veliki jezički modeli treba da služe kao alati za ljudsko istraživanje, “prvo moramo razumjeti dubinu i granice njihovih analitičkih sposobnosti, uključujući domene poput naracije i književnosti“.
Studija je procjenjivala performanse najrazvijenijih jezičkih modela — GPT-4, Claude-2.1 i LLaMA-2-70B — u zadatku sumiranja kratke priče. Za razliku od mnogih prethodnih, evaluacija koje su se oslanjale na javno dostupne tekstove koji mogu biti uključeni u podatke za obuku modela, ovaj projekat je uključio kontrolisani, originalni skup podataka.
Istraživači su sarađivali direktno sa piscima, koji su priložili svoje neobjavljene kratke priče. Pisci su zatim ocijenili kvalitet izvoda koje su proizveli modeli.
Pomoću kvantitativnih i kvalitativnih metoda zasnovanih na teoriji naracije, analiza je pokazala da su sva tri modela napravila greške tačnosti u više od 50 odsto slučajeva i da su postojano imali teškoće sa specifičnošću i tumačenjem složenog podteksta ili nelinearnih narativnih struktura.
“Može izgledati da modeli razumiju priču, ali su njihovi izvodi nepredvidivi pošto se oslanjaju na vjerovatnoće. Vješt ljudski književni analitičar bi pružio dosljedno jake uvide, ali čak i najbolji model je samo otprilike 50 odsto uspješan u pouzdanoj analizi bilo koje priče“, kažu istraživači.
Ovi nalazi naglašavaju ograničenja trenutnih velikih jezičkih modela u intelektualnim i kreativnim kontekstima koji zahtevaju pažljivo čitanje i interpretativnu osetljivost.
Iako takvi sistemi mogu služiti kao korisna sredstva, istraživači upozoravaju da se ne treba oslanjati na njih u cilju suptilne književne analize ili drugih zadataka koji zahtevaju ozbiljno kontekstualno razumijevanje. Daje se podrška ljudskoj, stručnoj evaluaciji.
Više od empirijskih nalaza
Etička razmatranja su bila integralni dio studije. Pisci su imali potpun uvid u korišćenje njihovog rada, dobili su nadoknadu za svoj doprinos, a njihova intelektualna svojina je pažljivo zaštićena.
Projekat se fokusirao na razumijevanje i analizu naracije, a ne na generisanje teksta, odražavajući “posvećenost odgovornoj istraživačkoj praksi sa poštovanjem”.
Projekat predstavlja novu metodologiju evaluacije jezičkih modela na sadržaju za koji je garantovano da će biti izuzet iz podataka za njihovu obuku.
Direktnim radom sa stručnjacima, u ovom slučaju profesionalnim piscima, studija demonstrira pristup koji omogućava pouzdaniju procjenu interpretativnih i analitičkih sposobnosti velikih jezičkih modela. Ovaj okvir nudi ponovljiv model za buduće istraživanje o razumijevanju naracije i drugim oblicima stručne evaluacije.
“Nadamo se da će stručni ljudski uvid usmjeravati način na koji procenjujemo velike jezičke modele, sa ljudima u centru tehnološkog razvoja”, kažu autori studije, prenosi Telegraf.