2 Minuten
Generatyvinio dirbtinio intelekto sunkumai sprendžiant sudėtingas užduotis: Apple tyrimo įžvalgos
Apple atliktas tyrimas atskleidė reikšmingus modernių generatyvinių dirbtinio intelekto (DI) modelių gebėjimų spragas sprendžiant sudėtingas problemas. Tyrimas rodo, kad šie DI modeliai nesunkiai susitvarko su vidutinio sudėtingumo užduotimis, tačiau susiduria su sunkumais spręsdami sudėtingesnes užduotis. Tai išryškina pagrindinį skirtumą tarp kompiuterinio apdorojimo ir žmogaus mąstymo procesų.
DI našumo vertinimas skirtingo sudėtingumo lygmenimis
Apple tyrėjų komanda analizavo didelių loginių modelių (Large Reasoning Models, LRM) tokių kaip Claude 3.7 Sonnet Thinking ir DeepSeek-R1 veikimą. Šie modeliai buvo testuojami kontroliuojamoje aplinkoje sprendžiant klasikines logines užduotis, pavyzdžiui, Hančio bokšto ar perkėlimo per upę galvosūkius. Tikslas buvo įvertinti ne tik galutinius dirbtinio intelekto pateiktus atsakymus, bet ir jų vidinius sprendimo procesus.
Tyrimo duomenys parodė, kad paprastesnėse užduotyse tradiciniai kalbos modeliai (LLM), neturintys specifiškai įdiegtų loginių sprendimo strategijų, veikia tiksliau ir efektyviau bei sunaudoja mažiau kompiuterinių resursų. Didėjant užduočių sudėtingumui, modeliai, naudojantys struktūruotas sprendimo strategijas, tokias kaip „minčių grandinės“ (chain of thought), pasiekia geresnių rezultatų. Visgi susidūrus su itin sudėtingomis problemomis, visų modelių tikslumas visiškai žlugo, nepaisant pakankamų skaičiavimo resursų.
Netikėti DI elgsenos modeliai sprendžiant užduotis
Išsami vidinių sprendimo grandinių analizė atskleidė nenumatytus elgsenos pokyčius. Pradžioje, augant užduoties sudėtingumui, DI modeliai ilgesnį laiką naudojo sprendimams atlikti. Tačiau priartėjus prie nesėkmės ribos, šis procesas trumpėjo, nors papildomi resursai vis dar buvo prieinami.
Be to, net pateikus aiškias instrukcijas žingsnis po žingsnio, modeliai dažnai nesugebėjo teisingai jų įvykdyti sudėtingose situacijose. Tai išryškina esminį loginio mąstymo gebėjimų trūkumą. Pastebėta ir tai, kad modeliai geriau atliko pažįstamas logines užduotis nei tas, kurios buvo naujos ar mažiau žinomos, kas rodo didelę priklausomybę nuo mokymo duomenų, o ne nuo universalių sprendimo gebėjimų.
Išvados
Apple tyrimas pabrėžia dabartinius generatyvinio dirbtinio intelekto modelių apribojimus atkuriant žmogui būdingą loginį mąstymą, ypač sprendžiant sudėtingas užduotis. Šios išvados rodo būtinybę toliau tobulinti DI sprendimus siekiant sumažinti atotrūkį tarp mašinų ir žmogaus pažinimo gebėjimų.
Kommentare