Apple ir AI bendruomenės ginčas dėl dirbtinio intelekto mąstymo ribų | Technologie, Auto, Krypto & Wissenschaft – ChillBoy.de
Apple ir AI bendruomenės ginčas dėl dirbtinio intelekto mąstymo ribų

Apple ir AI bendruomenės ginčas dėl dirbtinio intelekto mąstymo ribų

2025-06-15
0 Kommentare

3 Minuten

Apple dirbtinio intelekto komanda neseniai pristatė diskusijas sukėlusį mokslinį straipsnį „Mąstymo iliuzija“, kuriame teigiama, kad šiuolaikiniai dideli kalbos modeliai iš esmės nesugeba savarankiškai logiškai mąstyti ar argumentuoti. Visgi AI tyrimų bendruomenės atsakas, ypač po naujo tyrimo, suabejojo tokiais plačiais Apple apibendrinimais ir paskatino aktyvias diskusijas apie tikrąsias dirbtinio intelekto modelių ribas ir potencialą.

Pagrindiniai argumentai: ar šiuolaikiniai AI modeliai tikrai riboti?

Ellen Lason, „Open Philanthropy“ tyrėja, pristatė atsakomąjį straipsnį „Mąstymo iliuzijos iliuzija“, kuriame tiesiogiai ginčija Apple išvadas. Remdamasi pažangiu Anthropic „Claude Opus“ modeliu, Lason pabrėžia, kad Apple tyrimo trūkumai greičiau susiję su modelio projektavimo sprendimais nei su vidinėmis AI kalbos modelių ribomis. Pasak jos, Apple tyrime pastebėtos AI spragos dažniausiai kilo dėl techninių ir konfigūracijų ypatumų.

Pagrindinė kritika Apple vertinimo metodikai

Lason išskyrė tris pagrindines Apple tyrimo problemas:

  • Ignoruoti išvesties ženklių apribojimai: Lason teigia, kad Apple modeliai nesprendė tam tikrų loginių užduočių ne dėl mąstymo stokos, o dėl griežtų ženklių (token) limitų, kurių dėka dalis atsakymų buvo nutraukta.
  • Neįveikiamos užduotys priskirtos nesėkmėms: Kai kurie galvosūkiai, tokie kaip 'Upės kirtimo' variantai, Apple tyrime buvo neįsprendžiami, bet AI atsakymai vis tiek įvertinti kaip nesėkmės, nors problemos sprendimo būti negalėjo.
  • Vertinimo sistemos ribotumai: Apple automatizuota vertinimo sistema fiksavo tik pilnai baigtus, žingsnis po žingsnio pateiktus atsakymus. Net logiškai pagrįsti ar daliniai sprendimai buvo laikomi nesėkmėmis, todėl nebuvo atskirta, kur kaltas mąstymo trūkumas, o kur – techniniai išvesties apribojimai.

Lason, norėdama įrodyti savo kritiką, pakartojo Apple testus, šįkart panaikindama ženklių limitą. Gauti rezultatai parodė, kad kalbos modeliai gali išspręsti sudėtingas logines užduotis, jei neapribojamas jų atsakymo ilgis – tai rodo, kad AI sistemų gebėjimas logiškai mąstyti priklauso nuo tinkamos konfigūracijos.

AI tikrinimas klasikiniais loginiais galvosūkiais

Apple pirminiame tyrime dirbtinio intelekto logika buvo vertinama pasitelkiant keturias klasikines užduotis: Hanojaus bokštą (paveikslėlyje aukščiau), Kaladėlių pasaulį, Upės kirtimo galvosūkį ir Šaškių perkėlimus. Šios užduotys, plačiai naudojamos ir kognityvinio mokslo, ir dirbtinio intelekto tyrimuose, sudėtingėja didėjant veiksmų skaičiui bei papildomiems apribojimams – todėl AI modeliams tenka demonstruoti kompleksinį etapų planavimą.

Apple komanda nurodė, kad AI modeliai turėjo ne tik pateikti teisingą sprendimą, bet ir aiškiai išdėstyti visą „mąstymo eigą“, kas padarė testą dar griežtesnį.

Rezultatų blogėjimas didėjant sudėtingumui

Apple tyrimas parodė, kad augant užduočių sudėtingumui, kalbos modelių tikslumas smarkiai smuko – sunkiausiuose uždaviniuose pasiekė nulį. Šie duomenys buvo interpretuojami kaip AI mąstymo galimybių griūtis sudėtingimiausiose loginiuose išbandymuose.

Bendruomenės atsakas: tikros ribos ar techniniai apribojimai?

AI tyrėjų ir socialinių tinklų bendruomenė greitai atkreipė dėmesį į galimus Apple interpretacijos trūkumus. Ekspertai pabrėžė, kad nesugebėjimas pateikti pilno atsakymo dėl ženklių apribojimų nėra tapatu logikos stokai. Neretu atveju modeliai suformuluodavo teisingą strategiją, tačiau jų atsakymams pritrūkdavo vietos. Be to, Apple vertino AI neigiamai net neįveikiamuose užduotyse, tad kilo abejonių dėl vertinimo objektyvumo.

Pasekmės ir reikšmė rinkai

Ši diskusija itin svarbi tolesniam generatyviajam AI vystymuisi, didžiųjų kalbos modelių ir pažangių AI asistentų plėtrai. Technologijų bendrovės, kurdamos AI verslui, savarankiškoms sistemoms, pažangiai paieškai, programavimui, turi tiksliai žinoti, kokios yra kalbos modelių stipriosios ir silpnosios vietos.

Tiek Apple, tiek Lason tyrimų rezultatai pabrėžia, kad AI testavimo aplinka ir vertinimo metodika yra itin svarbūs. Tobulėjant generatyviam dirbtiniam intelektui, būtina užtikrinti nešališkus, permatomus ir efektyvius AI vertinimo kriterijus, kad būtų galima realiai matuoti ir gerinti problemų sprendimo gebėjimus.

Quelle: arxiv

Kommentare

Kommentar hinterlassen