Smegenimis įkvėptas DI siūlo naują požiūrį į mašininį samprotavimą

Smegenimis įkvėptas DI siūlo naują požiūrį į mašininį samprotavimą

0 Kommentare

4 Minuten

Smegenimis įkvėptas DI siūlo naują požiūrį į mašininį samprotavimą

Singapūre veikiančių Sapient mokslininkų komanda pristatė smegenimis įkvėptą dirbtinio intelekto architektūrą, vadinamą hierarchiniu samprotavimo modeliu (HRM). Skirtingai nuo tradicinių didelių kalbos modelių (LLM), kurie remiasi chain-of-thought (CoT) užklausomis ir milžinišku parametrų kiekiu, HRM imituoja hierarchinį ir kelių laiko mastelių informacijos apdorojimą, pastebėtą žmogaus smegenyse. Kaip nurodyta priešspausdinimo darbe, publikuotame arXiv birželio 26 d., HRM pasiekia aukštą našumą sudėtinguose samprotavimo etalonų testuose, naudodamas žymiai mažiau parametrų ir mokymo pavyzdžių. Tyrime pranešama, kad HRM veikia su maždaug 27 milijonais parametrų, apmokytu apie 1 000 pavyzdžių, kas žymiai skiriasi nuo šiuolaikinių LLM, turinčių milijardus ar net trilijonus parametrų.

Tyrimų komanda išbandė HRM pagal ARC-AGI etaloną — sudėtingą rinkinį, skirtą vertinti pažangą link dirbtinio bendrojo intelekto (AGI). HRM surinko 40,3 % ARC-AGI-1 ir 5 % ARC-AGI-2 — rezultatus, kurie lenkia keletą tuo metu palygintų modelių, įskaitant OpenAI o3-mini-high, Anthropic Claude 3.7 ir Deepseek R1. Šie duomenys rodo, kad architektūra ir mokymo strategija gali žymiai paveikti samprotavimo gebėjimus nepadidinant modelio masto ar duomenų rinkinio dydžio.

Kaip veikia HRM: hierarchinės moduliai ir iteratyvus tikslinimas

HRM pakeičia aiškų chain-of-thought dekompozicijos mechanizmą dvitakčiu praeinamuoju procesu, kuris atspindi hierarchinį apdorojimą neuroniniuose tinkluose. Aukšto lygio modulis vykdo lėtesnį, abstraktų planavimą ilgesniuose laiko masteliuose, tuo tarpu žemo lygio modulis atlieka greitus ir detalius skaičiavimus. Vietoj to, kad būtų generuojami aiškūs tarpiniai natūralios kalbos žingsniai, HRM taiko iteratyvų tikslinimą trumpų skaičiavimo protrūkių metu. Kiekvienas protrūkis įvertina, ar tęsti tikslinimą, ar pateikti galutinį atsakymą. Ši technika — iteratyvus tikslinimas — yra gerai žinoma skaitmeninė strategija, kuri didina sprendimo tikslumą nuolat atnaujinant aproksimaciją.

Kontrastas su chain-of-thought

Dauguma pažangių LLM naudoja CoT, kad sudėtingas problemas suskaidytų į žmogui suprantamus tarpinus žingsnius. CoT gali būti efektyvus, tačiau turi dokumentuotų trūkumų: trapų užduočių dekompoziciją, didelius duomenų poreikius ir papildomą vėlavimą dėl daugiažingsnio generavimo. HRM dizainas siekia apeiti šias problemas įterpdamas hierarchinę kontrolę ir tikslinimą tiesiai į praeinamąjį skaičiavimą, sumažinant poreikį plačiam prižiūrimų tarpinio žingsnio etikečių rinkiniui.

Etalonų rezultatai, reprodukcija ir pastabos

HRM parodė įspūdingą našumą užduotyse, reikalaujančiose struktūruoto samprotavimo, įskaitant beveik tobulus rezultatus sprendžiant sudėtingas Sudoku užduotis ir pagerintą labirintų kelių paiešką, palyginti su įprastais LLM. Autoriai atvėrė savo implementaciją GitHub platformoje, leidžiant nepriklausomą patikrinimą. Po pateiktų rezultatų pakartotinės reprodukcijos, ARC-AGI organizatoriai pranešė papildomų įžvalgų: dalis HRM pasiekimų, atrodo, buvo sąlygoti ne tik hierarchinės architektūros, bet ir mokymo metu taikyto tikslinimo proceso, kuris pradiniame pranešime buvo nepakankamai aprašytas. Svarbu paminėti, kad arXiv straipsnis dar nebuvo peržiūrėtas kolegų recenzavimo metu, tad platesnė bendruomenė turėtų vertinti rezultatus kaip preliminarius, kol tolimesni tyrimai ir kodo auditas nepaaiškins, kurie veiksniai yra esminiai našumui.

Kontrastas tarp HRM kompaktiško modelio dydžio ir milžiniško pastarųjų LLM leidimų masto pabrėžia nuolatinę tyrimų temą: algoritminiai ir architektūriniai patobulinimai kartais gali pakeisti gryną parametrų didinimą. Tai turi reikšmės skaičiavimo efektyvumui, energijos sąnaudoms ir pažangios DI prieinamumui tyrėjams bei institucijoms, neturintiems masyvios infrastruktūros biudžetų.

Ekspertės įžvalga

„HRM yra įdomus pavyzdys, kad struktūruotas, smegenimis įkvėptas dizainas gali suteikti konkurencingą samprotavimą be ekstremalaus masto,“ sako dr. Lina Moreno, kompiutacinė neuromokslininkė (fiktyvu). „Svarbiausi klausimai dabar yra reprodukuojamumas ir generalizacija: ar HRM tipo mokymas ir tikslinimas gali persikelti į platesnį užduočių ir duomenų rinkinių spektrą? Jei taip, galime pastebėti poslinkį link efektyvesnių ir suprantamesnių samprotavimo sistemų.“

Išvada

HRM siūlo perspektyvų, smegenimis įkvėptą alternatyvą chain-of-thought samprotavimui dideliuose kalbos modeliuose. Ankstyvi rezultatai ARC-AGI etalone rodo pagerintą samprotavimą naudojant kur kas mažiau parametrų ir mokymo pavyzdžių, tačiau išvados lieka preliminarios, kol neįvyks kolegų peržiūra ir nepriklausomi analizės darbai. Ar HRM sėkmę labiau lemia hierarchinis dizainas, ar nepakankamai dokumentuoti tikslinimo žingsniai, nulems, kaip bendruomenė priims ir išplės šį metodą. Kol kas HRM pabrėžia, kad pažangesnės architektūros ir mokymo technikos gali papildyti — ir kartais sumažinti — poreikį vis didesniam modelių mastui tobulinant DI samprotavimo gebėjimus.

Quelle: livescience

Kommentare

Kommentar hinterlassen