Mihnea Măruţă, Reîntemeierea lumii prin tehnologie

Din perspectiva ştiinţei, ChatGPT este deja depăşit. Şi nu doar ChatGPT, ci toate aplicaţiile de tip Large Language Model (LLM) care funcţionează ca prezicătoare de cuvinte şi cărora le încredinţăm tot mai mult din vieţile noastre înfricoşate. Motivul e următorul: doar prin asimilare şi producere de text, aceste modele nu au cum să se apropie de obiectivul suprem al cercetării din domeniul A.I. – construirea unei minţi digitale.

Chiar dacă presupunem că LLM-urile înţeleg ceea ce prelucrează – aşa cum susţine, de pildă, „naşul A.I.“, Geoffrey Hinton (al cărui argument este că a înţelege înseamnă consolidarea conexiunilor dintr-o reţea neuronală) –, această performanţă cognitivă, oricât ar fi de uimitoare, nu este îndeajuns pentru ca un model A.I. să interpreteze cât de cât corect realitatea fizică, darămite să se şi orienteze în mediul înconjurător. LLM-urile ştiu o sumedenie de informaţii şi sunt entităţi capabile să creeze texte cu sens, dar, dacă ar fi „aruncate“ în lume, dacă ar fi instalate, să zicem, în sistemul de operare al unui robot, nu s-ar putea descurca nici la nivelul unui copil care abia deprinde mersul biped. (Textul e discontinuu, în timp ce perceperea omenească a lumii e continuă, deci e mult mai uşor să prezici următorul cuvânt dintr-o frază decât ceea ce ţi se va întâmpla în viaţă.)

O parte a comunităţii de cercetători a priceput această limitare şi a luat-o în altă direcţie. În loc să tot perfecţioneze LLM-uri, aceşti oameni au decis să dezvolte modele care imită percepţia omenească, adică întreaga noastră situare în spaţiu, bazată mai ales pe simţul văzului. Această categorie de modele a fost denumită „World Models“, expresie pe care aş traduce-o astfel: modele lumeşti. Ceea ce sunt antrenate să înveţe aceste WM-uri este priza la realitate. Să rezumăm, pentru exemplificare, cum funcţionează modelele denumite JEPA (Joint Embedding Predictive Architecture). Un asemenea model primeşte ca input, de pildă, o parte dintr-o imagine şi i se cere să prezică (intuiască?) felul în care arată cealaltă parte din acea imagine. De exemplu, i se arată o zonă dintr-o sală cu oameni aşezaţi pe scaune şi i se cere să-şi „imagineze“ restul sălii.

Ceea ce face modelul JEPA este să construiască predicţii sub formă de reprezentări interne (embeddings), pe care şi le adaptează ulterior, după ce i se arată şi secţiunea mascată (ceea ce nu „văzuse“). Deci, inteligenţa artificială învaţă să prezică esenţialul din ceea ce „percepe“, să caute înţelesul în lucruri, să diferenţieze semnalele relevante de „zgomotul de fond“. Exact ca un om.

Fiindcă orice om prezice inconştient ceea ce urmează să perceapă şi adaptează continuu aceste predicţii în funcţie de ceea ce trăieşte cu adevărat. (E ceea ce a intuit Husserl în urmă cu mai bine de 100 de ani, când propunea conceptul de protenţie pentru conştiinţa momentului imediat următor, pentru anticiparea clipei de după această clipă.)

Astfel, noile World Models tind către modelul minţii noastre. Imaginaţi-vă următoarea scenă:

Mă aflu într-o cameră normală de bloc, aşezat pe scaun în faţa unui laptop pe care tastez acest text. Sunt conştient, printre altele, că lumina îmi vine din spate, că în stânga mea e o bibliotecă, că în dreapta e o canapea, iar în faţă, un brad împodobit. De la bucătărie, prin uşa întredeschisă, vine miros de supă care fierbe. Una dintre tălpi îmi atinge mocheta, iar degetele, ca nişte ciocănele, mi se întâlnesc cu tastatura.

Toate aceste elemente de context le percep fără să mă gândesc propriu-zis la ele, fiindcă atenţia mea se îndreaptă asupra cuvintelor pe care le scriu pe ecranul laptopului. Altfel spus, mintea mea produce continuări ale acestui text, asupra căruia se focalizează, fiind simultan conştientă de spaţiul în care mă aflu şi de componentele senzoriale ale acestui spaţiu. Asta înseamnă că, în fiecare secundă, mintea dă la o parte aşa-numitul „zgomot de fond“ (ceea ce nu e esenţial pentru moment) şi are puterea să se concentreze asupra unei teme interne. Mintea este simultan şi înăuntrul său, şi în afara sa, pe multiple niveluri şi în multiple forme. Mintea prezice fără întrerupere şi actualizează continuu ceea ce a prezis.

Şi, fiindcă minţile artificiale îndeplinesc tot mai multe dintre aceste sarcini, cred că putem vorbi despre o reîntemeiere a lumii. Într-un fel, abia acum Arhimede îşi poate primi punctul de sprijin.

Într-un fel, abia acum, când se reproduce într-o entitate digitală, omul „coboară“ cu adevărat la rădăcinile felului său unic de a fiinţa. Abia acum, străduindu-se să construiască un model de percepţie similar cu al său, omul poate ajunge la unele certitudini cu privire la propria existenţă.

Obligându-se pe sine să educe „modelele lumeşti“ de A.I., omul nu face decât să-şi pună această întrebare profund filosofică: ce semnificaţie ar putea avea ceea ce nu am perceput încă?

Altfel spus, cum îmi pot reprezenta acea parte de necunoscut despre care am, totuşi, unele informaţii? Sau: care este esenţa acelei părţi din realitate pe care încă n-am întâlnit-o, dar care se întrepătrunde cu cea pe care deja o ştiu?