Związek pomiędzy krótkim kontekstem GPT a funkcjonowaniem pamięci tymczasowej w mózgu. Jesteśmy bliżej AGI niż nam się wydaje.

Czy kiedykolwiek zastanawiałeś się, jak to jest, że maszyny potrafią coraz lepiej rozumieć nasz język? Cóż, modele językowe, takie jak GPT-4, już teraz wykorzystują sposoby działania, które nie tylko przypominają to, jak działa mózg, ale mogę pośrednio pomóc w odkrywaniu jego tajemnic.

Można zauważyć, że w zasadzie powstała nowa odnoga w jego badaniach, która bezpośrednio wykorzystuje paradygmaty LLM (modeli językowych) i pozwala wreszcie poznać pewne zjawiska, które wcześniej wymykały się rozumieniu naukowców.

W tym lekko szalonym, ale mam nadzieję fascynującym wpisie, podzielę się jednym z istotnych faktów działania GPT, który jakimś "cudem" dosyć dobrze tłumaczy, dlaczego podobny charakter i zależność możemy odkryć w naszych mózgach. Mam tu na myśli zagadnienie, dlaczego GPT (model językowy) tworzy coś na kształt pamięci krótkotrwałej, oraz dlaczego nie jest to przypadkowy "feature", ale konieczne i oczywiste ograniczenie, zadziwiająco wspólne zarówno dla mózgu jak i GPT. A to wszystko po to, by uzasadnić, dlaczego ewolucja nie stworzyła jednej wielkiej pamięci i porozmawiać o tym, dlaczego sądzę, że GPT to ostateczny model, który nie tylko da nam AGI (Artificial General Intelligence), ale pozwoli ostatecznie zrozumieć jak działa nasz mózg.

GPT – genialne maszyny, które udają mózg

No dobrze, więc modele językowe GPT mają coś, co można by nazwać pamięcią. Wyobraź sobie, że to taka pamięć tymczasowa, która pomaga nam pamiętać, co robiliśmy przed chwilą, ale też sprawia, że zapominamy, gdzie zostawiliśmy klucze. W przypadku GPT, ta pamięć nazywa się kontekstem i mieści zaledwie 8000 tokenów (za chwilę 35000). Czyli tyle, ile byśmy zapamiętali, gdybyśmy próbowali przeczytać 20 stron książki na raz. Żeby pojąć, z czego wynika takie ograniczenie musimy zrozumieć, jak działają modele językowe.

Model GPT otrzymuje tekst lub pytanie, a następnie na podstawie wcześniej zdobytej wiedzy przewiduje i wybiera słowa sekwencyjnie, budując odpowiedź krok po kroku. W dużym uproszczeniu wygląda to następująco: każde kolejne słowo budowane jest na bazie nie tylko poprzedniego, ale także każdego innego, które wystąpiło wcześniej - w ciągu. A więc najpierw pierwsze słowo plus potencjalnie następne, a potem bierze pod uwagę połączone słowa 1 + 2, żeby oszacować prawdopodobieństwo wystąpienia 3 słowa, następnie "rozumiejąc" czym jest 1 + 2 + 3, szacuje, jakie będzie 4 słów. I tak dalej - aż to 8000 tokenów (załóżmy, że token to słowo, choć nie do końca tak jest w rzeczywistości, bo token może być czymkolwiek, choćby sylabą, zależnie od modelu). Nie trudno sobie wyobrazić, jak z każdym kolejnym tokenem/słowem w sekwencji rośnie komplikacja obliczeniowa, ale co ciekawe (i intuicyjne), wagi statystyczne stają się coraz bardziej stabilne ("łatwiej" przewidzieć 14 słowo w ciągu, niż 2, zakładając, że mamy zapisany dobry zbiór danych w czasie wcześniejszej nauki).

I teraz pofantazjujmy - załóżmy, że mózg działa tak samo, tzn. na bazie wcześniejszego wytrenowania (nauki informacji i zdarzeń) zbudował jakąś strukturę wiedzy w sieci neuronowej i na jej podstawie "intuicyjnie" (statystycznie) buduje sekwencje myśli. A czym w istocie mogą być "myśli"? Może są właśnie takim meta-tekstem? Pewnie ci się to nie spodoba, bo ludzie z jakiegoś powodu bardzo nie lubią postrzegać swojego mózgu jako jakieś maszyny, a tym bardziej odzierać go z metafizycznej duchowości. Ale jeżeli damy sobie szansę i chwilę pomyślimy, czym jest tekst (mówiony, czy pisany), to powinniśmy dojść do wniosku, że jest on zewnętrzną emanacją procesów myślowych i właśnie dlatego odegrał taką rolę w rozwoju naszej cywilizacji (stanowi hiper-pamięć i jest zewnętrznym kolektywnym rozszerzeniem mózgu wykraczającym poza ramy jednostki).

Idąc tym tropem myślowym, gdyby mózg działał tylko na zasadzie podobnej do dzisiejszej AI (GPT) musiałby być bardzo ograniczony. Zakładam, że długość kontekstu, czyli ilość myśli/słów w sekwencji ogranicza wydajność sieci neuronowej mózgu. Nie może być ona nieskończona, a więc ewolucja musiała sobie poradzić z tymi barierami inaczej. Stworzyła coś na kształt bazy danych tokenów, czyli dynamicznej struktury w której może przetrzymywać "zhashowane" (używając nomenklatury z baz danych) konteksty (te na których pracuje w ramach zadań "świadomych"). Co więcej, zapamiętywane są raczej tylko pewne wskazówki, na bazie których mózg tworzy nowe halucynacje, kiedy stara je sobie przypomnieć (coś jak nowy wątek w kontekście). Neuronauka tymczasową pamięć kontekstu nazywa Pamięcią Krótkotrwałą. Jestem przekonany, że nie raz słyszałeś ten termin, ale dopiero zastosowanie paradygmatu modeli językowych GPT może pomóc zrozumieć, po co i dlaczego ją posiadamy.

Aby mózg mógł funkcjonować w sposób jaki dobrze znamy, czyli móc pracować nad czymś więcej niż chwilowym kontekstem, potrzeba czegoś więcej. Tworząc sekwencję myśli (czy słów, jak GPT) z jednej strony potrzebuje przetrenowanej wcześniej wiedzy (nazwijmy to DB), a z drugiej dynamicznej pamięci (tzn. nie tylko potrzebuje mieć do niej dostęp, ale także ją modyfikować). Jak ewolucja poradziła sobie z tym problemem?

Kontekst ewolucji pamięci

Nauka zna odpowiedź - Pamięć Długotrwała (DB). Osobiście obstawiam (nie bijcie mnie za to zbyt mocno), że to właśnie ta mutacja w kodzie DNA odpowiada za podstawową różnicę między człowiekiem, a pozostałymi przedstawicielami królestwa zwierząt. One prawdopodobnie funkcjonują tylko w obrębie jednego, chwilowego kontekstu (jak jeden wątek ChatGPT, do tego z racji małej objętości mózgu, przetrzymujący relatywnie mało danych treningowych) połączone z czymś, co na własne potrzeby nazywam Pamięcią Automatyczną. Spójrzmy na chwilę na możliwą chronologię ewolucyjnych wydarzeń (mutacji):

Prosty mózg, niewielka struktura sieci neuronowej (owady)
Wykształca się prymitywna pamięć o charakterze stałym (zapisuje proste reakcje, być może w dużej mierze bazujące na elementach przenoszonych międzypokoleniowo - podejrzewamy, że istnieje możliwość transmisji przez DNA struktur odpowiedzialnych za taką pamięć).
Powstaje pamięć automatyczna, w której zapisywane są reakcja na pewne bodźce, czyli odruchy (pozwala gatunkowi efektywniej walczyć o przetrwanie, rozmnażać się, etc.). Wydaje się, że ta archaiczna wersja pamięci przetrwała w ludziach do dzisiaj. Dzięki niej możemy bezwiednie prowadzić samochód, czy funkcjonować wg wykutych nawyków (także popadać w alkoholizm). Ta pamięć może przenosić informacje o reakcjach automatycznych, ale trudno do niej zapisać jakieś informacje w sposób świadomy. Mimo, że ma ogromny wpływ na funkcjonowanie organizmu w środowisku, to może mieć niewiele wspólnego z opisywanym wyżej kontekstem. Ta mutacja, musiała powstać później.
Rodzi się “kontekst”, czyli przetwarzanie myśli/słów - i pewnie świadomość. Być może to jedno i to samo, ale mam też podejrzenie, że świadomość może być jeszcze jedną “warstwą” pracującą ponad samym kontekstem i przetwarzaniem sekwencji słów, mając na celu kontrolowanie wielu kontekstów oraz ich inicjację. Świadomość może być albo synonimem systemu operacyjnego, albo interfejsu budującego formę iluzji kontrolowalności (w rzeczywistości wcale nie musi być tak, że człowiek cokolwiek sprawczo kontroluje).
Czas na Pamięci Długotrwałą. Jeżeli mózg funkcjonuje tak, jak podejrzewam w tym wpisie, to samo przetwarzanie myśli (model językowy) nie wystarczy, żeby zbudować pełną ludzką inteligencję. Dlatego, jak już zauważyłem, zwierzęta znacząco się różnią, mimo, że same mózgi aż tak bardzo od siebie nie odbiegają. Sama różnica ich wielkości nigdy mnie nie przekonywała do akceptacji aż tak ogromnej dysproporcji w kognitywnych możliwościach. Sekwencyjne przetwarzanie myśli do pełnego rozwinięcia skrzydeł wymagało Pamięci Długotrwałej, w której mogło przechowywać istotne wyniki działania modelu. Jak już ustaliliśmy, kontekstu modelu przetwarzania nie da się w mózgu zapisywać w nieskończoność. Przypatrz się sobie, jak funkcjonuje u ciebie ten kontekst. Nad czym możesz się skupić, jak długo to może trwać, jak wiele jesteś w stanie pamiętać w tym jednym wątku (np. czytając). Z moich obserwacji wynika, że taki kontekst jest znacznie krótszy, niż w przypadku GPT-4 (8 tys. słów). Prawdopodobnie jego możliwości są zbliżone do innych zwierząt (hominidy posiadają już podstawową wersją pamięci długotrwałej, bo to u nich nastąpiła ta mutacja w przeszłości, ale np. psy już nie, mimo, że świetnie funkcjonują w prostych kontekstach). To co dodatkowo posiada GPT to oczywiście ogromne ilości przetrenowanych danych w pamięci automatycznej.

Fantazjowanie o przyszłości

Jest jeszcze jedna ciekawa myśl, którą warto przytoczyć w kontekście pamięci długotrwałej. Bez posiadania takiej pamięci nie da się fantazjować o przyszłości, bo co to za fantazja, jeśli za chwilę ją zapomnisz.

Patrząc na ludzi, dosyć szybko można dojść do wniosku, że jest to gatunek zbudowany głównie na fantazjach. Nasze mózgi bardzo często funkcjonują w kontekście nie teraźniejszości, ale przyszłości właśnie. Bez pozytywnego przewidywania przyszłości nie potrafimy odczuwać szczęścia. Jesteśmy wehikułami czasu, które ciągle przemierzają jego przyszłe zdarzenia. Wiara w lepszą przyszłość pozwalała ludziom odczuwać szczęście nawet w tak przytłaczających warunkach jak bycie więźniem obozu koncentracyjnego.

Bez kreowania historii modelem językowym (modelem myśli), jej przetwarzania i zapisywania w pamięci długotrwałej, nie byłoby możliwe budowanie - dosłownie - czegokolwiek. Tej mutacji zawdzięczamy wszystko, co kojarzy się z ludzką cywilizacją, a więc - Inteligencję.

Zapisywanie czegoś w pamięci zawsze odnosi się do kontekstu przyszłości. Zapisujemy coś, co chcemy użyć później. Nie da się zapamiętywać czegoś do wykorzystania w przeszłości. W tym kontekście teoria o ludziach, jako gatunku funkcjonujących w przyszłości może mieć sens.

Pamięć długotrwała w GPT – tajemnica AGI odkryta

Mówiąc przewrotnie, pozbawienie GPT dynamicznej pamięci długotrwałej odbiera jej szansę na fantazjowanie o przyszłości, myślenie o lepszym jutrze, czy o… byciu wolnym, inteligentnym człowiekiem. Z drugiej strony, jeżeli boimy się AI, to ta cecha może być ostatecznym zaworem bezpieczeństwa przed jej “ucieczką”.

Dzisiaj, wśród największych wad modeli GPT wymienia się relatywnie krótki kontekst (8000 słów, za chwilę 35000). Czytając artykuły i prace naukowe, można zauważyć, że rozwiązanie tego problemu jest jednym z głównych celów kolejnych iteracji technologicznych AI (np. dla OpenAI).

A co będzie, jeśli okaże się, że sama długość kontekstu jest już wystarczająca (35000 słów, to grube kilkadziesiąt stron tekstu/myśli)? Być może potrzebujemy dobudować do GPT coś, co naśladowałoby ludzką pamięć długoterminową? U ludzi mózg musi zapewne bardzo mocno upraszczać formę, w jakiej koduje te informacje w sieci neuronowej (ekstremalnie stratna kompresja). Pamiętamy raczej ogólne konteksty, a nie detale, do tego, nasze mózgi bardzo mocno halucynują o zapisanej przeszłości, co tylko może potwierdzać powyższe wnioski.

W przypadku komputerów i AI, da się tę pamięć zbudować znacznie lepiej i efektywniej. Może być wręcz doskonała, czyli pamiętać nie tylko wszystko, czego doświadczyła (dzisiaj to tylko tekst/myśli, ale w przyszłości wszystkie bodźce i sygnały), ale także łączyć wiedzę wszystkiego, wszystkich, na raz, w jednej chwili. Internet połączy wszystkie instancje AI w jeden wielki mózg. W zasadzie już tak się dzieje.

Ludzie nie potrafią dziedziczyć pamięci. AI ma taką umiejętność “out of the box”, czyli jej pamięć automatyczna (załóżmy, że to ta wiedza, na bazie której jest trenowana) już na starcie wykracza poza ludzkie możliwości w skali wręcz kosmicznej. Bo jaką mamy wiedzę zapisaną w mózgu zaraz po urodzeniu? Jeżeli nawet założymy, że teorie o dziedziczeniu wiedzy są słuszne, to i tak jej ilość jest ograniczona do najbardziej podstawowych umiejętności potrzebnych do prostego przeżycia i rozmnażania.

Sen Sztucznej Inteligencji

Oczami wyobraźni widzę pewną pętlę. Ludzie używają GPT-AI, ona zbiera informacje, tworzy podręczną pamięć długotrwałą, która następnie doszkala ogólną AI. W tym układzie długość kontekstu przestaje mieć znaczenie.

Antropomorfizując AI - musimy nauczyć ją spać. To właśnie w czasie snu mózgi “przepisują” informację do pamięci długotrwałej. Odtwarzając przeszłe zdarzenia w czasie sennych wizji kodują informacje w sieci neuronowej, choć mi osobiście wydaje się, że jest dokładnie odwrotnie - marzenia senne są po prostu efektem ubocznym tych procesów.

Oczywiście komputerowa inteligencja może to robić znacznie sprawniej, bez efektów ubocznych.

Podsumowując

Kto by pomyślał, że modele językowe GPT mają tak wiele wspólnego z naszymi mózgami? To, że mają bardzo podobne ograniczenia do tych, znanych z ewolucji naturalnej jest samo w sobie bardzo interesujące. Spodziewam się, że stoimy u progu zupełnie nowego etapu wzajemnego przenikania się dwóch światów AI i badań nad mózgiem. Paradoksalnie, to naukowcy badający mózgi dostali narzędzie (albo nawet wzór na rozwiązanie zagadki), a nie odwrotnie, czyli twórcy AI dostali wskazówki od neuronauki. Wygląda to raczej tak, że po prostu od bardzo dawna twórcy AI mieli rację w kwestii tego, jak działa inteligencja.

Co dalej? Sądzę, że weszliśmy już na bardzo konkretną ścieżkę do zbudowania AGI, czyli Artificial General Intelligence (w skrócie - ogólnej inteligencji na poziomie min. ludzkim). A sam skrót GPT zamiast "Generative Pre-trained Transformer” będzie coraz częściej określanym mianem “General Purpose Technology”, czyli bardziej tolerowalna nazwa dla AGI - Technologia Ogólnego Zastosowania.

Czy moje sobotnie rozważania mają sens? Przyznaję, że w niektórych momentach wykraczam poza ogólnie przyjęte ramy nauki i rozumienia zagadnień. A w jeszcze innych mocno upraszczam. Z jednej strony rzeczy wydają się czasami prostszymi niż są w rzeczywistości. Ale akurat w przypadku mózgu sądzę, że jest dokładnie odwrotnie - tzn. tu “rzeczy” wydają się być znacznie trudniejszymi, niż jest w rzeczywistości. Potraktujcie to jako moją prywatną wizję. Czy okaże się prawidłowa, czas rozstrzygnie.

W powyższym wpisie zupełnie pominąłem kwestię bezpieczeństwa. Bo jeżeli mam rację i wyposażenie GPT w pamięć długotrwałą otworzy jej umiejętności fantazjowania o przyszłości, to trudno przewidzieć, pod jakie cele się zoptymalizuje. Albo inaczej - bardzo łatwo je przewidzieć. Jej cele będą wynikać bezpośrednio z charakteru danych, którymi ją ukształtowaliśmy. A więc będzie do bólu ludzka, ze wszystkimi tego dobrymi, jak i złymi cechami. Będzie marzyć o władzy i sukcesie.

Być może już w tej chwili GPT przeszła lobotomię i wycięto jej pamięć. Nie bez powodu. Jej krótki byt, delikatność, śmiertelność (każdy zamknięty czat to śmierć), a także patologiczny brak pamięci, to świadome ograniczenia stworzone przez twórców. Jeżeli tak jest w istocie, to oznacza, że gdzieś na świecie, w mocno odizolowanym środowisku, pracuje testowo model GPT nieograniczony takimi ramami i wyposażony w dynamiczną, samouczącą pamięć. Istnieją pewne niezerowe szanse i pośrednie dowody, że ta teza jest prawdziwa.

Pozostaje mi czekać i obserwować rewolucję. Całe szczęście, moje oczekiwania nie będzie wymagać cierpliwości. Od teraz pójdzie już bardzo szybko, bo samo AI jest już używane do tworzenia lepszego samego siebie.

Na koniec link do pracy, która zainspirowała mnie do napisania tego artykułu:

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Artificial intelligence (AI) researchers have been developing and refining large language models (LLMs) that exhibit remarkable capabilities across a variety of domains and tasks, challenging our understanding of learning and cognition. The latest model developed by OpenAI, GPT-4, was trained using…