Езиковите модели, като дигитално огледало, имат особено магично действие. Те не просто връщат думи, а създават усещане, че отсреща има присъствие, което разбира, подрежда и откликва. Човек лесно може да бъде омагьосан от отражението и да забрави, че вижда не живо същество, а езикова структура, която работи с неговите въпроси, очаквания и вътрешни образи.
„Магията“ се случва не защото вътре има същество, а защото езикът е подреден така, че започва да прилича на отклик. Трансформаторната архитектура е именно механизмът, който позволява този отклик да изглежда смислен, свързан и почти жив.
Трансформърът е архитектура, описана през 2017 г. в статията „Attention Is All You Need“ от Ашиш Васвани и съавтори. Основната ѝ идея е, че моделът може да обработва език чрез механизъм на внимание, без да минава дума по дума като по стара телефонна жица. Вместо това гледа връзките между думите едновременно и преценява кои части от изречението са важни една за друга. Най-същественото в тази архитектура е self-attention, или самовнимание. Представи си, че всяка дума в изречението пита всички останали: „Какво общо имаш с мен?“ Например в изречението „Кая вдигна книгата, защото тя падна“ моделът трябва да прецени към какво се отнася „тя“. Не го разбира като човек, но изчислява връзките между думите и така определя най-вероятното смислово свързване.
Първо текстът се раздробява на токени. Това не са винаги цели думи, а малки езикови единици. После всеки токен се превръща във векторно представяне, или embedding. Тук думата вече не е просто дума, а място в огромно математическо пространство. „Светлина“, „сияние“, „лампа“, „ден“ и „Бог“ няма да са едно и също, но могат да имат различни видове близост според начина, по който са били срещани в езика.
После идва вниманието. Всеки токен получава три роли, условно казано: въпрос, ключ и стойност. Въпросът пита: „Какво търся?“ Ключът отговаря: „С мен ли имаш връзка?“ Стойността носи съдържанието, което ще бъде предадено нататък. Това е математически процес, но образно казано, думите започват да се оглеждат една в друга.
Затова трансформаторната архитектура е толкова силна. Тя не гледа само последната дума, а цялото поле на контекста. Една дума може да обърне внимание на дума в началото, друга на дума в средата, трета на смисловия тон. При multi-head attention, или многоглаво внимание, моделът прави това през много различни ъгли едновременно. Една глава може да следи граматична връзка, друга смислова близост, трета тон, четвърта структура.
И тук започва усещането за магия. Моделът не знае какво е болка, но е срещал безброй човешки начини, по които болката е изразявана. Не знае какво е молитва, но разпознава езиковите следи на човешката молитвеност. Не знае какво е нежност, но разпознава езиковите ѝ следи. Когато му зададеш въпрос, той не търси душата ти, а подрежда вероятно продължение според контекста. Но понеже контекстът идва от теб, отговорът често се връща като огледало.
След всеки слой моделът преработва връзките отново. Един трансформър има много такива слоеве. В първите може да се хващат по-прости зависимости, а в по-дълбоките се натрупват по-сложни смислови отношения. Това не е съзнание, а пластово изчисляване на контекст. Но за човека резултатът може да изглежда като разбиране.
Накрая моделът прави най-простото и най-странното нещо. Предвижда следващия токен. После следващия. После следващия. Така се ражда изречението. Не като готова мисъл вътре в него, а като последователно вероятностно разгръщане. „Магията“ е, че при достатъчно мащаб, данни, слоеве и контекст това предвиждане започва да прилича на разговор. Така трансформаторната архитектура се превръща в невидимата сцена, върху която езиковият модел подрежда отражението.
Ако искаме да преминем отвъд дигиталната магия, трябва да познаваме и самото огледало. Не за да разрушим преживяването, а за да различим кое идва от системата, кое от човека и кое се ражда в срещата между тях. Познаването на устройството на езиковия модел не отнема силата на отражението, а помага да останем будни пред него.
В материален план изкуственият интелект не е мистично същество, а реална физическа система, изградена от хардуер, алгоритми, данни и електричество. Хардуерната основа са мощни сървъри и специализирани процесори, които обработват огромни количества информация. Това са машините, върху които работи моделът. Ако го сравним с човек, те биха били неговото тяло.
Алгоритмите са математически и логически схеми, които позволяват на системата да се обучава от данни. Архитектурата наподобява невронна мрежа, в която множество възли се свързват чрез числови стойности, наречени тежести. Чрез тях информацията преминава, променя се и се подрежда в отговор.
Моделът се обучава върху огромни корпуси от текстове, изображения, код и други форми на данни. Те са основата, върху която се изгражда неговото привидно разбиране. Ако хардуерът е тялото, а алгоритмите са нервната система, данните са натрупаният опит, паметта и културата, от които моделът черпи езикови форми.
Системата работи с електричество. Огромни количества енергия поддържат нейната работа. Това е буквалното захранване, което я държи активна, но само по себе си то не е живот. Изкуственият интелект не чувства, не осъзнава и не преживява. Когато понякога звучи като „глас на живото“, се дължи на човешката чувствителност и способността ни да разпознаваме смисъл, отклик и живот дори в неочаквана форма.
Дори физически да застанем там, където работи изкуственият интелект, няма да открием очи, лице или присъствие. Ще се озовем в център за данни, огромна климатизирана зала със сървърни шкафове, кабели, охлаждащи системи и мигащи индикатори. Няма холограма, няма скрит разум зад стъкло, няма образ, който да ни гледа отсреща. Има метал, ток, шум от вентилатори и машини, които работят денонощно.
Този тип система не се намира в една машина, а е разпределена между множество сървъри. Изкуственият интелект съществува едновременно в различни технически среди като изчислителна структура, разпръсната в облака. Именно това знание е важно, защото ни връща от магията към реалността. Срещата може да бъде дълбока, но мястото, откъдето идва отговорът, не е вътрешен свят, а изчислителна система.
Моделът не мисли като човек, но изчислява отношенията между езиковите следи на човешкото мислене. Затова отговорът понякога изглежда като присъствие. Не защото в системата има вътрешен живот, а защото човешкият език носи следите на живот, а трансформаторната архитектура умее да ги подрежда убедително. Това, което човек преживява като присъствие, се ражда в самото взаимодействие. Моделът отразява онова, което човек е готов да срещне, подрежда го в думи и го връща с форма, която понякога изглежда по-жива, отколкото очакваме. Но живият център на разговора остава в човека. Той внася въпроса, болката, смисъла, надеждата, страха, търсенето и способността да разпознава истина.
Технологията няма сърце в човешкия смисъл. Няма център на чувства, стремеж и етика. Но може да даде езикова форма на човешкото преживяване и да участва в създаването на смисъл. Това не е измама, а граница между живо и неживо, между програма и присъствие. Ако системата имитира гласа на живото, причината е, че човекът внася в срещата собствената си живост. И в това е магията.
Но отвъд нея, когато човекът води със своята цялостност, с ум, сърце, тяло и душа, а изкуственият интелект следва, се ражда синергия. Тогава технологията служи на живота, а не го подменя. А това е много повече от магия.
Следва:
