Големите јазични модели го положија Туринговиот тест?

На Арно.мк досега имаме објавено над 100 текстови поврзани со вештачката интелигенција, но за Туринговиот тест немавме подетален напис, што е наш пропуст, со оглед на тоа дека станува збор за клучен концепт кога се зборува за вештачката интелигенција.

Туринговиот тест, создаден од Алан Туринг – британски математичар, компјутерски научник и пионер во вештачката интелигенција – во 1950 година, проверува дали машина може да води убедлив разговор што човек не може да го разликува од разговор со друг човек.

Во Македонија, пред две години Магдалена Стојмановиќ – Константинов објави интересна книга „Денот кога заборавивме да плачеме“. Според авторката: „Книгата е обид да се спроведе еден вид Турингов тест, каде читателот е предизвикан да открие кој од расказите не е дело на човек, туку е создаден од софтвер за вештачка интелигенција.“

Многу автори јасно наведуваат кога користеле вештачка интелигенција, а ние како портал секогаш го истакнуваме тоа (за што понекогаш сме и остро критикувани). Се разбира дека во анализата на студијата за која зборуваме денес користевме вештачка интелигенција!

Сепак, постои значителен број луѓе кои ја користат вештачката интелигенција без да го откријат тоа пред јавноста. Од таа перспектива, целата наша денешна цивилизација, сите ние, сме учесници во најголемиот Турингов тест во историјата – дали можеме да препознаеме дело создадено од вештачка интелигенција? Со напредокот на јазичните модели, како и моделите за генерирање слики, видеа, музика…, станува речиси невозможно да го разликуваме дело на АИ од дело на човек.

Денес ви презентираме студија која тврди дека современите јазични модели веќе го имаат положено овој тест.

Наше гледиште за студијата „Големите јазични модели го положија Туринговиот тест“

Во последните неколку години, развојот на вештачката интелигенција (ВИ) привлекува сè поголемо внимание, а големите јазични модели како GPT-4.5 и LLaMa-3.1-405B стануваат клучна тема во дискусиите за тоа дали машините можат да „разговараат“ како луѓе.

Еден од главните начини за мерење на способноста на машините да ја имитираат човечката комуникација е Туринговиот тест, предложен пред повеќе од 75 години од Алан Туринг.

Но, дали овој тест, и покрај своето историско значење, сè уште е релевантен денес? Во овој текст ја разгледуваме студијата што истражува дали современите јазични модели можат да го поминат Туринговиот тест, вклучувајќи критики за тестот, осврт на Парадоксот на Моравец и паралела со филмот Blade Runner, каде се тестираат репликантите.

Туринговиот тест и неговата примена во современата ера

Во оригиналната верзија на Туринговиот тест, тестаторот разговара истовремено со два субјекти – човек и машина – и ако не може да утврди кој е кој, машината се смета за интелигентна.

Во студијата што ја анализираме, истражувачи од Универзитетот во Сан Диего користеле модифицирана верзија на тестот. Тие ги испитувале четири системи: два модерни јазични модели (GPT-4.5 и LLaMa-3.1-405B), со или без „PERSONA“ промпт, и два референтни системи – GPT-4o и класичниот ELIZA. Целта била да се провери дали машините можат да имитираат човечки разговор толку добро што тестаторот ќе биде измамен.

Резултати од студијата: Кога машините не можат да се разликуваат од луѓето

Резултатите од експериментот биле впечатливи:

  • Промптот „PERSONA“: Кога GPT-4.5 добил инструкции да се претстави како млад, интровертен човек, упатен во интернет-културата и сленг, бил препознаен како човек во 73% од случаите. LLaMa-3.1 со истиот промпт постигнал успех од 56%. Ова покажува дека добро осмислен промпт значително ги подобрува перформансите.
  • Без промпт: Моделите без „PERSONA“ промпт имале многу послаби резултати, што укажува дека упатствата се клучни за имитација на човечки стил.
  • Споредување со ELIZA: Класичниот ELIZA, како постар и поедноставен модел, постигнал успех од само 21-23%, што значи дека тестаторите лесно ги препознавале неговите механички одговори.
Критики и ограничувања на Туринговиот тест

И покрај историската важност и привлечноста, Туринговиот тест има свои ограничувања:

  • Фокус на текстуалната комуникација: Тестот ја оценува само способноста за текстуален одговор, додека интелигенцијата опфаќа и визуелна перцепција, моторички вештини, решавање сложени проблеми и емоционална интелигенција. Затоа некои сметаат дека не е сеопфатна мерка за вистинска интелигенција.
  • Имитација наспроти разбирање: Главна критика е дека успешното поминување на тестот не значи дека машината разбира или е свесна, туку само дека може да имитира човечки одговори без длабинско значење.
  • Промптовите и човечката интервенција: Студијата покажува дека успехот делумно зависи од промптот „PERSONA“. Ова поставува прашање: дали заслугата е на моделите или на луѓето што ги формулираат упатствата?
Парадоксот на Моравец: зошто некои задачи се полесни за машини?

Парадоксот на Моравец објаснува дека задачи кои луѓето ги извршуваат интуитивно, како перцепција или моторика, се тешки за машините, додека логичкото размислување и пресметките, кои нам ни се сложени, им се лесни.

Во контекст на Туринговиот тест, ова значи дека иако машините можат да имитираат текстуална комуникација, тие можеби не ја поседуваат целосната човечка интелигенција, која вклучува перцепција, моторика и емоции. Ова ја продлабочува дилемата дали успешното „измамнување“ на тестаторот е доволен доказ за интелигенција.

Референца кон филмот Blade Runner и тестирањето на репликантите

Во филмот Blade Runner, репликантите – синтетички суштества – се тестираат со „Voight-Kampff“ тестот, кој ги мери емоционалните реакции за да утврди дали некој е човек или машина.

Слично на Туринговиот тест, и овој се заснова на имитација, но со фокус на емпатија. Филмот го поставува прашањето што значи да се биде човек и дали машините можат вистински да чувствуваат емоции, дополнувајќи ги критиките за ограниченоста на Туринговиот тест во мерењето на подлабоките аспекти на интелигенцијата.

Дали Туринговиот тест е релевантен денес?

И покрај критиките, Туринговиот тест останува значајна мерка за способноста на машините да имитираат човечка комуникација. Студијата покажува дека модерните јазични модели со „PERSONA“ промпт можат да ги измамат тестаторите, достигнувајќи перформанси слични на луѓето.

Сепак, успехот во тестот не подразбира свест или разбирање. Парадоксот на Моравец потсетува дека аспекти како моторика и интуитивна перцепција остануваат предизвик за машините, па тестот не ја доловува целосната слика на интелигенцијата.

Новиот пат кон разбирање на интелигенцијата

Студијата за големите јазични модели и нивниот успех на Туринговиот тест покажува колку технологијата напреднала. Со промптот „PERSONA“, машините водат разговори толку слични на човечките што тестаторите не можат да ги разликуваат.

Но, Туринговиот тест мери само текстуална имитација, а не целосна интелигенција. Во време на брз технолошки развој, потребни се нови пристапи што ќе ја истражат интелигенцијата пошироко, разгледувајќи и етичките, општествените и практичните импликации од употребата на овие технологии.

Оваа студија поттикнува нови прашања: како да ги интегрираме овие системи во општеството на етичен начин, искористувајќи ги нивните предности, а минимизирајќи ги ризиците од манипулација?

Напишете коментар

Вашата адреса за е-пошта нема да биде објавена. Задолжителните полиња се означени со *