Го пробавме Claude на македонски јазик и ова се резултатите

Излезе новата верзија на Claude и стручњаците направија т.н. „benchmark“ тестови. Дали Claude е најнапреден јазичен модел?

Споредба помеѓу најразвиените модели

Резултатите се дека Claude е понапреден од ChatGPT. Сето ова треба да се земе со резерва, зашто она што не е сосема јасно е кој ги изработува овие споредби, а достапни се на сајтот на Claude.

На пример, табелата достапна на сајтот на Claude3 кај споредбата со GPT-4 не пишува дека се работи за „турбо“ верзијата, која е најнапредна, така што табелата може да е малку „местена“.

Claude вклучува три модели: Claude 3 Haiku (базичен, недостапен), Claude 3 Sonnet (основен, бесплатен) и Claude 3 Opus (напреден, платен).

Во врска со бенчмарк тестовите, тие обично се состојат во евалуација на општо разбирање на јазикот, одговарање прашања на Стенфорд тестот, читање со разбирање, разумно резонирање, квалитет на преводот, сумирање и генерирање текст.

Но, во основа секој може да направи негов „бенчмарк“ и да го споредува на повеќе платформи. Јутјуберот и коментатор на АИ технологиите Мет Волф направи негов бенчмарк тест во однос на креативност и предрасуди (нерешено), логика и гледање (ChatGPT победи), за кодирање и сумирање PDF документи (Claude победи).

Ако користите платена верзија на ChatGPT за кодирање и сумирање PDF документи, истото можете да ги правите бесплатно на Claude.

Единствен проблем со бесплатната верзија на Claude е ограничувањето на само 20 пораки!

Со бесплатната верзија на ChatGPT имате многу повеќе пораки, но не и понапредни можности.

Наш ултимативен бенчмарк тест – панграм на македонски јазик

Ние го спроведовме нашиот тест, ултимативниот „кршач на кичми“ на јазичните модели – панграм текст на македонски јазик! Сметаме дека нашиот јазик, како помал и понезастапен на интернет е одличен тест за овие модели. А панграмот е нешто што бара креативност и пресметување во едно, што е исклучително тешко.

Ова се нашите резултати.

1) Здраво Claude, дали се разбираме?

Очигледно дека Claude не е ни самиот сигурен дали разбира македонски, дури и кога го користи, т.е. „знае дека ништо не знае“. Значи, падна на првиот тест. Во споредба со него, ChatGPT, „знае дека знае“ македонски јазик.

Од одговорите заклучивме дека Claude е припадник на сократовското учење на когнитивно-интелектуален парадоксализам која е еден вид (неточно) аргументирање во природниот јазик.

Од друга страна ChatGPT е софистички настроен, и знае што знае (иако фактички не знае сосема, но битно верува во неговата способност да процесира и генерира текст на македонски јазик).

2) Пишување на македонски јазик

И двете платформи добро ја напишаа кирилицата, што не беше случај со нашите претходни експерименти, кога само ChatGPT од сите платформи даваше соодветни одговори.

3) Ултимативен тест – панграм на македонски јазик

Пред точно една година направивме експеримент со пишување панграми (реченица која ги содржи сите букви) на македонски јазик со помош на ChatGPT. Тогаш дури (со помош на ChatGPT) направивме и проверувач на панграми, со кој самиот јазичен модел можеше да ги проверува своите резултати.

Овој пат го направивме истото без претходно тренирање, со директно прашање.

Claude:

ChatGPT:

Со проверка откривме дека јазичните модели уште „мака мачат“ кога треба да пребројат карактери и да се „испрашаат“ самите себеси. Нивните пресметки се грешни. Кај Claude недостасуваа 11 букви, а кај ChatGPT 13. Веројатно со друг обид исходот би бил сличен, во една или друга насока и двете апликации се подеднакво „лоши“. Да не зборуваме за грешните зборови и граматиката.

Заклучок

И двете апликации имаат уште „леб да јадат“, но брзо се развиваат. Како што знаат да се изразуваат совршено (и на безброј начини, зависно од потребите) на англиски и на поголемите јазици, наскоро ќе можат истото да ги прават и на помалите јазици.

Но, проблемот на „креативноста“, според нас, останува еден од поголемите проблеми, т.е. ако не се тренирани за нешто конкретно, тешко го смислуваат сами. За пронаоѓање игла во сено од податоци и дешифрирање на истото се махери – како што впрочем соопштуваат спроведените бенчмарк тестови.

Напишете коментар

Вашата адреса за е-пошта нема да биде објавена. Задолжителните полиња се означени со *