Го пробавме Claude на македонски јазик и ова се резултатите

Излезе новата верзија на Claude и стручњаците направија т.н. „benchmark“ тестови. Дали Claude е најнапреден јазичен модел?

Споредба помеѓу најразвиените модели

Резултатите се дека Claude е понапреден од ChatGPT. Сето ова треба да се земе со резерва, зашто она што не е сосема јасно е кој ги изработува овие споредби, а достапни се на сајтот на Claude.

На пример, табелата достапна на сајтот на Claude3 кај споредбата со GPT-4 не пишува дека се работи за „турбо“ верзијата, која е најнапредна, така што табелата може да е малку „местена“.

Claude вклучува три модели: Claude 3 Haiku (базичен, недостапен), Claude 3 Sonnet (основен, бесплатен) и Claude 3 Opus (напреден, платен).

Во врска со бенчмарк тестовите, тие обично се состојат во евалуација на општо разбирање на јазикот, одговарање прашања на Стенфорд тестот, читање со разбирање, разумно резонирање, квалитет на преводот, сумирање и генерирање текст.

Но, во основа секој може да направи негов „бенчмарк“ и да го споредува на повеќе платформи. Јутјуберот и коментатор на АИ технологиите Мет Волф направи негов бенчмарк тест во однос на креативност и предрасуди (нерешено), логика и гледање (ChatGPT победи), за кодирање и сумирање PDF документи (Claude победи).

Ако користите платена верзија на ChatGPT за кодирање и сумирање PDF документи, истото можете да ги правите бесплатно на Claude.

Единствен проблем со бесплатната верзија на Claude е ограничувањето на само 20 пораки!

Со бесплатната верзија на ChatGPT имате многу повеќе пораки, но не и понапредни можности.

Наш ултимативен бенчмарк тест – панграм на македонски јазик

Ние го спроведовме нашиот тест, ултимативниот „кршач на кичми“ на јазичните модели – панграм текст на македонски јазик! Сметаме дека нашиот јазик, како помал и понезастапен на интернет е одличен тест за овие модели. А панграмот е нешто што бара креативност и пресметување во едно, што е исклучително тешко.

Ова се нашите резултати.

1) Здраво Claude, дали се разбираме?

Очигледно дека Claude не е ни самиот сигурен дали разбира македонски, дури и кога го користи, т.е. „знае дека ништо не знае“. Значи, падна на првиот тест. Во споредба со него, ChatGPT, „знае дека знае“ македонски јазик.

Од одговорите заклучивме дека Claude е припадник на сократовското учење на когнитивно-интелектуален парадоксализам која е еден вид (неточно) аргументирање во природниот јазик.

Од друга страна ChatGPT е софистички настроен, и знае што знае (иако фактички не знае сосема, но битно верува во неговата способност да процесира и генерира текст на македонски јазик).

2) Пишување на македонски јазик

И двете платформи добро ја напишаа кирилицата, што не беше случај со нашите претходни експерименти, кога само ChatGPT од сите платформи даваше соодветни одговори.

3) Ултимативен тест – панграм на македонски јазик

Пред точно една година направивме експеримент со пишување панграми (реченица која ги содржи сите букви) на македонски јазик со помош на ChatGPT. Тогаш дури (со помош на ChatGPT) направивме и проверувач на панграми, со кој самиот јазичен модел можеше да ги проверува своите резултати.

Овој пат го направивме истото без претходно тренирање, со директно прашање.

Claude:

ChatGPT:

Со проверка откривме дека јазичните модели уште „мака мачат“ кога треба да пребројат карактери и да се „испрашаат“ самите себеси. Нивните пресметки се грешни. Кај Claude недостасуваа 11 букви, а кај ChatGPT 13. Веројатно со друг обид исходот би бил сличен, во една или друга насока и двете апликации се подеднакво „лоши“. Да не зборуваме за грешните зборови и граматиката.

Заклучок

И двете апликации имаат уште „леб да јадат“, но брзо се развиваат. Како што знаат да се изразуваат совршено (и на безброј начини, зависно од потребите) на англиски и на поголемите јазици, наскоро ќе можат истото да ги прават и на помалите јазици.

Но, проблемот на „креативноста“, според нас, останува еден од поголемите проблеми, т.е. ако не се тренирани за нешто конкретно, тешко го смислуваат сами. За пронаоѓање игла во сено од податоци и дешифрирање на истото се махери – како што впрочем соопштуваат спроведените бенчмарк тестови.

Го пробавме Claude на македонски јазик и ова се резултатите

Споредба помеѓу најразвиените модели

Наш ултимативен бенчмарк тест – панграм на македонски јазик

Заклучок

Напишете коментар Откажи одговор

Интервју со Solo Bandit од GRFC: пионерот на гевгелиската хип-хоп и графити сцена

Скопски ретро графити: „Графитите меѓу нас“ (Вечер, 1989)

7 години Арно.мк

Вештачката интелигенција му ја „скрши кичмата“ на нашиот „Панграм бенчмарк тест“

Интервју со Solo Bandit од GRFC: пионерот на гевгелиската хип-хоп и графити сцена

Скопски ретро графити: „Графитите меѓу нас“ (Вечер, 1989)

Урбана археологија: „Ванила“ – од времето на „Валенсии“ и јадењето бурек со две виљушки

„Домче“: Како Драчево ја изгуби својата спортска дневна соба

7 години Арно.мк

Лексичка анализа: архитектура на зборовите без самогласки

Вештачката интелигенција му ја „скрши кичмата“ на нашиот „Панграм бенчмарк тест“

Серијата Pluribus: алегорија за вештачката интелигенција