Транскрипција на македонски јазик, дел 2

Во недостаток на македонски апликации за транскрипција (не дека не се работи, но нема многу заинтересираност од институтите, академиите и државата) се обидовме да најдеме алтернативи. Ова не го правиме прв пат, веќе ги имаме правено сличните анализи пред 6 месеци.

Подолу има детална анализа на неколку програми – но, бидејќи ретко кој чита текст до крај (ако воопшто стигне и до тука!), ќе го напишеме веднаш заклучокот и нашата препорака што треба да се прави.

Заклучок: За разлика од претходната анализа кога бројот на апликациите кои правеа автоматска транскрипција на македонски јазик беше мал, сега ги има во голем број. Сепак, иако македонскиот јазик е наведен како еден од постоечките јазици, честопати во реалноста тоа не е македонски. Постојат исклучоци, но ретки се.

Што може да направиме? Сметаме дека состојбата ќе се подобри и зависи пред се од ангажираноста на македонската заедница во дигитализирањето на материјалите на македонски јазик! Тоа е единствен начин македонскиот јазик да се вклучи во новите технолошки текови и да биде препознаен од светската заедница како посебен и убав – каков што ни е нам!

Анализа на 5 програми за транскрипција на македонски јазик

Сега може да преминеме на главното. Dummy текстот ни изгледаше вака, го смисливме да ги содржи сите букви од македонската азбука и да има малку „јазикокршачки“ особини:

„Ѓорѓија излезе од дома и му се пријадоа цреши. Ѕирна во чантата – имаше ѓезве, чешел и лист хартија. Љубопитно праша: „Дали некој сака кафе?“ Шумолејќи, шест жолти џуџиња фатија да играат оро. Црн облак се виеше над планината. Бегајќи од силен дожд, Ѓорѓија се скри под црешата.“

Текстот вклучува различни интерпункциски знаци: наводници, цртичка, прашалник; вклучува и различни глаголски форми, има разновидни именки, како и некои помалку вообичаени или архаични, како и дијалог.

Овој текст е добра комбинација на разновидни зборови и структури и би требало да биде корисен за тестирање на различни аспекти на препознавањето на македонскиот говор. Тој вклучува и неколку потешки зборови за изговор, што е добро за тестирање на прецизноста на системот за препознавање говор.

Ок, значи текстот е добар за проба? Штом така вели Claude.ai за текстот, одиме!

Забелешка: Треба да се земе во предвид дека со други аудио примероци со не толку чист звук, амбиентален шум, мешање звуци итн. немавме толку успех и резултатите беа значително полоши.

Сервиси кои имаат автоматска транскрипција на македонски јазик

1) Transkriptor

Еве ги резултатите со Transkriptor:

Ѓорѓија излезе од дома и му се пријадува цреши. Ѕирна во чантата имаше ѓезве чешел и лист хартија. Љубопитно праша дали некој сака кафе? Шумолење ќи 6 жолти џуџиња фатија да играат оро. Црн облак се виеше над планината.

Транскрипцијата е генерално добра, со точност од 87.18%. Најголемиот предизвик се покажа кај помалку вообичаените зборови и некои интерпункциски знаци. Системот добро се справува со препознавањето на специфичните македонски букви.

За жал Transcriptor толку ни даде бесплатни обиди (дури не ни дозволи ни да го копираме текстот), бидејќи и претходно правевме експерименти со оваа програма. Базична претплата за 300 минути месечно изнесува 5 долари.

2) Cockatoo

Oд некоја причина апликацијата го преведе автоматски текстот на англиски, иако тоа не го побаравме. Текстот е интересен за анализа само заради „креативниот“ превод.

Georgia came out of the house and he was greeted by a crush. In the bag, there were a dagger, a scythe and a sheet of paper. Curiously, he asked, if anyone wanted coffee. Shumoleiki, six yellow dwarfs, took to playing the game of throne. A black cloud was hovering over the mountain. A black cloud was hovering over the mountain. Running from the heavy rain, Georgia hid under the crush.

Врз основа на анализата, автоматскиот превод на англиски јазик покажува значителни недостатоци и неточности. Преводот не успева да го пренесе значењето и културниот контекст на оригиналниот текст, со сериозни грешки во преводот на имиња, специфични зборови и културни референци. Точноста е околу 50 проценти, што е ниско.

Оваа програма дозволува повеќе бесплатни проби, а платената верзија чини 15 долари и има неограничен број на транскрипции.

3) Turboscribe

Оваа апликација не разочара зашто очигледно не го познава доволно македонскиот јазик, иако е наведен како една од опциите за транскрипција. Ова се резултатите:

Георгија излезе од дома и му се приадоа цреши. Зирна во чантата, имаше гезве, чешел и лист хартија. Любопитно праша, дали некој сака кафе. Шумолейки, шест жолти джуджиња фатиа да играат оро. Црн облак се виеше над планината. Бегајки од силен дошт, Георгија се скри под црешата.

Транскрипцијата има точност од 67.39%. Главните проблеми се јавуваат при транскрипцијата на специфичните македонски букви и некои интерпункциски знаци. Се чини дека системот прави систематски грешки во пишувањето на одредени букви.

4) Vscoped

Повторно апликација што го меша македонскиот јазик со рускиот или бугарскиот (арам да им е!). За сега резултатите се овие:

Георгија излезе од дома и му се пријадоат среши. Дзирна во чантата, имаше гезве, чешел и лист хартија. Любопитно праша, дали некој сака кафе? Шумолејки, шест жолти джуджинја фатиа да играат оро. Црн облак се виеше над планината. Бегајки од силен дошт, Георгија се скрип од срешата.

Анализа не направивме зашто сметавме дека нема потреба.

5) Goodtape

Од нашите претходни експерименти имавме добро искуство со Goodtape, дури и од природен говор, овој пат не толку:

Георгија излезе од дома и му се пријадоат среши. Дзирна во чантата, имаше гезве, чешел и лист хартија. Любопитно праша, дали некој сака кафе? Шумолејки, шест жолти джуджинја фатиа да играат оро. Црн облак се виеше над планината. Бегајки од силен дошт, Георгија се скрип од срешата.

Транскрипцијата покажува точност од 60.87%, што укажува на значителни предизвици во точното препознавање и пренесување на македонскиот текст. Главните проблеми се јавуваат при транскрипцијата на специфичните македонски букви, кои систематски се заменуваат со фонетски слични, но неточни алтернативи. Дополнително, се забележуваат грешки во правописот на одредени зборови и неконзистентност во употребата на интерпункциските знаци.

Она што Claude се срами да го каже е – апликациите го мешаат нашиот јазик со други јазици.

Заклучокот веќе го напишавме погоре, па што чекаме – да се фатиме за работа!

Напишете коментар

Вашата адреса за е-пошта нема да биде објавена. Задолжителните полиња се означени со *