Додека институциите спијат: направивме OCR алгоритам за стари весници на македонски кој ги победи комерцијалните гиганти

Замислете стар, пожолтен весник од 1956 година пред кој најскапите светски софтвери за дигитализација се целосно немоќни, гледајќи во стариот македонски оловен слог само дамки и неразбирливи хиероглифи. Откако комерцијалните гиганти крахираа, решивме да создадеме сопствен „дигитален археолог“ – алатка базирана на вештачка интелигенција која не само што ги прочита избледените кирилични букви, туку и го претвори целиот распаднат весник во жив документ во кој можете да пребарувате збор по збор. Со овој технолошки експеримент докажавме дека кога институциите спијат, доволно е малку инает и дигитална умешност за нашата колективна меморија засекогаш да се спаси од депоата на заборавот.

Правливи архиви и дигитални бескорисни фајлови

Понекогаш мирисот на распадната хартија и правот од оловниот слог во библиотеките се чувствуваат како мирис на пораз. Како човек кој со години се занимава со архивирање и истражување на стари весници, често се фаќам себеси како гледам преку плотот, кон соседите. Во Србија и Бугарија, на пример, луѓето се чини дека се грижат за нашата историја многу повеќе отколку ние самите. Нивните онлајн библиотеки се перфектни дигитални трезори: скеновите се одлични, OCR-от (препознавањето на текст) е беспрекорен, а пребарливоста на документите е на највисоко ниво. Тие дури имаат дигитализирано и спасено стари списанија од Македонија кои ние овде физички ги немаме.

А кај нас? Нашите институции имаат по два-три различни сајта – како доаѓала која власт, си правела нов сајт за сликање, а старите останувале да скапуваат неизбришани. Линковите се мртви. Кога по некоја космичка случајност конечно ќе налеташ на архивски линк што работи, скеновите се со толку слаба резолуција што се нечитливи, а за вграден OCR не станува ни збор. И да бидеме на јасно: не се криви библиотеките ниту луѓето што работат таму. Виновникот е немањето државна стратегија, нултата грижа и отсуството на елементарни стандарди.

Затоа, ние неколкумина ентузијасти кои подолго време работиме на ова поле, решивме да ги земеме работите во свои раце. Се обидуваме да ги спасиме старите весници – оние малку што останале и не се сомелени во „Комуна“ или не завршиле на буниште поради институционална негрижа – преку создавање на своевидна временска капсула на социјалните мрежи. Рачунаме, додека е жив Закерберг, оваа архива некако ќе опстои.

Но, ни недостасуваше систематичност. Најмногу од сè, ни недостасуваше добар OCR за македонски јазик. Кога комерцијалниот софтвер ќе се соочи со стари текстови, нерамномерноста на хартијата, искрзаноста на буквите и стариот печат, тој едноставно крахира. Од друга страна, забележавме дека вештачката интелигенција (како Gemini или ChatGPT) вади совршена транскрипција на текстот кога ќе ѝ се даде слика – без грешки и халуцинации.

Така се роди идејата: Што ако го споиме „слепиот“ OCR со „мозокот“ на јазичниот АИ модел?

Ова е насловната (еве и pdf за ваши експерименти) врз која го правевме експериментот – екстремно тешка за комерцијалните OCR софтвери. А кога сме кај тоа, ѕирнете го и текстот за ова издание на „Вечер пред Вечер“

Експериментот: Граматика против геометрија

Ја зедовме насловната страница на „Вечер“ од 8 јануари 1956 година. Прво ги ставивме најмоќните комерцијални и бесплатни OCR софтвери на тест. Резултатите беа поразувачки.

Индустрискиот гигант Adobe Acrobat доживеа дигитална шизофренија, претворајќи го зборот „зацврстување“ во „ЗЗЦ!ТТ)С’Гу\Ј31З.Ње“. Бесплатните алатки како OCR2Edit беа подобри, но недоволно.извадија тотални халуцинации – фразата „Етиопија и Египет“ ја прочитаа како „Ети-оџа бе Синот“. Скапиот ABBYY FineReader пак, структурно се распадна, читајќи хоризонтално низ колоните и создавајќи логички мртов текст.

Нашиот модел даде подобри резултати, но не бевме сосема задоволни.

Fine-tuning на моделот

Она што дополнително се обидовме да го направиме е скриптата да ги чита и зборовите поделени со цртички како една целина, со што се зголемува вредноста на „пребарливоста“ на документот. Ова го добивме со “mixed results”, заради лошиот квалитет на печатот и неправилната положба на цртичките кои изгледаат како долни црти.

Целата хифенација во овој пасус е поместена и ја збунува машината, сепак, нашиот OCR има 4 „грешки“, помалку за разлика од другите кои прават речиси 20 грешки.

Наш OCR: Татковината наша се радува. Се ра дува народот наш, зашто и ова патување
на претседателот Тито ги даде оче куваните резултати. Зашто и ова патување претставуваше еден од оние мостови, што ги сврзуваат земјите и наро дите, што водат кон меѓусебно разбирање и зацврстување на мирот и конструктивната соработка во светот, во духот на мирнат и плодна коегзистен ција.

Онлајн OCR: “Гатковицата цеца се радува. Се ра.дува народот наш, зашто и ова патува-ње на претседателот Тито ги даде оче.куваните резултати. Зашто и ова цалу-вање претставуваше еден од оние мос-тови, тито ги серзувоат земјите и наро-дите, што водат коч меѓусебно разбира.-хе и зацврстување на мироти кон-структивната соработка во светотво ду-Хот на мирнат и плодна коетзистен.ција.

ABBY Fine Reader: ТаткочзиЈпата наша се редува. Се ра_дува народот наш, заигго и ова патува-ње иа претседателот Тито ги даде оче-куваните резултати. Зашто и ова пату-вање претставуваше еден од оние мос-тови, пгго ги сврзуваат земјите и наро-дите, што водат кон меѓусебно разбира-ње и зацврстување на мирот и кон-структиЕната оорабстка во светот.во ду-хот на мирнат и плодна коегзистен-циж.

И други пасуси, каде што ABBY направи повеќе грешки (во однос на распоредот на речениците), па не го ни пренесуваме:

Наш AI-OCR: Татковината се радува, што гордиот „ Галеб “ и сече певливите морски води и наближува кон родните брегови. Се радува татковината, се радува народот наш, што во својата топла прегратка час поскоро ќе го прими својот најголем син, претседателот Тито, по успешната пријателска посета BO пријателски земји. (нема грешки освен празно место кај еден наводник, што од аспект на пребарување не игра улога)

OCR2Edit: Татковицата. се радува, што гордиот „Галеб“з:и сече пехлините мороки води и веближува коч родните брегоци. Се радува таткоретата, се радува народот наш, што во својата топла прегратка час поскоро Ќе го поими својот најголем син, претседателот Тито, по успешната пријателска посета зо пријателски „земи. (10 грешки)

Наш AI-OCR: Искуството од минатите години, а особено од последнава треба да бидат патоказ за натамошно поголемо користење на собирите на избирачи како вистинска трибина на трудбениците во натамошниот развиток на системот на комуналного уредување и социјалистичката демократија. Да се надеваме дека годинава почесто Ќе ги среќаваме народните одборници од општините меѓу своите избирачи. (1 грешка)

OCR2Edit: Искуството од жинатите години, а осо-бено од последнава треба да бидат тпато-каз за натамошно тоголежо користење ка собирите на избирачи каќо вистинска три-бина на. трудбениците — во ката мошна-гот развиток на системот на комуналното уредување и социјалистичката демократија. Да се надеваме дека годинава почесто Ќе ги среќаважње народните одборнаци од отаитините и околците мебу своште… (15 грешки)

Границите на можностите

Потоа, го тестиравме нашиот АИ модел до самите граници на можностите. Направивме скрипта која требаше да го изведе следново:

Визуелниот алгоритам (Google Vision) да го прочита целиот пасус како суров текст и да ги мапира неговите точни координати на хартијата.
Скриптата да го прати тој суров текст до јазичниот модел (Gemini) со наредба: „Исчисти ги OCR грешките, задржи го стариот македонски правопис“.
Моделот да го врати перфектно лекторираниот текст, а скриптата да го залепи како невидлив блок точно преку стариот пасус во PDF од весникот.

И тука удривме во ѕид. Самата вештачка интелигенција призна дека овој совршен спој е парадокс. За да го направи тоа, машината мораше да жртвува едно од двете: или „граматиката“ (точноста на зборовите) или „геометријата“ (структурата на весникот). Ако АИ додадеше или споеше зборови за да го поправи правописот, текстот физички се издолжуваше и преминуваше преку колоните и фотографиите, уништувајќи го форматот на весникот.

*Плавите линии е текстот кој е совршено препознаен, но со уништена геометрија на страницата.*

Микро-архив: компромисот што победува

Сфативме дека за една историска архива, геометријата е поважна од совршената граматика. Направивме чекор назад и искористивме наменска скрипта базирана само на просторната интелигенција на Google Vision, присилувајќи ја да ја почитува вертикалната анатомија на весникот.

Резултатот? Извадивме поголем процент на точност и од најскапите комерцијални гиганти. Ова е нашиот резултат во целост (16 стр.)

Квантитативна анализа на OCR алатки: „Вечер“ (1956)

Критериум за евалуација	Adobe Acrobat	OCR2Edit (Бесплатна)	PDF24 (Бесплатна)	ABBYY FineReader	Нашата AI скрипта (Vision)
Точност на текст (Препознавање букви/зборови)	< 10%	~40%	~40%	~55% – 60%	~85%
Задржување структура (Следење колони и прелом)	0%	~40%	~65%	~15%	~95%
Архивска пребарливост (Употреблива вредност)	~5%	~15%	~15%	~30%	~92%

4. Денес (направи сам: дигитална археологија)

Живееме во илузија дека она што е скенирано е веќе спасено. Но, скенирана слика без пребарлив текст (Searchable PDF) е само дигитална гробница – мртва информација до која ниту еден истражувач нема да стигне.

Бидејќи државните институции немаат стратегија, а комерцијалните алатки нè изневерија, одлучивме скриптата која ја создадовме да ја споделиме со сите. Ако имате стари весници или документи, подготвивме детално упатство како самите да ги претворите во жива архива.

Внимание: Потребни се технички познавања, но и ние ги немаме! Сѐ што не ви е јасно – прашајте го генијалецот, јазичниот модел кој го имате на еден клик!

На крај: нов почеток?

Ги покануваме сите со техничко познавање да ја пробаат скриптата и да ја подобрат.

Архивирањето не е пасивно редење на фајлови во фолдери; тоа е чин на отпор против заборавот. „Вечер“ од 8 јануари 1956 година сега е спасен. Скриените духови на минатото – од најавата за турската филмска ѕвезда Нериман Коксал до текстовите за Реноар – сега имаат дигитален глас. Уште колку илјадници страници скапуваат по депоата, чекајќи некој да ја напише вистинската скрипта? Кога веќе системот спие, ние мораме да бидеме дигиталните археолози кои ги кротат алгоритмите. Време е да продолжиме со копање.

Додека институциите спијат: направивме OCR алгоритам за стари весници на македонски кој ги победи комерцијалните гиганти

Правливи архиви и дигитални бескорисни фајлови

Експериментот: Граматика против геометрија

Fine-tuning на моделот

Границите на можностите

Микро-архив: компромисот што победува

4. Денес (направи сам: дигитална археологија)

На крај: нов почеток?

Напишете коментар Откажи одговор

„Духот на ВБУ“: како еден АИ модел може да стане хроничар на македонската музика

Попова Шапка како психотерапија: дневник на еден лаптоп-алпинист

Архива на електричниот пркос: дефинитивен попис на македонските бит-состави (ВИС-ови) во 1960-тите

Интервју со Solo Bandit од GRFC: пионерот на гевгелиската хип-хоп и графити сцена