Додека институциите спијат: направивме OCR алгоритам за стари весници на македонски кој ги победи комерцијалните гиганти

Замислете стар, пожолтен весник од 1956 година пред кој најскапите светски софтвери за дигитализација се целосно немоќни, гледајќи во стариот македонски оловен слог само дамки и неразбирливи хиероглифи. Откако комерцијалните гиганти крахираа, решивме да создадеме сопствен „дигитален археолог“ – алатка базирана на вештачка интелигенција која не само што ги прочита избледените кирилични букви, туку и го претвори целиот распаднат весник во жив документ во кој можете да пребарувате збор по збор. Со овој технолошки експеримент докажавме дека кога институциите спијат, доволно е малку инает и дигитална умешност за нашата колективна меморија засекогаш да се спаси од депоата на заборавот.

Правливи архиви и дигитални бескорисни фајлови

Понекогаш мирисот на распадната хартија и правот од оловниот слог во библиотеките се чувствуваат како мирис на пораз. Како човек кој со години се занимава со архивирање и истражување на стари весници, често се фаќам себеси како гледам преку плотот, кон соседите. Во Србија и Бугарија, на пример, луѓето се чини дека се грижат за нашата историја многу повеќе отколку ние самите. Нивните онлајн библиотеки се перфектни дигитални трезори: скеновите се одлични, OCR-от (препознавањето на текст) е беспрекорен, а пребарливоста на документите е на највисоко ниво. Тие дури имаат дигитализирано и спасено стари списанија од Македонија кои ние овде физички ги немаме.

А кај нас? Нашите институции имаат по два-три различни сајта – како доаѓала која власт, си правела нов сајт за сликање, а старите останувале да скапуваат неизбришани. Линковите се мртви. Кога по некоја космичка случајност конечно ќе налеташ на архивски линк што работи, скеновите се со толку слаба резолуција што се нечитливи, а за вграден OCR не станува ни збор. И да бидеме на јасно: не се криви библиотеките ниту луѓето што работат таму. Виновникот е немањето државна стратегија, нултата грижа и отсуството на елементарни стандарди.

Затоа, ние неколкумина ентузијасти кои подолго време работиме на ова поле, решивме да ги земеме работите во свои раце. Се обидуваме да ги спасиме старите весници – оние малку што останале и не се сомелени во „Комуна“ или не завршиле на буниште поради институционална негрижа – преку создавање на своевидна временска капсула на социјалните мрежи. Рачунаме, додека е жив Закерберг, оваа архива некако ќе опстои.

Но, ни недостасуваше систематичност. Најмногу од сè, ни недостасуваше добар OCR за македонски јазик. Кога комерцијалниот софтвер ќе се соочи со стари текстови, нерамномерноста на хартијата, искрзаноста на буквите и стариот печат, тој едноставно крахира. Од друга страна, забележавме дека вештачката интелигенција (како Gemini или ChatGPT) вади совршена транскрипција на текстот кога ќе ѝ се даде слика – без грешки и халуцинации.

Така се роди идејата: Што ако го споиме „слепиот“ OCR со „мозокот“ на јазичниот АИ модел?

Ова е насловната (еве и pdf за ваши експерименти) врз која го правевме експериментот – екстремно тешка за комерцијалните OCR софтвери. А кога сме кај тоа, ѕирнете го и текстот за ова издание на „Вечер пред Вечер
Експериментот: Граматика против геометрија

Ја зедовме насловната страница на „Вечер“ од 8 јануари 1956 година. Прво ги ставивме најмоќните комерцијални и бесплатни OCR софтвери на тест. Резултатите беа поразувачки.

Индустрискиот гигант Adobe Acrobat доживеа дигитална шизофренија, претворајќи го зборот „зацврстување“ во „ЗЗЦ!ТТ)С’Гу\Ј31З.Ње“. Бесплатните алатки како OCR2Edit беа подобри, но недоволно.извадија тотални халуцинации – фразата „Етиопија и Египет“ ја прочитаа како „Ети-оџа бе Синот“. Скапиот ABBYY FineReader пак, структурно се распадна, читајќи хоризонтално низ колоните и создавајќи логички мртов текст.

Нашиот модел даде подобри резултати, но не бевме сосема задоволни.

Fine-tuning на моделот

Она што дополнително се обидовме да го направиме е скриптата да ги чита и зборовите поделени со цртички како една целина, со што се зголемува вредноста на „пребарливоста“ на документот. Ова го добивме со “mixed results”, заради лошиот квалитет на печатот и неправилната положба на цртичките кои изгледаат како долни црти.

Целата хифенација во овој пасус е поместена и ја збунува машината, сепак, нашиот OCR има 4 „грешки“, помалку за разлика од другите кои прават речиси 20 грешки.

Наш OCR: Татковината наша се радува. Се ра дува народот наш, зашто и ова патување
на претседателот Тито ги даде оче куваните резултати. Зашто и ова патување претставуваше еден од оние мостови, што ги сврзуваат земјите и наро дите, што водат кон меѓусебно разбирање и зацврстување на мирот и конструктивната соработка во светот, во духот на мирнат и плодна коегзистен ција.

Онлајн OCR: Гатковицата цеца се радува. Се ра.дува народот наш, зашто и ова патува-ње на претседателот Тито ги даде оче.куваните резултати. Зашто и ова цалу-вање претставуваше еден од оние мос-товитито ги серзувоат земјите и наро-дите, што водат коч меѓусебно разбира.-хе и зацврстување на мироти кон-структивната соработка во светотво ду-Хот на мирнат и плодна коетзистен.ција.

ABBY Fine Reader: ТаткочзиЈпата наша се редува. Се ра_дува народот наш, заигго и ова патува-ње иа претседателот Тито ги даде оче-куваните резултати. Зашто и ова пату-вање претставуваше еден од оние мос-товипгго ги сврзуваат земјите и наро-дите, што водат кон меѓусебно разбира-ње и зацврстување на мирот и кон-структиЕната оорабстка во светот.во ду-хот на мирнат и плодна коегзистен-циж.

И други пасуси, каде што ABBY направи повеќе грешки (во однос на распоредот на речениците), па не го ни пренесуваме:

Наш AI-OCR: Татковината се радува, што гордиот Галеб “ и сече певливите морски води и наближува кон родните брегови. Се радува татковината, се радува народот наш, што во својата топла прегратка час поскоро ќе го прими својот најголем син, претседателот Тито, по успешната пријателска посета BO пријателски земји. (нема грешки освен празно место кај еден наводник, што од аспект на пребарување не игра улога)

OCR2Edit: Татковицата. се радува, што гордиот „Галеб“з:и сече пехлините мороки води и веближува коч родните брегоци. Се радува таткоретата, се радува народот наш, што во својата топла прегратка час поскоро Ќе го поими својот најголем син, претседателот Тито, по успешната пријателска посета зо пријателски „земи. (10 грешки)

Наш AI-OCR: Искуството од минатите години, а особено од последнава треба да бидат патоказ за натамошно поголемо користење на собирите на избирачи како вистинска трибина на трудбениците во натамошниот развиток на системот на комуналного уредување и социјалистичката демократија. Да се надеваме дека годинава почесто Ќе ги среќаваме народните одборници од општините меѓу своите избирачи. (1 грешка)

OCR2Edit: Искуството од жинатите години, а осо-бено од последнава треба да бидат тпато-каз за натамошно тоголежо користење ка собирите на избирачи каќо вистинска три-бина на. трудбениците — во ката мошна-гот развиток на системот на комуналното уредување и социјалистичката демократија. Да се надеваме дека годинава почесто Ќе ги среќаважње народните одборнаци од отаитините и околците мебу своште(15 грешки)

Границите на можностите

Потоа, го тестиравме нашиот АИ модел до самите граници на можностите. Направивме скрипта која требаше да го изведе следново:

  1. Визуелниот алгоритам (Google Vision) да го прочита целиот пасус како суров текст и да ги мапира неговите точни координати на хартијата.
  2. Скриптата да го прати тој суров текст до јазичниот модел (Gemini) со наредба: „Исчисти ги OCR грешките, задржи го стариот македонски правопис“.
  3. Моделот да го врати перфектно лекторираниот текст, а скриптата да го залепи како невидлив блок точно преку стариот пасус во PDF од весникот.

И тука удривме во ѕид. Самата вештачка интелигенција призна дека овој совршен спој е парадокс. За да го направи тоа, машината мораше да жртвува едно од двете: или „граматиката“ (точноста на зборовите) или „геометријата“ (структурата на весникот). Ако АИ додадеше или споеше зборови за да го поправи правописот, текстот физички се издолжуваше и преминуваше преку колоните и фотографиите, уништувајќи го форматот на весникот.

Плавите линии е текстот кој е совршено препознаен, но со уништена геометрија на страницата.
Микро-архив: компромисот што победува

Сфативме дека за една историска архива, геометријата е поважна од совршената граматика. Направивме чекор назад и искористивме наменска скрипта базирана само на просторната интелигенција на Google Vision, присилувајќи ја да ја почитува вертикалната анатомија на весникот.

Резултатот? Извадивме поголем процент на точност и од најскапите комерцијални гиганти. Ова е нашиот резултат во целост (16 стр.)

Квантитативна анализа на OCR алатки: „Вечер“ (1956)

Критериум за евалуацијаAdobe AcrobatOCR2Edit (Бесплатна)PDF24 (Бесплатна)ABBYY FineReaderНашата AI скрипта (Vision)
Точност на текст
(Препознавање букви/зборови)
< 10%~40%~40%~55% – 60%~85%
Задржување структура
(Следење колони и прелом)
0%~40%~65%~15%~95%
Архивска пребарливост
(Употреблива вредност)
~5%~15%~15%~30%~92%
4. Денес (направи сам: дигитална археологија)

Живееме во илузија дека она што е скенирано е веќе спасено. Но, скенирана слика без пребарлив текст (Searchable PDF) е само дигитална гробница – мртва информација до која ниту еден истражувач нема да стигне.

Бидејќи државните институции немаат стратегија, а комерцијалните алатки нè изневерија, одлучивме скриптата која ја создадовме да ја споделиме со сите. Ако имате стари весници или документи, подготвивме детално упатство како самите да ги претворите во жива архива.

Внимание: Потребни се технички познавања, но и ние ги немаме! Сѐ што не ви е јасно – прашајте го генијалецот, јазичниот модел кој го имате на еден клик!

На крај: нов почеток?

Ги покануваме сите со техничко познавање да ја пробаат скриптата и да ја подобрат.

Архивирањето не е пасивно редење на фајлови во фолдери; тоа е чин на отпор против заборавот. „Вечер“ од 8 јануари 1956 година сега е спасен. Скриените духови на минатото – од најавата за турската филмска ѕвезда Нериман Коксал до текстовите за Реноар – сега имаат дигитален глас. Уште колку илјадници страници скапуваат по депоата, чекајќи некој да ја напише вистинската скрипта? Кога веќе системот спие, ние мораме да бидеме дигиталните археолози кои ги кротат алгоритмите. Време е да продолжиме со копање.

6 thoughts on “Додека институциите спијат: направивме OCR алгоритам за стари весници на македонски кој ги победи комерцијалните гиганти

  1. Пред да се објавуваат бомбастични наслови (напр. „Додека институциите спијат…“, „Откако комерцијалните гиганти крахираа…“ и слично), добро би било претходно да се провери фактичката состојба.
    проверете на:
    https://slvesnik.com.mk/besplaten-pristap-do-izdanija.nspx
    таму ги имате дигитализираните изданија на „Службен весник на РМ“ од 1945 до 2001 (подоцнежните изданија веќе се подготвувани со дигитална техника).
    Проектот на дигитализацијата е започнат во првата половина од 2010 година и завршен за 12 месеци и тоа со тогашни, „стари“ комерцијални алатки. За технолошките предизвици може да се расправа надолго.
    Толку, за волја на вистината!
    Тоа не значи дека младите не треба да „гризат“ и да се искажуваат, но сепак, малку почит и кон постарите – „врелата вода во бојлерот“ е откриена одамна.

    1. Почит за „Службен весник“, го видовме и OCR е сосема солидно направено (а трудот голем!). Пред да ви одговориме општо, ќе ви одговориме конкретно. Направивме споредба на OCR на „Службен весник“ од 21.01.1949 година на првиот пасус лево. Можете истото да го направите сами, алатката е бесплатна и достапна на сите.

      Ова е вашиот OCR:
      „Ракописите се испраќаа! во дупликат на адреса, ‘Службен весник на НИ Македонка” Пошт. фах 51: Скопје. Ракописите не се враќаа!. 1елефон на редакцијата и администрацијата 696“ (5 грешки)

      Ова е нашиот OCR: „Ракописите се испраќаа (фали „т“) во дупликат на адреса, “Службен весник на НР Македонија” Пошт. фах 51: Скопје. Ракописите не се враќаат. Телефон на редакцијата и администрацијата 696 (1 грешка)

      Поентата е ова: OCR го чита „НИ Македонка“, но ВИ знае дека логично се работи за „НР Македонија“ и го исправа и му враќа на OCR изменета верзија. Се надевам дека ќе ја препознаете вредноста на алаткава, дури и во нејзина бета верзија.

      Сега малку поошто: „Службен весник“ е изолиран случај! Нашата поента (и критика на институциите) е: она што и треба на Македонија е итна и масовна дигитализација и правење електронски библиотеки со пребарливи PDF документи на илјадниците списанија, локални весници и приватни архиви кои скапуваат во подрумите.

      Доволно е да ги погледнете дигиталните библиотеки во Пловдив или Белград за да видите колку наши весници се пребарливи таму, а кај нас не. Тоа е вистинскиот срам за државата.

      Нашата мисија е „топлата вода“ да ја донесеме во секој дом – да му дадеме алатка на секој граѓанин сам (бесплатно и без поддршка од страна) да ја спаси историјата од заборав.

      Нашиот став не е резултат на површност, туку на долгогодишно истражување и постојано удирање во ѕид. За илустрација, видете го овој текст:
      https://arno.mk/retro-vesti-16-09-1970-koga-apolo-10-sleta-vo-skopje-gradot-rastrgnat-megju-izgradbata-i-zaboravot/

      Имаме објавено илјадници текстови и направено стотици проекти (самостојно, волонтерски, без поддршка од никој) кои ја пополнуваат празнината во многу полиња. Ве замолуваме, овој пат, вие да истражите малку за нас. Работиме на полето на уметноста, науката, екологијата, образованието, архивирањето, културата, вештачката интелигенција и многу друго.

      Она што не’ загрижува е тоа што губењето колективна меморија кај нас е повеќе навика, отколку исклучок (преснимување значајни записи во МТВ, губење национални архиви, уништување на истите во „Комуна“ итн.). Најсреќни би биле кога не би морале да „измислуваме топла вода“, ниту да критикуваме никој, туку да можеме непречено да истражуваме.

Напишете коментар

Вашата адреса за е-пошта нема да биде објавена. Задолжителните полиња се означени со *