Повик до библиотеките за важноста на вистинската дигитализација

Со појавата на современите технологии, сè повеќе библиотеки и институции преземаат иницијативи за дигитализација на културното и литературното наследство. Но, постои важна заблуда што се шири меѓу оние кои дигитализираат материјали: само затоа што документ е зачуван како PDF фајл не значи дека истиот е вистински „дигитален“.


Што е навистина дигитален документ?

PDF документите, кои често се создаваат со скенирање на хартиени документи, се технички дигитални бидејќи се зачувани како фајлови што се состојат од бинарни податоци. Тие се дигитални во смисла дека постојат во електронски формат и можат да се споделуваат, складираат и обработуваат со помош на компјутери.

Сепак, овие скенирани документи најчесто се зачувани како „слики“ од текст, а не како вистински дигитални документи кои се машински читливи. За да стане вистински дигитален, документот мора да помине низ процесот на OCR (Optical Character Recognition), кој ја конвертира сликата од текстот во машински читлив текст. [CharacTell, 2023]

OCR: клучот за вистинска дигитализација

OCR технологијата овозможува препознавање на текстот од скенирани документи и негова конверзија во текстуален формат кој компјутерите можат да го разберат и манипулираат. Кога ќе се примени OCR на еден документ, тој станува функционално дигитален – текстот може да се пребарува, копира, преведува и користи во различни апликации и системи.

Ова е од огромна важност за сите кои се ангажирани во дигитализацијата на македонската културна и литературна историја. Ако сакаме да го вклучиме македонскиот јазик во глобалната дигитална сфера, вклучувајќи ја и ерата на вештачката интелигенција, потребно е не само да скенираме документи, туку и да ги направиме читливи за машините.

Со масовна и вистинска дигитализација на литературата на македонски јазик – од делата на Јоаким Крчовски до современите автори – ние не само што го чуваме нашето културно наследство, туку и овозможуваме истиот да биде достапен и препознатлив во дигиталната ера. Вештачката интелигенција и алгоритмите за обработка на јазикот сè повеќе се користат за обработка на големи количини текст, а доколку македонскиот јазик не е соодветно застапен, постои опасност тој да биде занемарен или погрешно интерпретиран.

Што треба да направат библиотеките?

За да се осигура дека македонскиот јазик ќе ја добие својата вистинска дигитална форма, сите библиотеки и институции кои работат на дигитализација треба:

  1. Да применуваат OCR технологија на сите дигитализирани материјали.
  2. Да осигураат дека документите се зачувани во формати кои поддржуваат машинско читање и обработка.
  3. Да промовираат стандарди за дигитализација кои се усогласени со глобалните пракси, со посебен фокус на јазичната точност и читање.
Заклучок

Дигитализацијата не е само процес на конвертирање на хартиени документи во електронски формат. Таа подразбира создавање на функционални дигитални документи кои можат да се користат во различни дигитални системи и апликации. Ова е особено важно за македонскиот јазик и културното наследство. Со масовна дигитализација и OCR обработка на македонската литература, ќе го осигураме нашето место во дигиталната ера и ќе помогнеме во зачувувањето и промоцијата на македонскиот јазик за идните генерации.

Напишете коментар

Вашата адреса за е-пошта нема да биде објавена. Задолжителните полиња се означени со *