Cum ar putea AI să dezvăluie secretele a mii de documente scrise de mână – de la manuscrise medievale, la hieroglife

14 December 2023, 13:04 (actualizat 14 December 2023, 13:06)

În ultimii zece ani, cercetătorii au descoperit treptat cum să învețe computerele să citească documente scrise de mână. Un calculator este alimentat cu date de antrenament: imagini cu scrisul de mână și detalii despre ceea ce spune. Apoi învață cum semnele de pe fiecare pagină corespund literelor, scrie The Conversation.

Nimeni nu știe cu certitudine cum face acest lucru. Învățarea automată este adesea o cutie neagră. Această tehnologie a fost aplicată scrisului de mână din multe țări și perioade, de la manuscrise medievale, la jurnale din secolul al XIX-lea, în limbi de la latină, la franceză veche și până la ebraică.

Deoarece tehnologia funcționează pe baza analizei imaginii, este, în teorie, aplicabilă oricărei scrieri, de la hieroglife egiptene la placa de cupru. La zece ani de la dezvoltarea sa inițială, unele consecințe cu adevărat interesante ale dezvoltării tehnicilor de recunoaștere a textului scris de mână (HTR) devin clare.

Experții spun că această tehnologie democratizează accesul la cunoaștere. Digitalizarea manuscriselor a făcut ca multe colecții ale bibliotecilor să fie accesibile prin simpla apăsare a unui buton. Dar o pregătire îndelungată, disponibilă doar în universități selectate, este încă necesară.

HTR are puterea de a genera o versiune tolerabil de precisă. Dacă limba este încă o barieră pentru utilizator, acea transcriere poate fi supusă traducerii automate și poate fi oferită o versiune funcțională în engleză (sau franceză sau chineză), alături de manuscris.

Cantitatea mare de date pe care aceste procese o vor pune la dispoziție are ramificații semnificative. Multe manuscrise medievale nu au fost citite din Evul Mediu. În trecut, întrebările majore au fost adesea rezolvate cu cele mai mici fragmente de date, cum ar fi o singură ortografie. Acum începem să ne gândim că se poate să avem răspunsuri la astfel de întrebări, cu seturi de date de zeci de mii de ortografii: cu HTR vor fi sute de mii, dacă nu milioane. Și răspunsurile pe care le primim vor fi diferite.

Datele pe care le poate genera HTR sunt, de asemenea, mai bogate. În ultima jumătate de mileniu, reprezentarea textelor medievale a fost constrânsă fundamental de tiparnița și tastatura computerului. Unii scribi medievali folosesc trei forme diferite de „s”, dar toate au fost transcrise ca „s-ul” familiar. Deoarece HTR se bazează pe tehnologia de recunoaștere vizuală, poate depista orice număr de forme de litere, nu doar în jur de o sută pe o tastatură qwerty. În plus, le poate reproduce cu mai multă acuratețe decât un om care s-a obișnuit să copieze toate cele patru forme de „s” ca „s”.

Realizarea acestor aplicații potențiale pentru cea mai veche engleză scrisă, din perioada anterioară anului 1150, este scopul noului proiect pilot, Ansund, la Trinity College Dublin. Ansund își propune să folosească HTR pentru a construi un corpus digital exhaustiv, cu acces deschis, de texte în engleză veche, care transcrie pentru prima dată toate englezele vechi supraviețuitoare și la un nivel de detaliu inegalabil.

Etica și pericolele IA au primit o atenție importantă în ultimul an, dar puterea sa de a face lizibilă și navigabilă moștenirea noastră culturală merită, de asemenea, atenție.

Sursa: The Conversation

Un articol de Arina Delcea

Urmărește-ne pe Google News

Ultima Oră

Cele mai citite