Tipăreşte Pagina - Over 32,000 medieval manuscripts transcribed in four months using AI

Titlu: Over 32,000 medieval manuscripts transcribed in four months using AI
Scris de: bendorna din Feb 02, 2026, 10:38 PM

Over 32,000 medieval manuscripts transcribed in four months using AI - Medievalists.net

https://share.google/eows9WJ1EPfmbTMm7

Titlu: Re: Over 32,000 medieval manuscripts transcribed in four months using AI
Scris de: Petrus din Feb 03, 2026, 10:37 AM

Ca să fac o glumă de nișă: au transcris 32763 de manuscrise, dar dacă mai făceau 5, era număr rotund!

Performanța e impresionantă, mulțumim atât pentru știre, cât și pentru resurse! Nu știam de Biblissima, dar foloseam deja multe din resursele pe care le agregă (Gallica, BSB, Heidelberg Universitätsbibliothek, BLB, Europeana).

Pentru cei interesați de documente medievale mai este și monasterium.net.

Titlu: Re: Over 32,000 medieval manuscripts transcribed in four months using AI
Scris de: bendorna din Feb 03, 2026, 12:23 PM

Citat din: Petrus din Feb 03, 2026, 10:37 AMCa să fac o glumă de nișă: au transcris 32763 de manuscrise, dar dacă mai făceau 5, era număr rotund!

Performanța e impresionantă, mulțumim atât pentru știre, cât și pentru resurse! Nu știam de Biblissima, dar foloseam deja multe din resursele pe care le agregă (Gallica, BSB, Heidelberg Universitätsbibliothek, BLB, Europeana).

Pentru cei interesați de documente medievale mai este și monasterium.net.

Daca am avea si noi fondurile lor... Visez si eu sa facem asta cu documente romanesti in chirilica.

Titlu: Re: Over 32,000 medieval manuscripts transcribed in four months using AI
Scris de: Andrei Cucuruz din Feb 03, 2026, 12:30 PM

Noi nu le avem încă digitizate, mai vorbim de modele de transcriere automatizate?

M-am gândit și eu mult la chestia asta. Un proiect pilot ar fi catagrafiile / mitricile parohiale (1832-1865). Din păcate, există foarte multă variație la izvoarele de sec. 19, în comparație cu izvoarele medievale.

Titlu: Re: Over 32,000 medieval manuscripts transcribed in four months using AI
Scris de: Andrei Cucuruz din Feb 03, 2026, 02:15 PM

Cercetătoarele de la UBB Cluj au lansat, văd, un model antrenat pe câteva registre parohiale din Transilvania însă eu nu am reușit să îl testez la momentul respectiv (https://app.transkribus.org/models/text/422781).

Încărcarea unui document, pentru testare, mă introduce într-o buclă infinită.

Titlu: Re: Over 32,000 medieval manuscripts transcribed in four months using AI
Scris de: Andrei Jipa din Feb 03, 2026, 03:53 PM

Eu am reușit să încarc niște pagini, chiar din categoria vizată, registre parohiale transilvănene din a doua jumătate a secolului al XIX-lea. Dar rezultatele nu sunt utilizabile

De exemplu, primul rând aici ar trebui să fie Popp Gligor cu Anna
test scris.jpg

Titlu: Re: Over 32,000 medieval manuscripts transcribed in four months using AI
Scris de: Andrei Jipa din Feb 03, 2026, 04:03 PM

Se mai nimeresc niște potriviri:
test 2.jpg

Titlu: Re: Over 32,000 medieval manuscripts transcribed in four months using AI
Scris de: Petrus din Feb 03, 2026, 05:44 PM

Modelul e totuși pentru limba maghiară. Am încercat cu un registru catolic din Arad, unde a avut un oarecare succes, dar nu suficient.

Titlu: Re: Over 32,000 medieval manuscripts transcribed in four months using AI
Scris de: Andrei Cucuruz din Feb 04, 2026, 10:53 AM

Citat din: Andrei Jipa din Feb 03, 2026, 04:03 PMSe mai nimeresc niște potriviri:
test 2.jpg

I-ai dat și greu ;D .

Interesant, când am încercat eu acum câteva luni nu reușea să ducă procesul la capăt. Totuși, mi se pare că setul de antrenare este foarte mic, doar 500 de pagini cu 55 validate manual. Un filmuleț de prezentare puteți urmări și aici: https://htr-hpdt.granturi.ubbcluj.ro/

Cred că o să încerc și eu să antrenez un model pentru mitricile parohiale / catagrafii pentru chirilică românească de sec. 19. Văd că sunt și câteva opțiuni open-source : eScriptorium (https://gitlab.com/scripta/escriptorium) și Kraken (https://kraken.re/main/index.html).

Titlu: Re: Over 32,000 medieval manuscripts transcribed in four months using AI
Scris de: thecatmaster din Feb 05, 2026, 12:41 PM

Citat din: andreicucuruz din Feb 03, 2026, 02:15 PMCercetătoarele de la UBB Cluj au lansat, văd, un model antrenat pe câteva registre parohiale din Transilvania însă eu nu am reușit să îl testez la momentul respectiv (https://app.transkribus.org/models/text/422781).

Am încercat și eu modelul lor în Transkribus pe câteve registre din Transvilania, nu am avut rezultate prea bune.

Citat din: andreicucuruz din Feb 04, 2026, 10:53 AMCred că o să încerc și eu să antrenez un model pentru mitricile parohiale / catagrafii pentru chirilică românească de sec. 19. Văd că sunt și câteva opțiuni open-source : eScriptorium (https://gitlab.com/scripta/escriptorium) și Kraken (https://kraken.re/main/index.html).

Cred că cel mai bun pentru chirilică românească este kraken, îl luasem și eu odată și pare ce trebuie, plecând de la modelul russian_old_print pentru sec. 19 cum spuneai, mers pe fine-tuning și corectat după OCR, cred că și 50 de pagini sunt de ajuns pentru un model cât de cât decent.

Titlu: Re: Over 32,000 medieval manuscripts transcribed in four months using AI
Scris de: Andrei Cucuruz din Feb 09, 2026, 03:03 PM

Citat din: thecatmaster din Feb 05, 2026, 12:41 PMCred că cel mai bun pentru chirilică românească este kraken, îl luasem și eu odată și pare ce trebuie, plecând de la modelul russian_old_print pentru sec. 19 cum spuneai, mers pe fine-tuning și corectat după OCR, cred că și 50 de pagini sunt de ajuns pentru un model cât de cât decent.

Văd că cercetătorii de la Cluj s-au pronunțat deja pentru chirilică într-un articol publicat recent:

Daniela Mîrza, Transcribing Historical Population Sources Written in Cyrillic: Methodological Challenges in Training HTR Models for Romanian Parish Registers in Transylvania (https://rjps.reviste.ubbcluj.ro/wp-content/uploads/2026/02/7.-Marza.pdf)

CitatAbstract. The large-scale digitization of archival holdings has created new opportunities for historical population research, but effective access to handwritten sources remains limited due to the absence of reliable automatic transcription tools. This paper presents the training of a Handwritten Text Recognition (HTR) model for the automatic transcription and transliteration of Romanian parish registers written in Cyrillic characters, a category of sources that constitutes a substantial yet difficult-to-access component of modern Romanian documentation. Focusing on Orthodox parish registers from Transylvania dating from the early nineteenth century, the paper combines a historical overview of Romanian Cyrillic writing with a methodological discussion of transliteration and transcription practices, followed by an empirical assessment of trials conducted using the Transkribus platform. The results obtained so far reveal high Character Error Rates and demonstrate that the standard HTR training workflow is insufficient for producing a functional automatic solution for this type of material. The main obstacles arise from the lack of orthographic standardization, the structural mismatch between the Cyrillic alphabet and the Romanian language, graphic polysemy, abbreviations, superscriptions, irregular spacing, and significant variation in handwriting. These difficulties show that transcription in this context cannot be fully automated and must instead be approached as a hybrid, semi-automatic process that integrates HTR, rule-based transliteration, lexical validation, and sustained human intervention. By documenting both the progress achieved and the limitations encountered, this article contributes to ongoing debates in digital humanities and historical demography regarding the applicability of artificial intelligence to complex historical sources. It argues that, despite current constraints, even imperfect automatic transcriptions can significantly enhance accessibility and research efficiency, provided their use is methodologically transparent and critically informed.

Eu o să-mi încerc, totuși, norocul. ;D

Forum genealogica.ro

Comunitate și feedback => Cafenea/Off-topic => Subiect creat de: bendorna din Feb 02, 2026, 10:38 PM