Архівна картотека vs. Transkribus: машинне розпізнавання рукописних матеріалів

Предметом дослідження є машинне розпізнавання рукописних матеріалів Архівної картотеки (АК) — лексико-фразеологічних матеріалів словникової комісії Всеукраїнської Академії наук, зокрема картотеки «Російсько-українського словника» 1924–1933 рр. за редакцією А. Кримського та С. Єфремова. Вивчення АК...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Оксана Тищенко
Formato: article
Lenguaje:DE
EN
PL
RU
UK
Publicado: Borys Grinchenko Kyiv University 2021
Materias:
P
Acceso en línea:https://doaj.org/article/71fab777c3904f0098a6c7b155b04780
Etiquetas: Agregar Etiqueta
Sin Etiquetas, Sea el primero en etiquetar este registro!
id oai:doaj.org-article:71fab777c3904f0098a6c7b155b04780
record_format dspace
spelling oai:doaj.org-article:71fab777c3904f0098a6c7b155b047802021-11-11T08:35:49ZАрхівна картотека vs. Transkribus: машинне розпізнавання рукописних матеріалів10.28925/2311-259x.2021.3.92311-259Xhttps://doaj.org/article/71fab777c3904f0098a6c7b155b047802021-10-01T00:00:00Zhttps://synopsis.kubg.edu.ua/index.php/synopsis/article/view/443https://doaj.org/toc/2311-259X Предметом дослідження є машинне розпізнавання рукописних матеріалів Архівної картотеки (АК) — лексико-фразеологічних матеріалів словникової комісії Всеукраїнської Академії наук, зокрема картотеки «Російсько-українського словника» 1924–1933 рр. за редакцією А. Кримського та С. Єфремова. Вивчення АК має наукове значення в контексті культурно-національного відродження в Україні на початку ХХ ст., а також у розвитку української мови, теорії та практики україністики ХХ — початку ХХІ ст. Актуальність і цінність АК стали передумовою переведення її матеріалів у цифровий формат: 2018 р. в Інституті української мови НАН України створено комп’ютерну систему «Архівна картотека», що в онлайні удоступнює матеріали насамперед у вигляді сканованих зображень. Проблема, яка потребує нагального розв’язання, — це переведення рукописних текстів у машинописний формат. Складність ручного розпізнавання спонукає до вивчення й застосування можливостей ресурсу Transkribus, що передбачає застосування методу машинного навчання. Метою розвідки є з’ясування шляхом аналізу, систематизації, класифікування та опису матеріалу особливостей підготовки карток АК для машинного опрацювання текстів. Новизна дослідження полягає в тому, що вперше розглянуто питання забезпечення двигуна HTR навчальними даними АК (завантаження на платформу, сегментування зображень на рядки й текстові ділянки, транскрибування вмісту кожної сторінки). Головним результатом є з’ясування змісту підготовчого етапу, завданнями якого було усунення огріхів автоматичного сегментування: нетекстових елементів, непосутніх текстових елементів, некоректного автоматичного визначення текстового регіону чи рядка. Окреслено перспективи лексикографічної толоки в процесі розпізнавання карток, для чого передбачено використати колективний доступ до колекції транскрибованих документів у Transkribus. До розпізнавання ж карток вручну можна долучитися в межах нового проєкту «Усеукраїнська толока: Архівна картотека» — онлайнової платформи на сайті «АК». Оксана ТищенкоBorys Grinchenko Kyiv UniversityarticleлексикографіяАрхівна картотекаелектронна система «Архівна картотека»машинне розпізнаванняTranskribusлексикографічна толока (краудсорсинг)Language and LiteraturePPhilology. LinguisticsP1-1091DEENPLRUUKСинопсис: текст, контекст, медіа, Vol 27, Iss 3 (2021)
institution DOAJ
collection DOAJ
language DE
EN
PL
RU
UK
topic лексикографія
Архівна картотека
електронна система «Архівна картотека»
машинне розпізнавання
Transkribus
лексикографічна толока (краудсорсинг)
Language and Literature
P
Philology. Linguistics
P1-1091
spellingShingle лексикографія
Архівна картотека
електронна система «Архівна картотека»
машинне розпізнавання
Transkribus
лексикографічна толока (краудсорсинг)
Language and Literature
P
Philology. Linguistics
P1-1091
Оксана Тищенко
Архівна картотека vs. Transkribus: машинне розпізнавання рукописних матеріалів
description Предметом дослідження є машинне розпізнавання рукописних матеріалів Архівної картотеки (АК) — лексико-фразеологічних матеріалів словникової комісії Всеукраїнської Академії наук, зокрема картотеки «Російсько-українського словника» 1924–1933 рр. за редакцією А. Кримського та С. Єфремова. Вивчення АК має наукове значення в контексті культурно-національного відродження в Україні на початку ХХ ст., а також у розвитку української мови, теорії та практики україністики ХХ — початку ХХІ ст. Актуальність і цінність АК стали передумовою переведення її матеріалів у цифровий формат: 2018 р. в Інституті української мови НАН України створено комп’ютерну систему «Архівна картотека», що в онлайні удоступнює матеріали насамперед у вигляді сканованих зображень. Проблема, яка потребує нагального розв’язання, — це переведення рукописних текстів у машинописний формат. Складність ручного розпізнавання спонукає до вивчення й застосування можливостей ресурсу Transkribus, що передбачає застосування методу машинного навчання. Метою розвідки є з’ясування шляхом аналізу, систематизації, класифікування та опису матеріалу особливостей підготовки карток АК для машинного опрацювання текстів. Новизна дослідження полягає в тому, що вперше розглянуто питання забезпечення двигуна HTR навчальними даними АК (завантаження на платформу, сегментування зображень на рядки й текстові ділянки, транскрибування вмісту кожної сторінки). Головним результатом є з’ясування змісту підготовчого етапу, завданнями якого було усунення огріхів автоматичного сегментування: нетекстових елементів, непосутніх текстових елементів, некоректного автоматичного визначення текстового регіону чи рядка. Окреслено перспективи лексикографічної толоки в процесі розпізнавання карток, для чого передбачено використати колективний доступ до колекції транскрибованих документів у Transkribus. До розпізнавання ж карток вручну можна долучитися в межах нового проєкту «Усеукраїнська толока: Архівна картотека» — онлайнової платформи на сайті «АК».
format article
author Оксана Тищенко
author_facet Оксана Тищенко
author_sort Оксана Тищенко
title Архівна картотека vs. Transkribus: машинне розпізнавання рукописних матеріалів
title_short Архівна картотека vs. Transkribus: машинне розпізнавання рукописних матеріалів
title_full Архівна картотека vs. Transkribus: машинне розпізнавання рукописних матеріалів
title_fullStr Архівна картотека vs. Transkribus: машинне розпізнавання рукописних матеріалів
title_full_unstemmed Архівна картотека vs. Transkribus: машинне розпізнавання рукописних матеріалів
title_sort архівна картотека vs. transkribus: машинне розпізнавання рукописних матеріалів
publisher Borys Grinchenko Kyiv University
publishDate 2021
url https://doaj.org/article/71fab777c3904f0098a6c7b155b04780
work_keys_str_mv AT oksanatiŝenko arhívnakartotekavstranskribusmašinnerozpíznavannârukopisnihmateríalív
_version_ 1718439316420558848