Архівна картотека vs. Transkribus: машинне розпізнавання рукописних матеріалів
Предметом дослідження є машинне розпізнавання рукописних матеріалів Архівної картотеки (АК) — лексико-фразеологічних матеріалів словникової комісії Всеукраїнської Академії наук, зокрема картотеки «Російсько-українського словника» 1924–1933 рр. за редакцією А. Кримського та С. Єфремова. Вивчення АК...
Guardado en:
Autor principal: | |
---|---|
Formato: | article |
Lenguaje: | DE EN PL RU UK |
Publicado: |
Borys Grinchenko Kyiv University
2021
|
Materias: | |
Acceso en línea: | https://doaj.org/article/71fab777c3904f0098a6c7b155b04780 |
Etiquetas: |
Agregar Etiqueta
Sin Etiquetas, Sea el primero en etiquetar este registro!
|
id |
oai:doaj.org-article:71fab777c3904f0098a6c7b155b04780 |
---|---|
record_format |
dspace |
spelling |
oai:doaj.org-article:71fab777c3904f0098a6c7b155b047802021-11-11T08:35:49ZАрхівна картотека vs. Transkribus: машинне розпізнавання рукописних матеріалів10.28925/2311-259x.2021.3.92311-259Xhttps://doaj.org/article/71fab777c3904f0098a6c7b155b047802021-10-01T00:00:00Zhttps://synopsis.kubg.edu.ua/index.php/synopsis/article/view/443https://doaj.org/toc/2311-259X Предметом дослідження є машинне розпізнавання рукописних матеріалів Архівної картотеки (АК) — лексико-фразеологічних матеріалів словникової комісії Всеукраїнської Академії наук, зокрема картотеки «Російсько-українського словника» 1924–1933 рр. за редакцією А. Кримського та С. Єфремова. Вивчення АК має наукове значення в контексті культурно-національного відродження в Україні на початку ХХ ст., а також у розвитку української мови, теорії та практики україністики ХХ — початку ХХІ ст. Актуальність і цінність АК стали передумовою переведення її матеріалів у цифровий формат: 2018 р. в Інституті української мови НАН України створено комп’ютерну систему «Архівна картотека», що в онлайні удоступнює матеріали насамперед у вигляді сканованих зображень. Проблема, яка потребує нагального розв’язання, — це переведення рукописних текстів у машинописний формат. Складність ручного розпізнавання спонукає до вивчення й застосування можливостей ресурсу Transkribus, що передбачає застосування методу машинного навчання. Метою розвідки є з’ясування шляхом аналізу, систематизації, класифікування та опису матеріалу особливостей підготовки карток АК для машинного опрацювання текстів. Новизна дослідження полягає в тому, що вперше розглянуто питання забезпечення двигуна HTR навчальними даними АК (завантаження на платформу, сегментування зображень на рядки й текстові ділянки, транскрибування вмісту кожної сторінки). Головним результатом є з’ясування змісту підготовчого етапу, завданнями якого було усунення огріхів автоматичного сегментування: нетекстових елементів, непосутніх текстових елементів, некоректного автоматичного визначення текстового регіону чи рядка. Окреслено перспективи лексикографічної толоки в процесі розпізнавання карток, для чого передбачено використати колективний доступ до колекції транскрибованих документів у Transkribus. До розпізнавання ж карток вручну можна долучитися в межах нового проєкту «Усеукраїнська толока: Архівна картотека» — онлайнової платформи на сайті «АК». Оксана ТищенкоBorys Grinchenko Kyiv UniversityarticleлексикографіяАрхівна картотекаелектронна система «Архівна картотека»машинне розпізнаванняTranskribusлексикографічна толока (краудсорсинг)Language and LiteraturePPhilology. LinguisticsP1-1091DEENPLRUUKСинопсис: текст, контекст, медіа, Vol 27, Iss 3 (2021) |
institution |
DOAJ |
collection |
DOAJ |
language |
DE EN PL RU UK |
topic |
лексикографія Архівна картотека електронна система «Архівна картотека» машинне розпізнавання Transkribus лексикографічна толока (краудсорсинг) Language and Literature P Philology. Linguistics P1-1091 |
spellingShingle |
лексикографія Архівна картотека електронна система «Архівна картотека» машинне розпізнавання Transkribus лексикографічна толока (краудсорсинг) Language and Literature P Philology. Linguistics P1-1091 Оксана Тищенко Архівна картотека vs. Transkribus: машинне розпізнавання рукописних матеріалів |
description |
Предметом дослідження є машинне розпізнавання рукописних матеріалів Архівної картотеки (АК) — лексико-фразеологічних матеріалів словникової комісії Всеукраїнської Академії наук, зокрема картотеки «Російсько-українського словника» 1924–1933 рр. за редакцією А. Кримського та С. Єфремова. Вивчення АК має наукове значення в контексті культурно-національного відродження в Україні на початку ХХ ст., а також у розвитку української мови, теорії та практики україністики ХХ — початку ХХІ ст. Актуальність і цінність АК стали передумовою переведення її матеріалів у цифровий формат: 2018 р. в Інституті української мови НАН України створено комп’ютерну систему «Архівна картотека», що в онлайні удоступнює матеріали насамперед у вигляді сканованих зображень. Проблема, яка потребує нагального розв’язання, — це переведення рукописних текстів у машинописний формат. Складність ручного розпізнавання спонукає до вивчення й застосування можливостей ресурсу Transkribus, що передбачає застосування методу машинного навчання. Метою розвідки є з’ясування шляхом аналізу, систематизації, класифікування та опису матеріалу особливостей підготовки карток АК для машинного опрацювання текстів. Новизна дослідження полягає в тому, що вперше розглянуто питання забезпечення двигуна HTR навчальними даними АК (завантаження на платформу, сегментування зображень на рядки й текстові ділянки, транскрибування вмісту кожної сторінки).
Головним результатом є з’ясування змісту підготовчого етапу, завданнями якого було усунення огріхів автоматичного сегментування: нетекстових елементів, непосутніх текстових елементів, некоректного автоматичного визначення текстового регіону чи рядка. Окреслено перспективи лексикографічної толоки в процесі розпізнавання карток, для чого передбачено використати колективний доступ до колекції транскрибованих документів у Transkribus. До розпізнавання ж карток вручну можна долучитися в межах нового проєкту «Усеукраїнська толока: Архівна картотека» — онлайнової платформи на сайті «АК».
|
format |
article |
author |
Оксана Тищенко |
author_facet |
Оксана Тищенко |
author_sort |
Оксана Тищенко |
title |
Архівна картотека vs. Transkribus: машинне розпізнавання рукописних матеріалів |
title_short |
Архівна картотека vs. Transkribus: машинне розпізнавання рукописних матеріалів |
title_full |
Архівна картотека vs. Transkribus: машинне розпізнавання рукописних матеріалів |
title_fullStr |
Архівна картотека vs. Transkribus: машинне розпізнавання рукописних матеріалів |
title_full_unstemmed |
Архівна картотека vs. Transkribus: машинне розпізнавання рукописних матеріалів |
title_sort |
архівна картотека vs. transkribus: машинне розпізнавання рукописних матеріалів |
publisher |
Borys Grinchenko Kyiv University |
publishDate |
2021 |
url |
https://doaj.org/article/71fab777c3904f0098a6c7b155b04780 |
work_keys_str_mv |
AT oksanatiŝenko arhívnakartotekavstranskribusmašinnerozpíznavannârukopisnihmateríalív |
_version_ |
1718439316420558848 |