Extracting structure from text documents based on machine learning

Kudim, K.A.; Proskudina, G.Yu.

Extracting structure from text documents based on machine learning

dc.contributor.author	Kudim, K.A.
dc.contributor.author	Proskudina, G.Yu.
dc.date.accessioned	2023-03-10T18:57:03Z
dc.date.available	2023-03-10T18:57:03Z
dc.date.issued	2022
dc.description.abstract	This study is devoted to a method that facilitates the task of extracting structure from the text documents using an artificial neural network. The method consists of data preparation, building and training the model and results evaluation. Data preparation includes collecting corpora of documents, converting a variety of file formats into plain text, and manual labeling each document structure. Then documents are split into tokens and into paragraphs. The text paragraphs are represented as feature vectors to provide input to the neural network. The model is trained and validated on the selected data subsets. Trained model results evaluation is presented. The final performance is calculated per label using precision, recall, and F1 measures, and overall average. The trained model can be used to extract sections of documents bearing similar structure.	uk_UA
dc.description.abstract	Дослідження присвячене методу, що вирішує задачу автоматичного витягу структури з слабо структурованих текстових документів за допомогою штучної нейронної мережі. Метод складається з підготовки даних, побудови та навчання моделі та оцінки результатів. Підготовка даних включає збирання корпусів документів, перетворення різних форматів файлів у звичайний текст і ручне маркування структури кожного документа. Потім документи розбиваються на слова та абзаци. Абзаци тексту представлені як вектори ознак для забезпечення вхідних даних для нейронної мережі. Модель навчена та перевірена на вибраних підмножинах даних. Представлена оцінка результатів навченої моделі. Остаточна ефективність розраховується для кожної мітки з використанням F1-оцінки, точності та повноти, а також загального середнього значення. Навчену модель можна використовувати для витягу розділів документів, що мають подібну структуру.	uk_UA
dc.identifier.citation	Extracting structure from text documents based on machine learning / K.A. Kudim, G.Yu. Proskudina // Проблеми програмування. — 2022. — № 3-4. — С. 154-160. — Бібліогр.: 5 назв. — англ.	uk_UA
dc.identifier.issn	1727-4907
dc.identifier.other	DOI: https://doi.org/10.15407/pp2022.03-04.154
dc.identifier.udc	004.82
dc.identifier.uri	https://nasplib.isofts.kiev.ua/handle/123456789/188639
dc.language.iso	en	uk_UA
dc.publisher	Інститут програмних систем НАН України	uk_UA
dc.relation.ispartof	Проблеми програмування
dc.status	published earlier	uk_UA
dc.subject	Моделі і засоби систем баз даних та знань	uk_UA
dc.title	Extracting structure from text documents based on machine learning	uk_UA
dc.title.alternative	Витяг структури з текстових документів на основі машинного навчання	uk_UA
dc.type	Article	uk_UA

Файли

Оригінальний контейнер

Зараз показуємо 1 - 1 з 1

Назва:: 16-Kudim.pdf
Розмір:: 912.78 KB
Формат:: Adobe Portable Document Format

Завантажити

Контейнер ліцензії

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 817 B
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Колекція

Проблеми програмування, 2022, № 3-4