Extracting structure from text documents based on machine learning

dc.contributor.authorKudim, K.A.
dc.contributor.authorProskudina, G.Yu.
dc.date.accessioned2023-03-10T18:57:03Z
dc.date.available2023-03-10T18:57:03Z
dc.date.issued2022
dc.description.abstractThis study is devoted to a method that facilitates the task of extracting structure from the text documents using an artificial neural network. The method consists of data preparation, building and training the model and results evaluation. Data preparation includes collecting corpora of documents, converting a variety of file formats into plain text, and manual labeling each document structure. Then documents are split into tokens and into paragraphs. The text paragraphs are represented as feature vectors to provide input to the neural network. The model is trained and validated on the selected data subsets. Trained model results evaluation is presented. The final performance is calculated per label using precision, recall, and F1 measures, and overall average. The trained model can be used to extract sections of documents bearing similar structure.uk_UA
dc.description.abstractДослідження присвячене методу, що вирішує задачу автоматичного витягу структури з слабо структурованих текстових документів за допомогою штучної нейронної мережі. Метод складається з підготовки даних, побудови та навчання моделі та оцінки результатів. Підготовка даних включає збирання корпусів документів, перетворення різних форматів файлів у звичайний текст і ручне маркування структури кожного документа. Потім документи розбиваються на слова та абзаци. Абзаци тексту представлені як вектори ознак для забезпечення вхідних даних для нейронної мережі. Модель навчена та перевірена на вибраних підмножинах даних. Представлена оцінка результатів навченої моделі. Остаточна ефективність розраховується для кожної мітки з використанням F1-оцінки, точності та повноти, а також загального середнього значення. Навчену модель можна використовувати для витягу розділів документів, що мають подібну структуру.uk_UA
dc.identifier.citationExtracting structure from text documents based on machine learning / K.A. Kudim, G.Yu. Proskudina // Проблеми програмування. — 2022. — № 3-4. — С. 154-160. — Бібліогр.: 5 назв. — англ.uk_UA
dc.identifier.issn1727-4907
dc.identifier.otherDOI: https://doi.org/10.15407/pp2022.03-04.154
dc.identifier.udc004.82
dc.identifier.urihttps://nasplib.isofts.kiev.ua/handle/123456789/188639
dc.language.isoenuk_UA
dc.publisherІнститут програмних систем НАН Україниuk_UA
dc.relation.ispartofПроблеми програмування
dc.statuspublished earlieruk_UA
dc.subjectМоделі і засоби систем баз даних та знаньuk_UA
dc.titleExtracting structure from text documents based on machine learninguk_UA
dc.title.alternativeВитяг структури з текстових документів на основі машинного навчанняuk_UA
dc.typeArticleuk_UA

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
16-Kudim.pdf
Size:
912.78 KB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
817 B
Format:
Item-specific license agreed upon to submission
Description: