Об одном методе извлечения данных из слабоструктурированных документов

Кудим, К.А.; Проскудина, Г.Ю.

Об одном методе извлечения данных из слабоструктурированных документов

dc.contributor.author	Кудим, К.А.
dc.contributor.author	Проскудина, Г.Ю.
dc.date.accessioned	2021-09-24T08:37:20Z
dc.date.available	2021-09-24T08:37:20Z
dc.date.issued	2020
dc.description.abstract	В работе разработан, подробно описан и практически опробован лингвистический метод решения задачи извлечения данных на примере извлечения данных о персоналиях из слабоструктурированных документов, представленных в общедоступном каталоге авторефератов диссертаций Национальной библиотеки Украины им. В.И. Вернадского. Описана вся последовательность шагов: выбор коллекции документов; подготовка документов; написание правил грамматики для извлечения данных из текста; написание правил проверки морфологии; создание интерпретаций или привязок правил к данным; анализ результатов разбора. Лингвистический метод извлечения выявил ряд преимуществ по сравнению с описанным ранее методом извлечения данных с помощью регулярных выражений.	uk_UA
dc.description.abstract	В роботі розроблений, докладно описаний і практично випробуваний лінгвістичний метод вирішення задачі витягу даних на прикладі витягу даних про персоналії з слабоструктурованих документів, представлених в загальнодоступному каталозі авторефератів дисертацій Національної бібліотеки України ім. В.І. Вернадського. Описана вся послідовність кроків: вибір колекції документів; підготовка документів; написання правил граматики для отримання даних з тексту; написання правил перевірки морфології; створення інтерпретацій або прив'язок правил до даних; аналіз результатів розбору. Лінгвістичний метод витягу даних виявив ряд переваг в порівнянні з описаним раніше методом отримання даних за допомогою регулярних виразів.	uk_UA
dc.description.abstract	Linguistic method to solve the problem of data extraction from weakly structured documents is developed, approved, and described in detail in the paper. Sample data were taken from thesis catalogue of Vernadsky National Library of Ukraine. The sequence of all stages is described: document collection choice; document preparation; writing grammar rules for data extraction from text; writing rules for morphology verification; creation of interpretations or bindings rules to data; analysis of parsing results. Linguistic method of data extraction showed many advantages in comparison to the method of data extraction with regular expressions described earlier.	uk_UA
dc.identifier.citation	Об одном методе извлечения данных из слабоструктурированных документов / К.А. Кудим, Г.Ю. Проскудина // Проблеми програмування. — 2020. — № 1. — С. 25-32. — Бібліогр.: 4 назв. — рос.	uk_UA
dc.identifier.isbn	DOI: https://doi.org/10.15407/pp2020.01.025
dc.identifier.issn	1727-4907
dc.identifier.udc	004.82
dc.identifier.uri	https://nasplib.isofts.kiev.ua/handle/123456789/180420
dc.language.iso	ru	uk_UA
dc.publisher	Інститут програмних систем НАН України	uk_UA
dc.relation.ispartof	Проблеми програмування
dc.status	published earlier	uk_UA
dc.subject	Моделі та засоби систем баз даних і знань	uk_UA
dc.title	Об одном методе извлечения данных из слабоструктурированных документов	uk_UA
dc.title.alternative	Про один метод витягу даних з слабоструктурованих документів	uk_UA
dc.title.alternative	A method for extracting data from semis-tructured documents	uk_UA
dc.type	Article	uk_UA

Файли

Оригінальний контейнер

Зараз показуємо 1 - 1 з 1

Назва:: 03-Kudim.pdf
Розмір:: 517.8 KB
Формат:: Adobe Portable Document Format

Завантажити

Контейнер ліцензії

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 817 B
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Колекція

Проблеми програмування, 2020, № 1