Алгоритм сегментации слов на основе поиска кратчайшего пути в графе
| dc.contributor.author | Ландэ, Д.В. | |
| dc.contributor.author | Березин, Б.А. | |
| dc.contributor.author | Павленко, О.Ю. | |
| dc.date.accessioned | 2020-05-07T14:06:05Z | |
| dc.date.available | 2020-05-07T14:06:05Z | |
| dc.date.issued | 2017 | |
| dc.description.abstract | Рассмотрены особенности алгоритмов сегментации слов из текстов, не содержащих разделителей. Представлен новый алгоритм сегментации слов на основе поиска кратчайшего пути. Приведены оценки качества сегментации. Показаны возможности использования приведенного алгоритма в задачах поиска информации в национальных доменах сети Интернет. Реализация алгоритма сегментации слов используется для создания обобщенной модели предметной области на базе мониторинга ресурсов китайского сегмента Интернет. | uk_UA |
| dc.description.abstract | Розглянуто особливості алгоритмів сегментації слів з текстів, які не містять роздільників. Представлено новий алгоритм сегментації слів на основі пошуку найкоротшого шляху. Наведено оцінки якості сегментації. Показано можливості використання наведеного алгоритму в задачах пошуку інформації у національних доменах мережі Інтернет. Реалізацію алгоритму сегментації слів використано для створення узагальненої моделі предметної області на базі моніторингу ресурсів китайського сегменту Інтернет. | uk_UA |
| dc.description.abstract | The features of word segmentation algorithms from such texts are considered. A new algorithm for words segmenting based on a modified wave algorithm has been presented. The algorithm takes into account the features of the input data and is built in such a way that the necessary calculations are performed in a single pass. This reduces its computational complexity. A description of the word segmentation algorithm is given. An example is shown of splitting an input string in English into words, representing it in the form of a graph and finding the shortest path.To assess the quality of segmentation, the EDWS (Edit Distance of the Word Separator) method is presented. A special tool was used to assess the segmentation of Chinese words with a test corpora based on news texts. | uk_UA |
| dc.identifier.citation | Алгоритм сегментации слов на основе поиска кратчайшего пути в графе / Д.В. Ландэ, Б.А. Березин, О.Ю. Павленко // Реєстрація, зберігання і обробка даних. — 2017. — Т. 19, № 4. — С. 3–15. — Бібліогр.: 23 назв. — рос. | uk_UA |
| dc.identifier.issn | 1560-9189 | |
| dc.identifier.other | :DOI: https://doi.org/10.35681/1560-9189.2017.19.4.142917 | |
| dc.identifier.udc | 001.103:004.056 | |
| dc.identifier.uri | https://nasplib.isofts.kiev.ua/handle/123456789/168664 | |
| dc.language.iso | ru | uk_UA |
| dc.publisher | Інститут проблем реєстрації інформації НАН України | uk_UA |
| dc.relation.ispartof | Реєстрація, зберігання і обробка даних | |
| dc.status | published earlier | uk_UA |
| dc.subject | Математичні методи обробки даних | uk_UA |
| dc.title | Алгоритм сегментации слов на основе поиска кратчайшего пути в графе | uk_UA |
| dc.title.alternative | Алгоритм сегментації слів на основі пошуку найкоротшого шляху в графі | uk_UA |
| dc.title.alternative | Algorithm for word segmentation based on the shortest path algorithm inside a graph | uk_UA |
| dc.type | Article | uk_UA |
Файли
Оригінальний контейнер
1 - 1 з 1
Контейнер ліцензії
1 - 1 з 1
Завантаження...
- Назва:
- license.txt
- Розмір:
- 817 B
- Формат:
- Item-specific license agreed upon to submission
- Опис: