Real-time Method of Accurate Unique IPs Counting Across High Number of Distinct Dimensions and Distinct Time Frames for Big Data Systems

dc.contributor.authorValialkin, A.V.
dc.contributor.authorKonashevych, O.I.
dc.date.accessioned2017-04-11T20:12:03Z
dc.date.available2017-04-11T20:12:03Z
dc.date.issued2016
dc.description.abstractThe article describes a method which allows counting unique IP addresses within 10 bln of system events per day across high number of distinct dimensions (tuples). Log-based and probability-based methods showed unsatisfactory results. The proposed method allows avoiding excessive resource usage (RAM, CPU and persistent storage) as it appeared in a raw logs method and a probability method of counting. The method also avoids high statistic error for low cardinality as it appeared in a probability method. The main idea is to count unique IP addresses in distinct tuples in real time using RAM for short data interval processing, then flushing it to persistent.uk_UA
dc.description.abstractОписано метод, який дозволяє підрахувати кількість унікальних IP адрес із великої кількості різних наборів даних (кортежів). Методи, базовані на скануванні логів та імовірнісному підрахунку привели до незадовільних результатів. Запропонований метод дозволяє уникнути надмірного використання ресурсів (процесора, оперативної та постійної пам’ яті), як це відбувається при використанні метода сканування необроблених логів та імовірнісного методу підрахунку, а також уникнути великої статистичної похибки, як при використанні імовірнісного метода на малих кількостях унікальних значень. Основна ідея методу полягає в тому, що підрахунок унікальних IP адрес в різних кортежах в реальному часі проводиться в оперативній пам'яті. Обробка даних виконується на коротких інтервалах і потім вони передаються у постійну пам'ять згідно з алгоритмом злиття. Оброблені лічильники IP адрес надходять з файлів у звичайну базу даних з п ятихвилинним, годинним, добовим, тижневим або місячним інтервалом.uk_UA
dc.description.abstractОписан метод, позволяющий подсчитать число уникальных IP адресов из большогоколичества различных наборов данных (кортежей). Методы, основанные на сканировании логов и вероятностном подсчете, привели к неудовлетворительным результатам. Предложенный метод позволяет избежать чрезмерного использования ресурсов (процессора, оперативной и постоянной памяти), как при использовании метода сканирования необработанных логов и вероятностного метода подсчета, а также избежать большой статистической погрешности, как при использовании вероятностного метода на малых количествах уникальных значений. Основная идея метода состоит в том, что подсчет уникальных IP адресов в различных кортежах в реальном времени проводится в оперативной памяти. Обработка данных выполняется на коротких интервалах и затем они передаются в постоянную память с помощью алгоритма слияния. Обработанные счетчики IP адресов поступают в обычную базу данных из файлов с пятиминутным, часовым, суточным, недельным или месячным интервалом.uk_UA
dc.identifier.citationReal-time Method of Accurate Unique IPs Counting Across High Number of Distinct Dimensions and Distinct Time Frames for Big Data Systems / A.V. Valialkin, O.I. Konashevych // Электронное моделирование. — 2016. — Т. 38, № 3. — С. 63-73. — Бібліогр.: 9 назв. — англ.uk_UA
dc.identifier.issn0204-3572
dc.identifier.udc004.04, 004.6
dc.identifier.urihttps://nasplib.isofts.kiev.ua/handle/123456789/115757
dc.language.isoenuk_UA
dc.publisherІнститут проблем моделювання в енергетиці ім. Г.Є. Пухова НАН Україниuk_UA
dc.relation.ispartofЭлектронное моделирование
dc.statuspublished earlieruk_UA
dc.subjectВычислительные процессы и системыuk_UA
dc.titleReal-time Method of Accurate Unique IPs Counting Across High Number of Distinct Dimensions and Distinct Time Frames for Big Data Systemsuk_UA
dc.typeArticleuk_UA

Файли

Оригінальний контейнер

Зараз показуємо 1 - 1 з 1
Завантаження...
Ескіз
Назва:
06-Valialkin.pdf
Розмір:
93.5 KB
Формат:
Adobe Portable Document Format

Контейнер ліцензії

Зараз показуємо 1 - 1 з 1
Завантаження...
Ескіз
Назва:
license.txt
Розмір:
817 B
Формат:
Item-specific license agreed upon to submission
Опис: