Изучение платформы Polymatica
Конференция: CX Студенческая международная научно-практическая конференция «Молодежный научный форум»
Секция: Технические науки
CX Студенческая международная научно-практическая конференция «Молодежный научный форум»
Изучение платформы Polymatica
Polymatica является российской аналитической платформой, способной анализировать большие объемы данных в короткие сроки. Платформа обеспечивает высокое быстродействие за счет использования технологии высокоскоростной обработки больших массивов данных в оперативной памяти сервера и ускорения вычислений при помощи графических процессоров [2]. Система объединяет функционал Data Science, Data Mining и BI (Business Intelligence) [4]. Может использоваться как самостоятельная система или как часть комплексного решения.
Платформа Polymatica реализует новый подход к анализу больших данных, основанный на трансформации постоянно расширяющихся информационных потоков в понятные значения. Это достигается при помощи Мультисфер.
Мультисфера – новая технология, осуществляющая быструю обработку данных с использованием многомерных моделей.
Мультисфера позволяет переключиться из плоских таблиц в управляемую многомерность, где нет заранее сформулированных жестких правил: пользователь может совершать любые манипуляции с данными и оперативно получать ответы на свои вопросы независимо от объёма загружаемой информации [3]. Аналитика с использованием Мультисфер базируется на математических алгоритмах многомерной обработки информации.
Как было сказано выше, Мультисферы представляют собой многомерную структуру, при этом каждое поле может быть представлено в виде размерности или факта.
Размерность может содержать один или несколько элементов, которые являются однородными значениями, которые можно сравнить друг с другом. В область данных можно разместить сразу несколько размерностей (влево и вверх), что позволит организовать уровни, по которым будет выполняться расчет данных. Также можно создавать составные размерности, которые могут включать в себя два и более уровня.
Фактами являются агрегированные данные, представляющие собой формулу или выражение, составленные на основе существующих фактов. Как правило, факты представляют собой обычную сумму числового поля. Факты можно разделить на исходные и вычислимые. Для исходного факта значение формируется исходя только из данных числовых полей. Значения вычислимого факта вычисляются на основании других фактов.
Например, величина в процентах. Количество значений вычислимого факта всегда равно количеству значений исходных фактов.
На рисунке окно Мультисферы представляется в общем виде четырьмя пронумерованными областями:
1 - верхняя панель окна Мультисферы, отображает название;
2 - главная панель окна, содержит инструменты для работы с Мультисферой;
3 - панель "Размерности и факты", отображает имеющиеся размерности и факты;
4 - область данных, позволяет манипулировать данными и производить расчет.
Рисунок. Окно Мультисферы
Размерности и факты добавляются в область данных Мультисферы из боковой панели. В области данных можно:
- перемещать размерности в любом порядке;
- отмечать элементы размерностей и факты;
- группировать элементы размерности;
- проводить операции над фактами, например, сортировку или изменение вида факта.
Наглядно отобразить данные Мультисферы могут графики.
Polymatica автоматически подбирает оптимальные варианты графиков в зависимости от текущего состояния Мультисферы. Можно формировать графики:
- По размерностям – где каждый элемент графика (линия, ряд цилиндров, пирог и т.д.) будет представлять отдельный элемент размерности.
- По фактам – каждый элемент графика (линия, ряд цилиндров, пирог и т.д.) будет представлять отдельный факт.
- Графики по многим показателям – позволяют строить графики, например, по двум размерностям в разрезе одного факта (поверхность) или элементов размерности в разрезе сразу нескольких фактов.
- Графики с кластеризацией – позволяют наглядно отобразить на графике результаты кластеризации (круги, шары).
Графики можно настраивать и редактировать в режиме реального времени.
Платформа позволяет осуществлять прогнозирование значений на основании текущих данных.
Для больших объемов данных используется автоматический выбор одного из алгоритмов: линейная регрессия, экспоненциальное сглаживание, фильтр Калмана, модель сквозящего среднего, авторегрессионная модель, arima.
Результатом прогноза является новый прогнозный элемент с расчетными значениями [1].
Платформа Polymatica имеет богатый функционал, направленный на всесторонний анализ и вычисление данных. Она постоянно модифицируется и совершенствуется.