Аналитика на «Полиматике»: что умеет российская BI-система
Ключевая тенденция последних лет – замена импортных ИТ-платформ отечественными разработками. Заметно развиваются российские программные продукты различного назначения, в том числе и аналитические системы. Одна из таких систем – платформа «Полиматика» – промышленное BI-решение для работы с большими объемами данных в режиме реального времени.
Практика импортозамещения в сфере BI-систем
«Полиматика» является показательным примером импортозамещения в сфере ИТ. На сегодняшний день возможности платформы по аналитической обработке больших массивов информации успешно используются рядом крупных государственных структур и организаций. За последние несколько месяцев «Полиматика» выступила в качестве отечественного аналога решениям западных производителей в проектах федерального масштаба, в частности, платформа была выбрана основным отчетно-аналитическим инструментом в проекте ФНС по созданию Единого реестра ЗАГС, основным инструментом в проекте Пенсионного фонда РФ по аналитической подсистеме актуарных расчетов (АПАР) и нескольких других.
«Полиматика» состоит в реестре российского ПО с апреля 2016 г. по классу «Системы сбора, хранения, обработки, анализа, моделирования и визуализации массивов данных». При этом большинство прочих разработок, зарегистрированных по данному классу продуктов – это ERP- и CRM-системы, ориентированные в первую очередь на решение задач автоматизации бизнес-процессов и управления информационными потоками в организациях. Для них анализ и визуализация массивов данных являются скорее дополнительным функционалом.
«Полиматика», в отличие от указанных решений – это полнофункциональная BI-система, изначально ориентированная на аналитическую обработку информации, визуализацию полученных результатов и исследование выявленных проблем.
Аналитическая платформа «Полиматика»
«Полиматика» является промышленным BI-решением для удобной аналитической работы с большими массивами разнородных данных в режиме реального времени. Возможности платформы покрывают широкий спектр задач, включая обработку данных и их статистический анализ, визуализацию полученных результатов на интерактивных графиках, диаграммах и web-картах, подготовку отчетных форм с использованием табличных представлений и графических компонентов, а также проведение глубинных исследований многомерных данных с использованием методов продвинутой аналитики.
Интерфейс системы «Полиматика»
Платформа полностью создана на базе собственных разработок «Полиматика Рус». С нуля и без использования модулей сторонних производителей были реализованы технологии аналитической обработки данных в режиме реального времени (OLAP-in-memory) и ускорения вычислений с использованием графических процессоров (GPU-acceleration), а также разработаны продвинутые методы интеллектуального анализа информации (Data-Mining).
Самостоятельный подход к созданию продукта позволил избежать критических недостатков существующих BI-решений, таких как технологические ограничения на объемы обрабатываемых данных, ограниченность функций в работе с данными, сложность использования отдельных инструментов и, как следствие, небольшое число конечных пользователей таких систем.
«Полиматика» ориентирована в первую очередь на самостоятельную работу пользователей (аналитическое самообслуживание). Платформа предоставляет набор визуальных аналитических инструментов и простые в использовании методы продвинутого анализа информации, при этом пользователь системы всегда работает с данными в исходной детализации. За счет использования OLAP-технологии и вычислительных ресурсов графических процессоров время отклика системы сохраняется на уровне нескольких секунд даже при одновременной обработке миллионов объектов и миллиардов записей.
В то же время платформа поддерживает процессы регламентированной обработки данных. Предусмотрена настройка прав доступа пользователей к исходным данным OLAP-кубов на различных уровнях, для обмена отчетными формами используется встроенная система профилей, которая позволяет назначить роли пользователям согласно действующим в организации регламентам.
Состав решения
«Полиматика» построена на базе многоуровневой архитектуры, каждый компонент которой, в свою очередь, включает в себя несколько модулей. Модульность архитектуры обеспечивает удобную масштабируемость платформы по мере роста требований к ее возможностям: количество пользователей, объем обрабатываемых записей или количество подключений к источникам данных, а также позволяет использовать в работе только необходимые компоненты платформы), существенно повышая эффективность использования решения, как с технической, так и с экономической точки зрения. Поддерживается развертывание и полнофункциональная работа системы в закрытом контуре (без доступа к интернету), запуск отдельных модулей на различных физических устройствах.
Архитектура аналитической платформы «Полиматика»
Основным компонентом платформы является аналитический OLAP-сервер, объединенный с модулями Data Mining. Сервер «Полиматики» работает под управлением операционной системы на базе Linux (Ubuntu, RedHat, CentOS и другие), включая сертифицированные версии для госорганов и организаций, работающих с секретной информацией, например, AstraLinux, Smolensk.
«Полиматика» предъявляет доступные технические требования к аппаратному обеспечению. Так, например, для работы с OLAP-кубом размером до 2 миллиардов записей необходим сервер с двумя процессорами, 256 ГБайт оперативной памяти и видеокарта Nvidia с 16 ГБайт видеопамяти, а при работе с «небольшими» OLAP-кубами, до 100 миллионов записей, достаточно двухпроцессорного сервера с оперативной памятью 32 ГБайта, наличие видеокарты при этом не требуется.
В платформе реализовано эффективное использование ресурсов оперативной памяти и жесткого диска: при работе пользователя в системе в оперативную память сервера загружаются только «активные» на текущий момент данные OLAP-куба, а при импорте из источника обеспечивается сжатие данных более чем в 12 раз.
«Полиматика» позволяет загружать данные в систему из различных источников. Поддерживается импорт из реляционных баз данных MySQL, MS SQL, Oracle, PostgeSQL, распределенных хранилищ Teradata и решений на базе Hadoop, бизнес-приложений, CRM-систем и других информационных систем, а также плоских табличных файлов. Загрузка данных в систему и создание OLAP-кубов осуществляется путем написания стандартного SQL-запроса к базе данных, предусмотрена возможность автоматического обновления данных в кубе по расписанию. При работе с табличными файлами используется прямой импорт данных, а для «нестандартных» источников компания предоставляет инструментарий для низкоуровневой загрузки данных.
Интерфейс системы на различных устройствах
На стороне клиента все действия пользователь выполняет в веб-браузере стандартными манипуляциями мышью (перетаскивание, выделение, вызов контекстного меню, левый/правый клик). Адаптивный интерфейс системы позволяет комфортно работать в системе на любом устройстве: компьютер, ноутбук, планшетный ПК или телефон. Поддерживается использование всех популярных веб-браузеров с настройками по умолчанию, дополнительные требования к установке Active-X, Flash или других компонентов отсутствуют.
Клиентская программа (браузер или приложение) взаимодействует с аналитическим сервером посредством отправки API-команд на выполнение операций и получение результатов расчетов. При этом вся нагрузка по выполнению расчетов лежит на сервере, клиентская программа только отображает полученные данные и не выполняет никаких ресурсоемких задач.
Наличие API-команд сервера позволяет использовать возможности «Полиматики» для решения узкоспециализированных задач, встраивать аналитические модули платформы в корпоративные порталы, бизнес-приложения и внутренние информационные системы. Платформа поддерживает возможность разработки дополнительных модулей для решения отраслевых задач.
Технологии платформы «Полиматика». OLAP
На сегодняшний день OLAP-сервер «Полиматики» является единственным примером реализации технологии аналитической обработки данных в режиме реального времени, разработанной российской компанией.
Отличительными особенностями OLAP-технологии «Полиматики» являются построение всех иерархий «на лету» и отсутствие предагрегированных значений фактов, а также отсутствие технологических ограничений на размер OLAP-куба. OLAP-операции в системе выполняются с использованием данных в исходной детализации, за счет чего пользователи получают возможность «на лету» создавать составные размерности, группировать элементы отдельных размерностей, формировать произвольные иерархии размерностей для расчета фактов в нужных разрезах, создавать копии существующих размерностей или фактов.
Вся работа с OLAP-кубами в «Полиматике» выполняется визуально, с помощью мыши, и не требует от пользователя написания макросов или программирования.
Технологии платформы «Полиматика». Data Mining
Data Mining-модули платформы «Полиматика» позволяют быстро выполнять интеллектуальный анализ данных OLAP-куба - многомерные расчеты на миллионах записей занимают не более минуты, при этом гарантируется 100% достоверность и повторяемость полученных результатов. Двусторонняя связь модулей с данными OLAP-куба обеспечивает пользователей системы мощным математическим аппаратом и эффективной визуализацией. Использование модулей не требует от пользователя глубоких математических знаний, длительных процессов поиска нужной модели и настройки параметров - запуск модуля и расчеты выполняются по нажатии на одну кнопку.
Применение DataMining-метода «Кластеризация» в «Полиматике»
Платформа включает в себя Data-Mining-модули: «кластеризация» – распределение объектов по группам на основании одного или нескольких параметров, выбор оптимального количества групп и расчет кластеров; «ассоциативные правила» – расчет и выявление основных паттернов поведения объектов и определение популярности и достоверности совместного возникновения событий; «прогнозирование» – определение максимально достоверных значений ключевых параметров объектов в будущем на основании доступных исторических данных.
Технологии платформы «Полиматика». GPU Acceleration
Технология ускорения вычислений на графических процессорах Nvidia используется в «Полиматике» для обеспечения комфортного времени отклика системы при работе с OLAP-кубами больших размеров, от 100 миллионов записей. При получении запроса на выполнение аналитической операции система автоматически определяет наиболее эффективный вариант проведения расчетов (процессор, видеокарта или гибридный режим) и распределяет вычисления между доступными ресурсами.
Платформа на аппаратном уровне поддерживает работу на кластере серверов, объединенных по технологии InfiniBand. В данном случае система автоматически создает пул доступных физических ресурсов и выполняет распределение задач между ними.
Компания «Полиматика Рус»
Компания «Полиматика Рус» была основана в 2010 г. и более 6 лет занимается разработкой аналитических инструментов для работы большими массивами информации и методов продвинутого анализа данных. Основным продуктом компании является отчетно-аналитическая платформа «Полиматика».
Поставку решения компания осуществляет самостоятельно или через партнеров. На сегодняшний день партнерская сеть компании, включает в себя более 10 ИТ-компаний, среди которых крупные системные интеграторы, разработчики программного обеспечения и консалтинговые компании со специализацией в различных отраслях.
Развитие платформы «Полиматика»
Как сообщили в компании, в ближайшее время планируется выход очередного обновления платформы. В новой версии «Полиматики» появятся возможности, позволяющие пользователям самостоятельно добавлять собственные данные в уже существующие OLAP-кубы, объединять данные OLAP-кубов, созданных из различных внешних источников информации.
В интерфейсе системы появится расширенный редактор отчетных форм «Отчетный слой», который предоставит пользователям возможность создавать отчеты произвольной формы с использованием результатов аналитической обработки данных (табличные представления OLAP-куба, графики, диаграммы, веб-карты) и дополнительных графических элементов (текстовые поля, фигуры, статичные изображения).