Как подступиться к большим данным: технологии, инфраструктура и экономическое обоснование проектов
Содержание:
- 1. Эволюционный путь развития работы с данными в российском бизнесе
- 2. Импортозамещение решений на основе Big Data и пути их становления
- 3. Сравнение Open Source и вендорских решений
- 4. Требования к инфраструктуре для больших данных. On premise vs On-Cloud
- 5. Создание корпоративного хранилища данных
- 6. Кадровый «голод»: какие специалисты нужны для проектов Big Data
Недавно в подкасте «Откровенно об ИТ-инфраструктуре» состоялось обсуждение экономики больших данных. Как сейчас работает самая обсуждаемая ИТ-ниша? Разбирались с ведущим подкаста директором K2 Cloud Сергеем Зинкевичем и приглашенными гостями: Андреем Жуковым — коммерческим директором Arenadata, и Дмитрием Зуевым — ex-руководителем отдела Data-инфраструктуры в «Т-Банке».
Эволюционный путь развития работы с данными в российском бизнесе
Небольшой исторический экскурс
Интерес к Big Data в России начал формироваться примерно в 2013 году. Тогда на всю страну можно было насчитать не более десяти пилотных проектов с использованием этой технологии, а весь сектор рынка оценивался в 340$ млн, по данным IDC.
Чаще всего, Big Data интересовала компании из высококонкурентной ниши — это телеком, банки, ритейл. Десять лет назад на заре эпохи больших данных руководители видели в этом инструменте существенное конкурентное преимущество — так считали 31% опрошенных Dell ИТ-руководителей в профильном исследовании. 70% высказывали точку зрения, что данные помогают компаниям принимать более взвешенные деловые решения. Наконец, более 50% специалистов видели в развитии технологии больших данных потенциал для более надежного и быстрого предотвращения кибер-угроз и атак.
Стоит отметить, что в период зарождения технологии в России разнообразие вендоров было значительным, также бизнесу были доступны Open Source решения как Apache Hadoop. Среди аналитических систем наиболее востребованными были IBM, Oracle и Teradata. Как сегодня выглядит ландшафт поставщиков решений по работе с данными? Как изменились сами требования заказчиков? Стремительное развитие рынка диктует бизнесу свои условия, приходится адаптироваться и постепенно переходить к новым игрокам.
А что сейчас?
Прежде всего, компании начали рассматривать альтернативы классическим хранилищам данных (DWH) на базе MSQL, на которых работали исторически. Эпоха Small Data ушла, в определенный момент все стали смотреть в сторону технологий параллельной обработки данных (MPP). Например, к таким решениям можно отнести Vertica, Greenplum, Exadata и т.д.
Импортозамещение решений на основе Big Data и пути их становления
В связи с уходом зарубежных сервисов (например, Databricks, Snowflake, AWS, BigQuery), российские компании столкнулись с нехваткой качественных решений в сфере Big Data. Бизнесу пришлось выбирать — либо делать решения самостоятельно и настраивать под себя, либо обращаться к доступным вендорам, которых на рынке осталось не так много. При этом имеющиеся решения также не отвечают на 100% запросами бизнеса. «Платформы под ключ» просто не существует.
Тем не менее, российские разработчики предоставляют отечественные решения таких технологий, как: GreenPlum, ClickHouse, Postgre. Например, в Arenadata есть платформа данных, которая состоит из разных компонентов: MPP, Subed и витрины и т.д. Также в платформе существуют In-Memory технологии в виде PicoData. В результате у Arenadata есть хорошие шансы стать универсальным «ключом» для работы с данными. Сегодня решение уже использует более сотни клиентов.
В целом развитие импортозамещения осуществляется непосредственно через крупных заказчиков. Они определяют свои потребности, и на основе этих требований разрабатываются решения. Например, если проанализировать как различные индустрии выбирают платформу, стоит обратить внимание на классических крупных заказчиков из ритейла, банков и телеком-компаний.
Изначально клиенты обращаются за вендорским ПО, если хотят решить бизнес-критичную задачу. Каждый час простоя в этом случае несет для компании колоссальные затраты, поэтому они выбирают понятное решение с надежным SLA. Однако часть задач, которые не несут таких критических рисков, бизнес спокойно передает на OpenSource. Разберемся подробнее, что можно доверить открытому коду, а что требует «железа»?
Сравнение Open Source и вендорских решений
«Полуфабрикаты» от вендоров
Мечта многих разработчиков — иметь платформу, которая легко разворачивается по клику и встраивается в ИТ-инфраструктуру компании. Забегая вперед, из всех решений больше всего к идеалу из вендоров приблизились Databricks. Даже когда на рынке были доступны все американские, европейские и иные вендорские разработки, все равно нельзя было решить задачу бизнеса без дополнительного «допиливания» решения под себя.
Даже ведущие вендоры, такие как Google, Databricks и Яндекс, предлагают не полностью готовые решения, а набор компонентов, которые требуют доработки. Несмотря на то, что индустрия больших данных работает более десяти лет, никто из вендоров не смог обеспечить в своем решении сразу все части процесса: control plane, data plane, storage. В результате заказчикам приходится самостоятельно доводить до ума предложенные «полуфабрикаты». И в этот момент очевидно возникает вопрос — а не лучше ли отдать работу с данными на Open Source? Но и здесь есть свои минусы.
Open Source не панацея
Рассмотрим, чем же Open Source решения для работы с большими данными отличаются от вендорских и почему есть претензии и к тем, и к другим.
В первую очередь, заказчик не может «пожаловаться» на баги или ошибки в решении. Известен случай, когда Uber из добрых побуждений обратился к комьюнити с просьбой «пофиксить баги», а в результате получил справедливую претензию. Поскольку компания крупная, честно было бы поддерживать и спонсировать Open Source решение, а не только «выкачивать» из сервиса пользу, периодически требуя убрать ошибки.
Исходя из этой логики, стоит понимать, что сегодня всеобщая доступность, демократия и прозрачность Open Source решений является мифом. Крупный бизнес спонсирует Open Source, а значит, может влиять на сервис.
Таким образом, Open Source имеет три важных особенности, которые стоит учитывать при построении ИТ-инфраструктуры:
-
Open Source решения также имеют свои ограничения, и разработчики не всегда готовы оперативно исправлять баги по запросам пользователей, особенно если это не крупные компании.
-
Развитие Open Source проектов контролируется крупными компаниями, которые вкладывают в них средства, поэтому говорить о полной демократии в сообществе не приходится.
-
Российские компании, выбирая между Open Source и вендорскими решениями, часто сталкиваются с дилеммой — выбирать надежность или дорабатывать. Не все готовы вкладываться в развитие Open Source альтернатив.
И это не все...
Для многих крупных игроков рынка существует стереотип, что Open Source — это ненадежно, небезопасно. И тут возникает вопрос, если бизнес имеет ресурсы, то почему не создает свой продукт и не делится им во вне?
Еще до того как закрыли Greenplum как Open Source проект, Arenadata занимала первое место в мировом комьюнити, кто отдавал свои разработки в Open Source. Далее следовали две китайские компании. Такая схема IT-sharing economy вносит неоценимый вклад в развитие всего сообщества и в целом индустрии больших данных.
Что еще стоит отметить — для разработчиков важно чувствовать свою причастность к чему-то большому. То есть они не просто создают продукт, который вендор потом будет продавать на рынке, они делают вклад в развитие решения и всего комьюнити.
Требования к инфраструктуре для больших данных. On premise vs On-Cloud
Основные клиенты в сфере Big Data — это банки, ритейл и телеком, где высокие объемы данных и критические бизнес-задачи требуют надежных решений. Для каждой из перечисленных сфер есть некоторые особенности и процент интеграции Open Source решений. Кому-то больше подходят облачные продукты, кто-то наоборот видит работу только on-premise. Давайте разбираться.
Банки и финансовые организации
Банки сегодня являются наиболее динамичной индустрией, работающей с большими данными. Причины тут понятны: у финансовых организаций объемы информации для автоматизированного анализа гигантские, самостоятельная обработка таких массивов данных попросту невозможна. Также на выбор Big Data влияет большое количество транзакций, большое количество клиентов и в целом бизнес-критичная инфраструктура, контроль со стороны ЦБ. Кстати, в перспективе спрос на российские решения для работы с данными может сильно увеличиться среди крупных игроков. Минцифры уже предложили вводить плату за использование иностранного ПО крупными компаниями. И по оценкам рынка, все постепенно идет к полному запрету использования западных решений.
Ритейл и E-Commerce
Примерно в равной значимости Big Data используют в ритейле и телекоме. Задачи бизнеса здесь чуть менее критичные, регуляторики жесткой нет, как банках или государственных компаниях. Поэтому здесь довольно часто бизнес выбирает Open Source. Однако также стоит оценивать объемы бизнеса и критичность простоя. Если нужно спрогнозировать спрос для пары сотен магазинов — это можно доверить открытым решениям, а когда речь идет о продуктовых гигантах с тысячами торговых точек в разных географиях страны — тут уже выбирать лучше что-то более надежное. Если по регламенту отводится 2,5 часа на просчет прогноза, нельзя допустить, чтобы кластер упал. У всех ИТ-директоров есть сотни историй, когда сбои ПО в ритейле приводили к забастовкам курьеров, пустым полкам, логистическим накладкам.
Телеком
Крупных телеком-компаний не так много, поэтому с точки зрения бизнеса это игроки с четким пониманием своих задач. Это очень разные клиенты, поэтому выбор решений облака или собственные продукты компании выбирают индивидуально под свои запросы. Выделять тут отдельно приоритетно облака или наоборот on-premise не стоит.
Промышленность
Индустрия, в которой данных не так много и их очень сложно собрать. Классический запрос клиентов из промышленность — это замена бэк-офисных систем типа SAP BW. Следующий пласт данных лежит в области сбора датчиков с телеметрией. У некоторых компаний они уже есть, тогда для дальнейшего анализа достаточно платформенного решения. А если анализировать нечего, сперва надо установить датчики. Эффект от этого очень важный — это предиктивный ремонт вышедшего из строя оборудования до момента сбоя. Телеметрия показывает, что датчик скоро выйдет из строя, его стоит заменить или починить, планово остановив линию или промышленное оборудование. Например, введение в эксплуатацию такой платформы телеметрии в «Норникеле» позволило существенно снизить расходы на системы управления и диспетчеризацию производства.
Госсектор
На первый взгляд, госсектор не очень интересен для работы с данными. Но на самом деле задачи здесь иногда даже более вдохновляющие и эффект от их реализации ощутим сразу. Представьте, что о вас знает ФНС или ДИТ Москвы, когда видит ваши данные? Государственные продукты касаются нас всех, это медицинское обслуживание, управление жилищным хозяйством, управление городами. Государство сейчас пытается создать свою собственную платформу, гособлако. Ведомства через Минцифры делают заказ на новую государственную информационную систему (ГИС}, внутри которой есть целый аналитический кластер.
Малый и средний бизнес
Малые компании не имеют таких ресурсов, как крупные промышленные или финансовые корпорации. Поэтому им выгодно использовать облачные решения для хранения и обработки данных, это позволяет сократить затраты и повысить гибкость.
Создание корпоративного хранилища данных
В определенный момент работы с данными у компании возникает потребность создания собственного хранилища. Самые простые базовые требования к облачному хранилищу включают возможность загрузки данных запуск ETL-процессов и создание визуализаций. Заказчикам важно просто иметь инструмент, который им наглядно покажет изменения в бизнесе на простых и понятных диаграммах и картинках.
Идеальное решение должно позволять легко интегрировать данные из PostgreSQL, запускать простые SQL-запросы и обеспечивать регулярное обновление данных без сложностей. И сложность рынка сегодня в том, что такого простого единого кнопочного решения нет. Каждый вендор предлагает частичное решение запроса бизнеса. Например, из возможных решений можно рассмотреть Яндекс, Greenplum, S3, DataLens.
На рынке отсутствуют полноценные решения для оркестрации и интеграции данных, что создает дополнительные сложности при работе с различными системами и инструментами. Поженить дататрансфер одного решения с интеграционной платформой и разноформатными данными — задача для сильных духом. В результате приходится либо переходить на Open Source, либо просить у вендора какие-то «запчасти» для настройки всех процессов. Как правило, итогом таких интеграций становится какой-то Open Source Франкенштейн — такая картина сейчас во многих компаниях.
Для чего в принципе с такими сложностями бизнесу сегодня работа с Big Data? В маленьких компаниях, где нет опыта работы с данными, важно быстро запустить хранилище и начать анализировать данные. В более зрелых компаниях, где уже есть опыт работы с данными, необходимо решить классические задачи, такие как Enterprise Data Warehouse (EDW).
Однако довольно частая ситуация, когда бизнес и руководители не до конца понимают и используют возможности имеющихся в компании систем. Чаще всего бизнес просто хочет увидеть свои Excel таблицы в удобном формате, с графиками, с отслеживанием критических изменений. Если понадобится — можно углубиться в детали аналитики и посмотреть цифры глубже, но чаще всего требуется именно первичный поверхностный анализ.
Хочется привести в пример очень смешной и иллюстративный кейс. Как показывает практика, далеко не всем нужны сложные BI-системы. Одна небольшая компания хотела, чтобы генеральный директор утром получал СМС с информацией — сколько за вчера заработали денег. Вся цель построения хранилища, анализа сводилась к простому желанию видеть одну-две метрики, которые считаются автоматически и выдают стабильно и всегда, без сбоев и шуток, СМС для генерального директора.
Кадровый «голод»: какие специалисты нужны для проектов Big Data
К сожалению, говоря о Big Data, нельзя обойти стороной вопрос кадров. На рынке наблюдается нехватка готовых дата-инженеров, что заставляет компании адаптировать специалистов с другими навыками, такими как Java-разработка.
Сложности в поиске качественных кандидатов заставляют бизнес более гибким в кадровых вопросах и лояльным. Например, многие компании переходят на удаленный формат работы, что расширяет возможности поиска специалистов по всему миру. Необходимо не только нанимать, но и развивать сотрудников, предлагая конкурентоспособные зарплаты и возможности карьерного роста, чтобы удерживать их на рынке труда.
Также стоит обратить внимание на важность функции HR в компаниях. Сегодня наиболее эффективно использовать точечный найм, выбирая сотрудников с конкретными навыками, вместо универсальных кандидатов. Это требует филигранного подхода к найму, больше времени и усилий. Не всегда HR-команды справляются с такими сложными требованиями.
Также бизнес постепенно должен отходить от идеи только лишь финансового роста и глобализации, если желает работать с сильными ИТ-кадрами. Многим разработчикам крайне важно осознавать, что они вносят свой вклад в развитие продукта. Разработчикам хочется делать интересные и важные решения, которые можно обсудить с комьюнити, которыми можно гордиться.
Вообще весь рынок сегодня решает нетривиальные задачи и живет в ситуации постоянного челленджа. И пройти эти испытания можно только с сильной мотивацией и интересом к создаваемым продуктам.