Реинкарнация больших данных: какие преимущества есть у Big Data
Мнение экспертов

Реинкарнация больших данных: какие преимущества есть у Big Data

811
6 минут

Анализ больших данных могут позволить себе только самые крупные компании. Так ли это на самом деле? Разберем несколько устойчивых стереотипов о технологии, которую некогда назвали новой нефтью, затем лишили титула популярного тренда и снова «короновали» на фоне развития искусственного интеллекта и машинного обучения.

На самом деле с большими данными не все однозначно. Про их безусловное благо для улучшения работы с клиентами и оптимизации операционной деятельности в теории знают многие. Однако на практике реализовать стремятся далеко не все. Даже среди крупнейших корпораций Америки, по данным опроса NewVantage Partners, большие данные и AI используют чуть более половины участников рынка. В России масштаб внедрения в enterprise-сегменте и того меньше. И, естественно, существенно реже большие данные применяются среди компаний среднего масштаба из-за серьезных инвестиций инфраструктуру: аппаратного обеспечения и лицензий, а также привлечения специалистов для работы с этими данными. Несмотря на то, что внедрение полноценной big data в B2C-сегменте помогает увеличить средний чек, на подобные проекты решаются единицы. Все дело в высокой стоимости. По нашим оценкам, она составляет от десятков до сотен миллионов рублей в зависимости от масштаба компании, также нужно учитывать ежегодную поддержку с учетом того, что специалисты будут работать в штате. В первую очередь это касается комплексных систем корпоративного класса с длительным циклом внедрения, типа экосистемы Hadoop.

Но есть и альтернативы для тех, кто хотел бы сэкономить.

Об облачных инструментах работы с Big Data стали говорить в конце 2000-х. Несмотря на то, что в целом массивно-параллельные вычисления, которые характерны для этого класса систем, эффективно работают в первую очередь on premise (в локальной инфраструктуре заказчика), модель начала завоевывать рынок. Причем настолько успешно, что Gartner еще в 2017 году начала «списывать» классические дистрибутивы. Аналитики компании утверждали, что продукты не достигнут «плато продуктивности» и проиграет своим облачным аналогам. И, напротив, BDaaS (Big data as a service) стали пророчить светлое будущее. Так, ResearchAndMarkets считает, что этот сегмент мирового облачного рынка к 2026 году вырастет более чем на 36%.

Big Data — это всегда высокая стоимость как барьер для старта проекта?

Своей популярности BDaaS обязана облачной модели оплаты вычислительных ресурсов. По объему первоначальных инвестиций в инфраструктуры Big Data классические решения не идут ни в какое сравнение с облачными продуктами. Стоимость лицензий и в том, и в другом случае примерно одинакова, но она составляет всего от 10 до 30% от всех затрат на проект. Значительную долю финансовых средств съедает железо. Часто его нужно очень много. Кроме того, буквально в каждом первом проекте возникает проблема сайзинга — невозможно сразу понять, сколько ресурсов потребуется. В итоге компании либо покупают оборудования больше, чем нужно. Либо же сталкиваются с нехваткой мощности.

В облаке эту проблему легко решить. Во-первых, необходимый объем ресурсов оплачивается строго по мере потребления, без значительных инвестиций на старте. Во-вторых, существуют различные схемы для оптимизации стоимости услуг. Например, некоторые клиенты предпочитают короткие пилоты. Их цель — проведение разового исследования, проверка гипотезы. В этом случае провайдер может предоставить не только инфраструктуру с почасовой тарификацией, но и временные лицензии на сам программный продукт (что-то типа community edition). Компании, которые с Big Data всерьез и надолго, оплачивают годовую стоимость лицензий. Но и тут есть возможность для экономии: часть заказчиков запускает виртуальные машины в облаке, когда хотят сгенерировать отчет. Они же «гасят» эти виртуальные машины в выходные дни. Таким образом получается уменьшить стоимость облачных услуг до 30%.

Big Data — это всегда долгая реализация?

Модель работы с ИТ — будь они облачными или локальными — принципиально не влияет на сроки разработки архитектуры и настройки системы для анализа больших данных. В среднем по масштабу проекте это длится от 1-2 месяцев на пилот до нескольких лет, если речь идет о полномасштабном проекте для крупного предприятия. Подводным камнем тут, как и в вопросе стоимости всей инфраструктуры, становится железо. Компания крупная, со сложной структурой и большим количеством ответственных? Прибавляйте к срокам проекта минимум полгода. Например, в одной нефтегазовой компании одно лишь согласование бюджета на закупку нужного оборудования занимает не менее двух месяцев. Система класса Big Data горизонтально масштабируемая, то есть если вдруг ИТ-специалисты промахнулись с нужным объемом ресурсов, всегда можно докупить недостающие. И если в облаке добавление мощности происходит по клику в течение нескольких минут (максимум часов), с классическими Big Data процесс может затянуться.

Сложно ли найти квалифицированных специалистов для создания и поддержки Big Data?

В России, как и во всем мире, существует дефицит дата-сайнтистов и тем более дата-инженеров. На одну вакансию, по данным HeadHunter, приходится шесть резюме, в то время как на другие более популярные среди соискателей предложения — восемь и более. Несмотря на то, что такие специалисты очень востребованы в банках, ритейле, госсекторе и промышленности, нужные компетенции накапливаются в основном внутри ИТ-компаний. В целом это совсем не плохо. У клиентов, которые обращаются ко внешней экспертизе, не болит голова, где искать персонал, как его удерживать и платить ФОТ. За последние полгода к нам обращались заказчики, которые могли лишь сформулировать бизнес-задачу. Например, повысить продажи на основе исходных данных. Ни как правильно построить модели прогнозирования спроса, ни тем более какое оборудование выбрать для этого, они не знали. Мы в свою очередь, собирали информацию, строили архитектуру решения, подбирали нужные компоненты инфраструктуры, консультировали и оказывали сервисные услуги. По сути были супермаркетом, в котором клиент мог взять с полки 3 кг облака, 2 часа архитектора, 1 час программиста, взвесить и оплатить все на кассе.

Нужна облачная Big Data: основные шаги

По этому пути компания может пройти самостоятельно, если есть желание и внутренние ресурсы. В ином случае всегда есть возможность привлечь провайдера, который проделает основную часть трудозатратных и рутинных работ.

  1. Формирование предельно конкретной и понятной бизнес-задачи с возможными результатами на выходе;
  2. Проектирование бизнес- и технической архитектуры;
  3. Выделение вычислительных ресурсов, сайзинг решения;
  4. Создание спроектированной инфраструктуры;
  5. Все получилось? Бинго! Вывод в продуктив и эксплуатация.⁠
1 ноября 2023
Незаменимых нет. Сервис на базе Nextcloud вместо привычных корпоративных облаков

Привет, Хабр! Меня зовут Александр Фикс, я менеджер по развитию бизнеса K2 Cloud. Сегодня поговорим о тренде локализации, о том, что происходит на рынке файлообменников с уходом западных решений и какие альтернативные продукты есть у бизнеса в данный момент.

1 минута
1071
19 июня 2023
Семь трендов на рынке облачных услуг в 2023 году
До 2022 года на рынке облаков в России главенствовали мировые тренды, но сейчас наша страна пошла своим путем. О том, для чего сейчас компании используют облачные технологии и как меняется рынок, рассказал директор бизнес-юнита K2 Cloud Сергей Зинкевич.
1 минута
1021
10 января 2023
Заоблачные возможности: как облачные сервисы используются в бизнесе
В 2022 году облачные сервисы стали одним из наиболее стремительно развивающихся направлений в ИТ. Рост рынка облачных вычислений постоянно ускоряется: в 2020 году его подтолкнула пандемия, а в 2022 - курс на миграцию на отечественные решения.
0 минут
837
22 июля 2022
Новый сервис кеширования и другие обновления К2 Облака
В K2 Облаке появился новый PaaS-сервис – сервис кеширования данных. Кроме того, мы расширили возможности управления и настройки сервиса Базы данных. А для упрощения анализа затрат в отчеты биллинга теперь включается информация о назначенных ресурсам тегах.
2 минуты
250
scrollup