Создание бизнес-ценности из озер данных: реальные примеры составных продуктов данных
7 минут на чтение

Создание бизнес-ценности из озер данных: реальные примеры составных продуктов данных

Позвольте мне поделиться мыслями, которые меня терзают в последнее время: переход от восприятия озёр данных как огромных хранилищ к пониманию их как активной основы для создания составных продуктов данных. Эта трансформация меняет то, как организации фактически используют свои данные. Мой коллега Харичаруан недавно написал хорошую статью в блоге о фундаментальных основах продуктов данных: Основы информационных продуктов: что это такое, почему они важны и с чего начать? – Блог SOLIX

О чем мы на самом деле говорим

Когда я говорю «композитные данные», я описываю нечто весьма конкретное: тщательно отобранные, готовые к использованию наборы данных, которые объединяют необработанную информацию из различных источников в вашем озере данных, а затем упаковывают её таким образом, чтобы её могли использовать бизнес-приложения и приложения на базе искусственного интеллекта. Это можно сравнить с разницей между разбросанными по кладовой ингредиентами и готовыми наборами для готовки.

Реальные примеры, которые действительно работают

Обзоры клиентов в розничной торговле на 360 градусов

Я наблюдал, как несколько розничных компаний создавали так называемые продукты для обработки данных «Клиент 360». Возьмём, к примеру, крупного ритейлера с многоканальным подходом. Они объединяют усилия:

  • Транзакции в точках продаж из физических магазинов
  • Данные о посещениях и покупках в сфере электронной коммерции
  • Журналы взаимодействия со службой поддержки клиентов
  • Показатели вовлеченности в программу лояльности
  • Данные о настроениях в социальных сетях

Комплексный продукт данных централизует всё это в среде озера данных, создавая унифицированный профиль клиента, который напрямую передается в платформу автоматизации маркетинга, на информационные панели обслуживания клиентов и в системы персонализации. Бизнес-приложению больше не нужно отправлять запросы в шесть разных систем — оно получает доступ к одному расширенному и проверенному продукту данных.

Практический эффект? Теперь их маркетинговая команда может запускать персонализированные кампании, основанные на реальном поведении клиентов по всем каналам, а не только на событиях в одном отдельном канале.

Профилактическое обслуживание в производстве

Вот пример использования, который действительно демонстрирует мощь композиции. Производственная компания, за которой я наблюдал, создаёт продукт для обработки данных предиктивного технического обслуживания, объединяя:

  • Данные датчиков в режиме реального времени с устройств Интернета вещей на заводском оборудовании
  • Исторические записи о техническом обслуживании и заказы на работу
  • Информация о запасах деталей и цепочке поставок
  • Производственные графики и показатели качества продукции
  • Внешние факторы, такие как погодные условия, влияющие на производительность оборудования

Этот скомпонованный набор данных используется в их приложениях для планирования технического обслуживания и системах планирования производства. Преимущество в том, что команда по обработке данных берёт на себя всю сложную работу — очистку данных датчиков, нормализацию записей о техническом обслуживании и дополнение контекстной информацией, — а бизнес-приложение просто потребляет чистый, готовый к аналитике продукт.

Результат? Им удалось сократить время незапланированных простоев, выявляя закономерности ухудшения состояния оборудования за несколько недель до выхода из строя.

Продукты для оценки финансовых рисков

В сфере финансовых услуг я видел несколько сложных продуктов для оценки данных рисков. Банк среднего размера создаёт комплексный продукт для оценки кредитного риска, который включает в себя:

  • История транзакций из основных банковских систем
  • Отчеты и оценки кредитных бюро
  • Индикаторы волатильности рынка
  • Демографические данные и данные о занятости клиентов
  • Экономические показатели, привязанные к географическим регионам

Этот централизованный продукт обработки данных лежит в основе их системы выдачи кредитов, панелей управления рисками портфеля и приложений для подготовки нормативной отчетности. Каждое бизнес-приложение получает именно то представление данных о рисках, которое ему необходимо, без необходимости разбираться в базовой архитектуре озера данных.

Группа по обеспечению соответствия особенно ценит этот подход, поскольку они могут проверять и проверять один продукт данных, а не отслеживать, как каждое приложение по-разному преобразует необработанные данные.

Кроме того, команды управления могут проверять результаты обработки данных, чтобы убедиться в отсутствии предвзятости в этих системах. Я уже писал об этом ранее (Недостающий элемент в управлении ИИ: борьба с предвзятостью на входе и выходе – блог SOLIX). В такой потенциально чувствительной системе, как оценка рисков, устранение любых смещений в консолидированных данных имеет решающее значение.

Пример аналитики здравоохранения

Один из наиболее интересных примеров использования, с которыми я столкнулся, связан с сетью здравоохранения, создающей продукты для сбора данных о здоровье населения. Они включают:

  • Электронные медицинские карты из нескольких больничных систем
  • Данные о претензиях и выставлении счетов
  • Учет отпуска лекарств в аптеках
  • Социальные детерминанты здоровья из источников общественных данных
  • Результаты, сообщаемые пациентами с помощью мобильных приложений

Полученный продукт данных используется приложениями для управления медицинским обслуживанием, выявляет пациентов высокого риска для программ вмешательства и поддерживает отчётность по уходу на основе ценности. Клиническим приложениям не требуются экспертные знания в области обработки данных — они просто используют проверенный продукт данных, соответствующий требованиям конфиденциальности.

Ключевой момент здесь: среда озера данных позволяет им хранить подробные клинические данные в состоянии покоя, в то время как комбинированный продукт данных предоставляет надлежащим образом агрегированные, обезличенные представления для различных аналитических целей. Как упоминалось ранее, обеспечение контроля со стороны команд управления на предмет любых возможных смещений крайне важно для систем здравоохранения, использующих ИИ на основе комбинированных продуктов данных.

Аналитика цепочки поставок в сфере товаров повседневного спроса

Компании, производящие потребительские товары, создают продукты для оптимизации данных цепочки поставок для приложений ИИ, которые объединяют в себе:

  • Показатели эффективности работы поставщиков и данные о доставке
  • Индексы цен на сырье и сырьевые товары
  • Данные о производственных мощностях и планировании
  • Уровни запасов распределительного центра
  • Сигналы прогнозирования спроса от розничных партнеров

Этот комплексный продукт служит основой для приложений закупок, систем планирования производства и инструментов оптимизации логистики. Бизнес-пользователи взаимодействуют с приложениями, отражающими полную картину цепочки поставок, а базовое озеро данных справляется со сложной интеграцией данных от десятков поставщиков, производственных площадок и партнеров по дистрибуции.

Что заставляет их работать на практике?

Отличные продукты данных легко обнаруживаются (каталогизированы, маркированы и принадлежат владельцам), адресуются (стабильные URI и версионированные конечные точки), безопасны (доступ с минимальными привилегиями, маскирование, шифрование), понятны (бизнес-глоссарий, происхождение, примеры), управляются (политики в виде кода, SLA, хранение или юридические удержания) и заслуживают доверия (качественные SLO, аудиторские журналы, воспроизводимые чтения).

Но есть и другие ключевые атрибуты для предоставления успешных комбинированных продуктов данных:

  • Четкое владение бизнесом: У каждого продукта данных есть определенный владелец бизнеса, который понимает варианты использования и может подтвердить, что составленные данные действительно отвечают потребностям бизнеса.
  • Управляемое качество данных: Слой композиции реализует правила проверки, обрабатывает недостающие данные и обеспечивает согласованность до того, как бизнес-приложения начнут использовать продукт.
  • Контроль версий и происхождение: При изменении исходных данных или развитии логики композиции можно четко отслеживать, что именно изменилось и как это повлияло на последующие приложения.
  • Оптимизация эффективности: Составленный продукт данных структурируется и хранится в форматах, которые обеспечивают баланс между производительностью запросов для бизнес-приложений и эффективностью хранения.
  • Контроль доступа и соблюдение требований: Правила безопасности и конфиденциальности применяются на уровне продукта данных, поэтому бизнес-приложения наследуют соответствующие элементы управления доступом, не реализуя их независимо.

Практические преимущества, которые я вижу

Организации, успешно внедряющие эти комбинированные продукты данных, сообщают о некоторых ощутимых преимуществах:

Они сокращают время разработки новых бизнес-приложений и приложений ИИ, поскольку сложная работа по интеграции данных уже выполнена. Их команды бизнес-аналитики тратят меньше времени на обработку данных и больше на формирование аналитической информации. Повышается согласованность данных, поскольку несколько приложений используют один и тот же составной продукт, а не создают собственные преобразования. И, пожалуй, самое главное, управление данными становится более управляемым, поскольку они управляют отобранными продуктами, а не пытаются контролировать каждый прямой доступ к необработанному содержимому озера данных.

«Взгляд вперед» в соавторстве с Кеннетом Кейсом,

Наблюдаемая мной тенденция предполагает, что мы движемся к средам озер данных, которые функционируют не столько как пассивное хранилище, сколько как активные фабрики продуктов, такие как Solix Data Lake Plus (Решение SOLIXCloud Data Lake | Объедините свои данные). Необработанные данные хранятся в озере, но бизнес-приложения фактически потребляют эти тщательно составленные, проверенные и готовые для бизнеса продукты данных.

Это тонкое, но важное различие, которое, как показывает практика, определяет разницу между озерами данных, приносящими бизнесу пользу, и теми, которые превращаются в дорогостоящие хранилища данных.