Lakehouse как основа корпоративного ИИ: примеры Docusign и Lemongrass

Хранилища данных стали золотым стандартом современных корпоративных платформ обработки данных. Они сочетают в себе преимущества озера данных — экономичное хранение самых разных типов данных — с надёжностью, структурой и управлением классического хранилища данных. Централизуя информацию из разных отделов компании и обеспечивая безопасность и аудит, такие системы становятся идеальной основой для корпоративных ИИ-решений.

Например, Docusign использует платформу Snowflake для реализации своих ИИ-амбиций: данные из Salesforce применяют для обучения внутреннего агента по продажам, а также для совершенствования моделей машинного обучения и повышения точности результатов для клиентов. Информация передаётся через конвейеры встраивания RAG в Large Language Models (LLM). При этом компания тщательно подходит к вопросам безопасности — каждый вариант использования данных проходит проверку и обсуждения с техническими и профессиональными заинтересованными сторонами. «Сначала мы предоставляем данные только с профилем низкого риска», — поясняет Шиви Верма, старший менеджер по проектированию в Docusign. Это может быть, к примеру, общедоступная информация — содержимое сайта компании или данные о продукте.

По словам аналитика Gartner Прасада Пора, среди клиентов Gartner Lakehouse используют уже 65 % компаний — это высокий показатель за короткий срок. Поставщики расширяют свои платформы, добавляя функции ИИ. Так, Databricks и Microsoft Fabric уже имеют встроенные векторные функции, хотя более мелкие поставщики пока не могут предложить такое.

Консалтинговая компания Lemongrass около четырёх лет назад превратила своё классическое озеро данных в Lakehouse. Сейчас компания работает над решением для управления инцидентами и изменениями. Исходные данные находятся в ServiceNow. Извлекать их напрямую из Lakehouse для использования в ИИ-системе слишком дорого, поэтому Lemongrass рассматривает возможность создания MCP-сервера, который будет целенаправленно запрашивать нужные данные. При этом компания планирует перейти от собственных расширений Lakehouse к стандартному решению. AWS предлагает полный набор функций Lakehouse и обеспечивает прямое подключение к Anthropic Claude и другим моделям ИИ — плата за выход при работе в инфраструктуре AWS не взимается. Lemongrass планирует начать модернизацию в третьем квартале этого года с проверки концепции (PoC). При этом важно тщательно выбирать, какие данные и в каком объёме будут передаваться из Lakehouse в модели ИИ. «Мы не отправляем данные о клиентах в LLM», — подчёркивает Каусик Чаудхури, директор по инновациям Lemongrass. Он также отмечает, что нужно контролировать потребление токенов: «Я не читаю 10 000 записей и не отправляю их Клоду — это привело бы к резкому увеличению потребления токенов».

Одна из ключевых проблем — безопасность при доступе агентов ИИ к хранилищам данных. С появлением агентского ИИ и серверов модельного контекстного протокола (MCP) модель работы изменилась: теперь агенты могут сами решать, какие данные им нужны, и извлекать их. По мнению руководителя Genpact Ареллано, компаниям нужно разработать новые концепции для управления идентификационными данными агентов ИИ, контроля доступа к данным, создания контрольных журналов, фильтрации запросов и контента. Некоторые поставщики Lakehouse (например, Databricks) предлагают такую функциональность, также можно интегрировать инструменты от Okta, Palo Alto или Zscaler.

Следующим этапом развития Lakehouse станет семантический уровень. По оценкам Gartner, к 2030 году универсальные семантические уровни станут неотъемлемой частью инфраструктуры. Они отображают бизнес-знания, которые обычно не формализованы в структурированной базе данных — например, термин «клиент» или «заказ» может означать разное в разных корпоративных системах. Без семантического уровня агент ИИ может не знать, где искать нужные данные, либо выполнять ошибочные действия, которые приведут к росту затрат.

Семантический уровень также может стать частью процесса обучения и обратной связи. Кевин Мартелли, руководитель консалтинговой компании EY Americas по разработке решений для ИИ, приводит пример: финансовый директор должен одобрить платежи свыше 500 000 долларов. Агент ИИ запрашивает одобрение сотрудника, а тот поясняет: «Я должен опубликовать этот счёт, но я знаю, что суммы свыше 500 000 долларов требуют дополнительного одобрения финансового директора». Эту информацию можно сохранить и использовать в дальнейшем — так агентские системы будут учиться с каждым использованием. Однако семантический уровень пока на ранней стадии разработки, и разные поставщики Lakehouse используют разные подходы.

Стивен Каран, вице‑президент Capgemini по трансформации ИИ в Австралии и Новой Зеландии, видит в Lakehouse эволюцию в сторону централизованного уровня оркестровки. По его словам, эффективные архитектуры сочетают ядро Lakehouse со специализированными серверными уровнями — векторными базами данных для ИИ, потоковыми платформами для передачи данных в реальном времени и операционными базами данных для приложений с низкой задержкой. Lakehouse уже не только для аналитики — это основа корпоративных данных и ИИ, которая объединяет, централизованно управляет и мониторит системы, помогая компаниям быстрее внедрять инновации, не теряя контроля над данными.