>> deep digest // AI на русском
MIT Technology Review AI ·

Новый уровень инфраструктуры веб-данных: как это изменит искусственный интеллект в России и мире

Развитие искусственного интеллекта во многом зависит от доступа к актуальным и структурированным данным. Существующие ограничения в получении и обработке веб‑данных мешают моделям ИИ показывать высокую эффективность. Новая инфраструктура веб‑данных может решить эту проблему, обеспечив быстрый доступ к информации в режиме реального времени и преодолев технические барьеры.

Новый уровень инфраструктуры веб-данных: как это изменит искусственный интеллект в России и мире

Партнёрство с Bright Data открывает новые возможности для развития искусственного интеллекта. Ежедневно появляются новые способы применения технологии, однако для полного раскрытия её потенциала предприятиям нужны масштабируемые данные. Проблема в том, что значительная часть нужной информации либо заблокирована, либо неструктурирована — это мешает моделям ИИ эффективно работать.

Интернет изначально не был рассчитан на автоматическое обнаружение и поиск данных, которые требуются современным ИИ‑приложениям. Чтобы преодолеть это ограничение, необходима новая инфраструктура веб‑данных. Она должна уметь ориентироваться в сотнях миллионов веб‑доменов и миллиардах новых URL‑адресов, которые появляются каждую неделю, предоставлять информацию в режиме реального времени и преодолевать технические барьеры.

Сегодня производительность ИИ всё больше зависит не только от архитектуры модели, но и от способности системы быстро и надёжно извлекать свежие, релевантные и достоверные данные. Традиционное обучение моделей на статичных данных уже не отвечает потребностям бизнеса. Чтобы отслеживать изменения — например, цены конкурентов, настроения потребителей и рыночные тенденции — компаниям нужен постоянный приток новой информации в актуальном контексте.

По данным одного опроса, 56 % специалистов по ИИ считают, что доступ к веб‑данным в режиме реального времени необходим для повышения доверия к результатам работы ИИ. При этом многие системы по‑прежнему с трудом выдают актуальные и достоверные результаты. По оценке Gartner, 60 % проектов в области ИИ, которые не поддерживаются качественными данными, будут заброшены к концу года.

Многие организации объединяют в своих ИИ‑приложениях общедоступный веб‑поиск, API, лицензированные наборы данных и внутренние данные. Чтобы интегрировать эти разрозненные источники в единый рабочий уровень знаний, требуются специальные возможности. Исследования показывают, что 97 % компаний, работающих с ИИ, зависят от веб‑инфраструктуры передачи данных в реальном времени, но 90 % из них сталкиваются с различными ограничениями.

Новые платформы могут имитировать поведение пользователя при просмотре веб‑страниц — так они получают доступ к контенту и преобразуют необработанный код в структурированные потоки данных. Такие системы способны работать даже с теми сайтами, которые плохо взаимодействуют с традиционными инструментами очистки данных. При этом платформы соблюдают глобальные стандарты конфиденциальности (например, GDPR) и работают в рамках правил доступа к общедоступной информации.

Инфраструктура для поиска данных в реальном времени открывает новые возможности для ИИ в организациях. Например, розничные компании могут использовать общедоступные данные для динамического ценообразования, а мировые бренды — отслеживать нарушения прав на товарные знаки. Организации, которые инвестируют в новую инфраструктуру данных, смогут создавать более надёжные и адаптивные системы ИИ, способные постоянно обновляться с учётом актуальных веб‑данных.

Источник: MIT Technology Review AI
6 просмотров