Почему мощных видеокарт недостаточно для ИИ

Привет! Меня зовут Дмитрий Шиченко, я руководитель отдела разработки встроенных систем в Selectel. Сегодня компании активно ищут способы применения ИИ, чтобы повышать эффективность бизнес-процессов. Но в погоне за быстрым результатом они часто упускают ключевые детали внедрения, которые в итоге и определяют успех или провал проекта. В результате процесс внедрения ИИ в бизнес выглядит для них следующим образом: компания хочет увеличить эффективность за счёт ИИ, поэтому покупает сервер с мощными видеокартами, развёртывает модель и PyTorch — и думает, что на этом всё готово. Однако на практике всё сложнее: без тщательной подготовки эффективность от GPU‑сервера будет минимальной. Это всё равно что ехать на болиде Формулы‑1 по гравию — мощность есть, но результата нет. В статье разберём, как построить сбалансированную ИИ‑инфраструктуру для инференса и какие принципы мы заложили в собственный AI‑сервер Selectel.

Из чего состоит пайплайн инференса

Не существует универсального сервера для ИИ. Есть инфраструктура, которая заточена под конкретный пайплайн и реальный профиль нагрузки. Прежде чем перейти к выбору железа для ИИ, зафиксируем базовую информацию. При построении ИИ‑систем можно выделить три уровня оптимизации: прикладной, инфраструктурный и аппаратный.

Прикладной уровень показывает, насколько эффективно модель решает конкретную задачу и использует доступные вычислительные ресурсы. Сюда входят выбор архитектуры модели, квантование, методы параллелизма, алгоритмы инференса и оптимизация вычислений.

Инфраструктурный уровень отвечает за стабильную работу модели в продакшене. Здесь уже речь идёт об уровне обсервации, управлении жизненным циклом и отказоустойчивости. Такой подход уходит в сторону MLOps.

Аппаратный уровень связывает требования модели и инфраструктуры с реальными ресурсами. С его помощью можно узнать, как устроена вычислительная нода, из каких компонентов она состоит и как GPU, CPU, память, сеть и хранилище влияют на производительность моделей.

Представим, что у нас есть большая языковая модель или модель компьютерного зрения. Вот так будет выглядеть пайплайн инференса в реальном времени. Давайте пошагово разберём, что происходит на аппаратном уровне.

Сначала мы получаем по сети пользовательский запрос, который нагружает сетевую карту. Далее загружаем полученные данные в оперативную память, после чего начинается постоянный обмен данными между оперативной памятью и центральным процессором.

Именно на CPU происходит предпроцессинг — предварительная обработка данных, то есть нормализация и токенизация. Нормализация приводит исходный текст или числовые данные к единому стандартизированному виду. Затем текст разбивается на фрагменты (токены), с которыми непосредственно работает архитектура нейросети‑трансформера.

После этого мы формируем очередь запросов в определённой последовательности, чтобы передать эти данные в GPU. При этом отслеживаем совместимые запросы и объединяем их в батчи. Дальше передаём все запросы по PCIe‑шине в видеопамять.

Один из самых ресурсоёмких этапов пайплайна — это префил. Мы делаем первый проход и используем декодирование, где с каждым запросом генерируем последующий токен с помощью KV‑кэша.

Выходные данные модели передаём на центральный процессор, где происходит их постобработка. Из токенов получаем человекочитаемые символы и слова, которые передаём на сетевую карту и отдаём конечному пользователю.

Как видите, процесс завязан не только на GPU. В пайплайне много разных элементов, которые вносят непосредственный вклад в эффективность и производительность всей системы.

Хотите выиграть призы и бонусы на аренду серверов? Приглашаем решить ИТ‑кроссворд! Более 100 вопросов на разные темы из мира ИИ и машинного обучения — ежедневно с 6 по 9 июля. Зарегистрироваться →

Как построить сбалансированную и эффективную ИИ‑инфраструктуру для инференса

Наш отдел детально разобрал весь пайплайн по шагам: как движутся данные, какие вычислительные узлы задействованы и как они взаимодействуют между собой. В результате мы разработали AI‑сервер Selectel с прицелом на сбалансированный инференс. Нам удалось уйти от простой агрегации GPU к гармонизации работы всех элементов инференса: видеокарт, центральных процессоров, шин ввода‑вывода и оперативной памяти.

AI‑сервер Selectel — это 8U‑платформа для высокопроизводительных вычислений. В неё можно установить до 16 полноформатных видеокарт, например RTX Pro 6000 Server Edition, чтобы получить большое количество CUDA‑ядер на одну ноду. К материнской плате подключены два процессора Intel® Xeon® 6, в каждом — до 144 ядер, которые позволяют без задержек подготавливать данные для обработки на GPU. Кроме того, сервер поддерживает NVlink, современную архитектуру PCIe 5.0 и возможность установки до 8 ТБ оперативной памяти DDR5.

Процессор:
- Intel® Xeon® 6700E;
- Intel® Xeon® 6500P.

Архитектура:
- Sierra Forest;
- Granite Rapids.

Количество ядер:
- 64–144;
- 32–86.

Количество потоков:
- 144;
- 64–172.

Базовая частота / Turbo:
- 2,4 ГГц / 3,2 ГГц;
- 2 ГГц / 4,3 ГГц.

Количество сокетов:
- 2;
- 2.

Давайте на примере AI‑сервера разберём, какие архитектурные принципы позволяют оптимизировать вывод моделей и какие легли в основу разработки нашей платформы.

Баланс ресурсов

В пайплайне инференса важно отслеживать баланс между CPU и GPU. С одной стороны, у нас есть современные процессоры до 144 ядер, которые позволяют выполнять предпроцессинг больших объёмов данных. Их можно обрабатывать на актуальных графических картах NVIDIA® без задержек.

С другой стороны, важным элементом производительности является соотношение вычислительной ноды и оперативной памяти. С 4 ТБ памяти DDR5 на частоте 6400 МГц увеличивается пропускная способность и скорость доступа к памяти.

Интерконнекты

Интерконнекты отвечают за соединение всех компонентов внутри сервера. Обмен данными между CPU и GPU происходит по PCIe 5.0 с пропускной способностью до 128 ГБ/с. Передача данных между GPU осуществляется через NVLink с поддержкой до четырёх карт и пропускной способностью до 900 ГБ/с. При построении больших многонодовых систем важнейшим фактором является связанность между нодами, где пропускная способность достигает 400 ГБ/с.

Топология

Мы разрабатывали топологию материнской платы с оглядкой на несколько составляющих. Во‑первых, на NUMA‑ноды, где каждый вычислительный узел имеет быстрый локальный доступ к оперативной памяти. Во‑вторых, на детерминированную архитектуру PCIe‑линий. Их мы делим на две зоны доступности: tier‑1 — это графические карты, которые связаны с CPU; tier‑2 — сетевые карты и прочая периферия, которые нужны для того, чтобы пользователь мог сбалансированно получать быстрые ответы. В‑третьих, на CXL‑совместимую экосистему. Это наш задел на будущее, о котором я чуть позже подробнее расскажу.

Дезагрегация ресурсов

Ниже — таблица этапов инференса и ключевых ресурсов, от которых зависит производительность на каждом этапе. Как мы видим, перечисленные проблемы могут отразиться на клиенте и стать заметными для конечного пользователя.

При этом фиксированный набор ресурсов сервера не способен удовлетворить динамический спрос на ресурсы. Возникает проблема: как эффективно и надёжно использовать фиксированный набор ресурсов для решения динамических задач? Ответ заключается в архитектурном подходе, который называется дезагрегацией. Дезагрегация позволяет гибко настраивать и подключать ресурсы. С помощью высокоскоростных интерконнектов и протокола CXL мы подключаем удалённые пулы RAM, CPU, GPU и дисков и получаем масштабируемую среду под конкретную нагрузку. Кроме того, дезагрегация предоставляет для всех компонентов системы единое адресное пространство, которое превращает весь дата‑центр в единый суперкомпьютер.

Теперь переходим от теории к практике: рассмотрим, как работает дезагрегация на реальном оборудовании в условиях современных задач. Возьмём кейс с подключением удалённой оперативной памяти и последовательно запустим на сервере тесты.

Тест №1. Это синтетический тест Memory Latency Checker с тремя разными видами памяти: локальная RAM, установленная в сервере, — 8x 32 ГБ Samsung 4800 DDR5 M321R4GA0BB0-CQKET (256 ГБ); удалённая память, подключённая через LRDR9G91, CXL Expander и 2x 128 ГБ Samsung 4800 DDR5 M321R4GA0BB0-CQKET (512 ГБ); смешанная память — локальная и удалённая.

Итак, рассмотрим график зависимости задержки инъекции от пропускной способности памяти. Красная линия — локальная память, которая установлена в сервере. Синяя линия — удалённая подключённая память, жёлтая — смешанная память.

Задержка инъекции (delay injection) — это параметр, который определяет время задержки между последовательными запросами к памяти, то есть время ожидания перед тем, как система отправит следующий запрос к памяти после предыдущего.

Наглядно видно, что в синтетических тестах CXL заметно уступает обычной оперативной памяти. Однако в реальных приложениях нулевых задержек не бывает, поэтому накладные издержки на запросы к кешу и RAM будут всегда присутствовать. Например, в PostgreSQL задержка инъекции составляет около 200 нс. Поскольку архитектура моделей отличается от баз данных, в качестве ориентира будем использовать базовую задержку в 50 нс.

Получается, что с учётом задержки 50 нс пропускная способность локальной памяти составляет порядка 270 Гбит/с или 33,75 ГБ/с, а пропускная способность смешанной памяти — 50 Гбит/с или 6,25 ГБ/с. Как видите, пропускная способность хуже примерно в 5,5 раз.

Тест №2. Здесь те же условия, но измерять будем отношение задержки ответа памяти к задержке инъекции. Красным обозначена локальная RAM, синим — смешанная RAM.

Задержки ответа (latency) — это время задержки между моментом, когда процессор запрашивает данные из модуля памяти, и моментом, когда эти данные готовы к использованию.

На базовой задержке приложения в 50 нс мы получаем кратную разницу: примерно 170 нс для локального RAM и 1 170 нс для RAM+CXL. Соответственно, и в этом показателе разница в 6,7 раза.

На основе этих графиков можно сделать вывод, что за всё приходится платить. Гибкое масштабирование серверов позволяет быстро наращивать ресурсы, если возрастает в этом потребность. Но, с другой стороны, задержки доступа к памяти, которые мы получаем, выходят за рамки стандартных и незаметных для пользователя. Полная утилизация — важный параметр, который позволяет снизить затраты на внедрение ИИ в компаниях, но на данном этапе развития технические ограничения не позволяют получить этой выгоды.

На мой взгляд, с развитием технологий интерконнектов, в том числе CXL 3.0, одним из ключевых подходов для возрастающих ИИ‑нагрузок станет дезагрегация. Компании всё чаще будут строить свою инфраструктуру на базе гибких ресурсов, потому что это экономически выгоднее. Конечно, для широкого применения сама технология должна стать более зрелой и совершенной, чтобы пропускная способность и задержки не сильно отличались от локальной памяти.

Реальные кейсы использования. Всё аппаратное обеспечение, которое мы используем в наших дата‑центрах, мы детально тестируем на разных уровнях — например, на отказоустойчивость, функциональные характеристики, пользовательские сценарии и прочее. Именно такие тесты для AI‑сервера Selectel и выполняли наши MLOps‑инженеры, попутно решая реальные задачи для бизнеса. Ниже рассмотрим два кейса с локальным инференсом моделей.

Первый кейс. Рассмотрим инференс корпоративной LLM для работы с внутренней документацией, поиска по базе знаний и генерации отчётов. У нас будет типичная enterprise‑нагрузка для среднего бизнеса, а именно: несколько сотен пользователей, в нашем случае 200 сотрудников; запросы в течение рабочего дня; требование безопасности — данные не выходят в публичный контур.

Решение. Мы использовали модель Qwen 3.5 с 400 миллиардами параметров. У н

У неё достаточно большое контекстное окно, поэтому она эффективно работает с объёмными документами. Основные задачи — анализ и поиск по документации. Для этого мы подобрали конфигурацию с учётом нагрузки: AI‑сервер Selectel, восемь графических карт H100, 112‑ядерный процессор Intel 6746Е, 512 ГБ памяти DDR5, NVMe‑диски и сеть со скоростью 10 Гбит/с. Видеокарты H100 — не самое производительное решение, но по соотношению цена/производительность отлично подходят под запрос. Результат, который мы получили, превзошёл даже наши ожидания. Генерация составила порядка 500 токенов в секунду.

Второй кейс. Теперь рассмотрим более сложный и интересный сценарий — локальный инференс сверхбольшой MoE‑модели (Mixture of Experts) с длинным контекстом. Такая модель позволяет создавать корпоративные базы знаний, ассистентов разработчика, сложные системы аналитики и внутренних ИИ‑ассистентов для сотрудников.

Ключевые требования:
* данные не покидают периметр;
* большой контекст — десятки или сотни тысяч токенов;
* много одновременных пользователей — порядка тысяч;
* приемлемая задержка.

Решение. Для решения такой ресурсоёмкой задачи мы использовали Kimi K2 с триллионом параметров. Из‑за её архитектуры нагрузка на вычисления и память распределяется по‑другому, чем у обычных моделей. У Kimi K2 активна только часть параметров, поэтому требуется меньше вычислений. При этом все веса должны быть доступны, из‑за чего растут требования к памяти. KV‑cache сильно увеличивается из‑за длинного контекста. Доступ к памяти становится непредсказуемым, что приводит к высокой нагрузке на пропускную способность.

Для этого мы модернизировали нашу конфигурацию. Разумеется, поменяли карты на RTX PRO 6000 Server Edition и увеличили до 2 ТБ оперативной памяти DDR5. Также повысили скорость передачи данных по сети, чтобы не было узкого места при одновременных обращениях пользователей. Результат составил около 150 токенов в секунду генерации. Да, это значительно меньше, чем в предыдущем эксперименте, но нужно учитывать масштаб и сложность модели.

На практике даже 50 токенов в секунду хватает для комфортного диалога: нейросеть успевает выдавать ответы быстрее, чем их прочитает человек. Поэтому показатели в 150 токенов в секунду — очень достойный результат.

Заключение. Инфраструктура для инференса искусственного интеллекта — это сложная, многоуровневая экосистема, которая выходит далеко за рамки простой закупки мощных графических процессоров. Успешное развёртывание моделей в продакшене требует комплексного проектирования четырёх взаимосвязанных уровней.

Специфика входящего потока данных. Необходимо анализировать тип контента (текст, аудио, видео высокого разрешения), размер пакетов и характер трафика. Импульсные операции или непрерывный стриминг требуют принципиально разных архитектурных решений для минимизации задержек.

Архитектура серверного оборудования. Производительность GPU может быть ограничена остальными компонентами ноды. Критически важны пропускная способность шины PCIe, скорость и объём оперативной памяти (DRAM) и видеопамяти (HBM), быстродействие локальных NVMe‑накопителей, а также высокоскоростные интерконнекты для связи между серверами.

Архитектура модели. Количество параметров, глубина нейросети и тип архитектуры напрямую определяют требования к вычислительным ресурсам. Оптимизация под конкретное железо — например, квантование до INT8/FP4 или прунинг — критически важна для эффективного распределения весов модели в памяти.

Бизнес‑метрики и общие внешние ограничения. Инженерные решения должны строго соответствовать целевым показателям бизнеса. Сюда относятся требования к SLA по времени отклика, бюджетные лимиты на обслуживание, планируемый масштаб системы и совокупная стоимость владения инфраструктурой.

Хотите создать собственную инфраструктуру для ИИ? Возьмите AI‑сервер Selectel в тест, а после арендуйте его у нас или закажите с доставкой в свой дата‑центр. Сервер подойдёт компаниям, которые запускают инференс LLM, HPC‑расчёты или аналитику больших данных. Подайте заявку, чтобы бес

Платное тестирование AI‑сервера Selectel для задач в сфере искусственного интеллекта.

Теги: ai, hardware, сервер, Selectel, машинное обучение, ML, IT‑инфраструктура.

Хабы: Блог компании Selectel, IT‑компании, IT‑инфраструктура, машинное обучение, искусственный интеллект.

Нравится +20 Не нравится

Добавить в закладки 9

Комментарии 3256K+

Охват за 30 дней: Selectel, ВКонтакте, Telegram, Сайт — 8K+.

Охват за 30 дней: 12.

Карма.

Дмитрий @Dmitrii_Shichenko, руководитель разработки встроенных систем, Selectel.

Отправить сообщение.

Комментарии.

Комментарии: 3.

Лучшие за сутки.

Похожие.

Сайт: slc.tl.

Дата регистрации: 15 марта 2010.

Дата основания: 11 сентября 2008.

Численность: 1 001–5 000 человек.

Местоположение: Россия.

Представитель: Александр Шилов.