OpenAI снизила затраты на вывод моделей ИИ более чем наполовину

Инженеры OpenAI нашли способ сократить затраты на вывод для существующих моделей искусственного интеллекта более чем наполовину. Как сообщает The Information со ссылкой на информаторов, успех связан с новым методом оптимизации — он заметно повышает эффективность обработки запросов к моделям ИИ. Изначально подход разрабатывали, чтобы сделать ChatGPT эффективнее для пользователей с бесплатными учётными записями. Во время тестирования выяснилось, что количество графических процессоров NVIDIA, необходимых для обслуживания, сократилось до нескольких сотен. Конкретный метод, который применила OpenAI, не раскрывается. Обычно в таких случаях компании используют квантование, кэширование ключ‑значение (хранение данных из предыдущих вычислений), пакетную обработку и маршрутизацию запросов к менее мощным частям языковой модели. Оптимизация больших языковых моделей (вычислительные множители) часто остаётся секретной — так компании сохраняют конкурентное преимущество и борются с нехваткой вычислительных мощностей. Благодаря экономии OpenAI может увеличить валовую прибыль: в первом квартале 2026 года она составляла 39 %, а к концу года ожидается рост до 52 %. Кроме того, компания способна снизить цены на API или повысить лимиты запросов — это позволит ей опережать конкурентов по затратам. При этом в течение года эффект от повышения эффективности может снизиться: появятся более крупные языковые модели с большим числом параметров.