Anthropic и OpenAI на треке AI4S: новые инструменты и бенчмарки

30 июня Anthropic и OpenAI одновременно представили свои решения на треке AI4S. Компания Anthropic выпустила инструмент для научных исследований Claude Science. В нём не используются новые модели — вместо этого существующие возможности объединяются с помощью рабочих процессов, чтобы упростить повседневную работу учёных. OpenAI запустила GeneBench-Pro — набор тестов для оценки, охватывающий 10 областей, включая геномику и количественную биологию. Тесты демонстрируют, что даже самый мощный GPT-5.6 Sol имеет сквозной коэффициент прохождения всего 28,7% среди 129 реальных тем для научных исследований.

Направления деятельности компаний кажутся разными, но оба гиганта сходятся в одном: узким местом AI4S уже не является недостаточная надёжность модели — проблема в том, что она пока не может стать по‑настоящему универсальной. Anthropic решила интегрировать существующую модель в масштабируемый рабочий стол и использовать цепочку инструментов и процессов, чтобы компенсировать её ненадёжность. OpenAI же поставила задачу заранее определить, что считается завершением задач научного исследования, и закрепить право голоса в стандарте.

Ранее Google DeepMind много лет активно работал в сфере ИИ и науки: разрабатывал базовые модели вроде AlphaFold, а платформа Gemini for Science объединяла собственные ресурсы с базами данных, чтобы выйти на тот же рынок через интеграцию. Ситуация в AI4S постепенно перешла от одиночного соревнования за возможности моделей к борьбе за экологические ниши и рабочие процессы.

OpenAI в GeneBench-Pro полностью имитировала реальный рабочий процесс научных исследований: от очистки исходных данных, контроля качества, моделирования, диагностики до выводов. Критерии оценки выстроены как строгая бинарная система — засчитываются только полностью верные решения. Даже если все промежуточные этапы анализа выполнены правильно, но итоговый вывод ошибочен, вопрос получает 0 баллов.

Согласно данным, Claude Opus 4.8 (самая мощная модель без GPT) имеет коэффициент прохождения 16%. Это показывает: модель способна замечать отклонения в данных и распознавать внешние диагностические сигналы, но не может преобразовать эти знания в методологические корректировки и принимать верные аналитические решения. OpenAI назвала этот дефект «разрывом между уведомлением и действием».

Ву Хао, основатель и гендиректор Romi Technology, выделил три структурных недостатка универсальных больших языковых моделей в науках о жизни:
* сложно напрямую понять структуру исходных биологических данных;
* многие биологические явления (например, экспрессия генов) случайны и не укладываются в правила токенизации текста;
* в биологических данных часто много неизвестных пропущенных значений.

Ещё один важный фактор — стоимость исследований. По данным GeneBench-Pro, работа ручного эксперта по одному вопросу может стоить тысячи долларов. Если модель ненадёжна, исследовательским учреждениям приходится и дальше полагаться на дорогую рабочую силу. К тому же в науках о жизни действуют очень жёсткие требования к соответствию данных нормативам.

Три гиганта выбрали разные подходы к AI4S, но все они ведут к одной цели — созданию незаменимой базовой инфраструктуры для работы учёных. Подход Anthropic можно назвать прямолинейным: Claude Science работает как специализированный рабочий стол. ИИ-ассистент разбивает задачи, распределяет их между помощниками и проверяет с помощью программы проверки фактов. Он интегрирует более 60 научных баз данных и создаёт наборы инструментов (для геномики, анализа структуры белка, химии и др.). Суть технологии — вызов внешних вертикальных моделей (например, scGPT для обработки данных об отдельных клетках или DNABERT для анализа последовательностей генов) через протокол MCP. Claude при этом выполняет задачи понимания естественного языка, разбора задач и интерпретации результатов. Такой подход позволяет избежать высоких затрат на логический вывод при обработке биологических данных и обрабатывать конфиденциальные данные на локальном сервере MCP без загрузки в облако.

Логика OpenAI — использовать GeneBench-Pro как рефери (чтобы определить, что такое хороший AI4S), а специальную модель GPT-Rosalind — как спортсмена для достижения высоких результатов. GPT-Rosalind адаптирована для биологических исследований, в США её уже можно получить в виде предварительной версии для исследований (с проверкой безопасности) квалифицированным корпоративным заказчикам.

У Google DeepMind свой козырь: компания владеет базовыми научными моделями (AlphaFold, AlphaGenome) и сотрудничает с Gemini for Science, интегрируя более 30 баз данных по биологическим наукам. Главное преимущество — собственная базовая инфраструктура, доступ к которой другие игроки получают через сервис. Например, способность предсказывать структуру белка остаётся в руках Google.

С точки зрения рыночной стратегии подходы тоже различаются. Anthropic делает ставку на популяризацию подписки — Claude Science доступен подписчикам Pro, Max, Team и Enterprise. Недавно компания также запустила программу финансирования в размере 30 000 евро на 50 программ для докторантуры и аспирантуры (заявки принимаются до 15 июля). OpenAI придерживается более закрытого подхода: стандарты открыты, но модель остаётся закрытой, доступ контролируется корпоративно. Google же опирается на собственные ресурсы, создавая барьеры: чем глубже модель используется, тем теснее становится её интеграция.

Каждый из трёх игроков имеет свои сильные стороны и уязвимые места. Например, Anthropic рассчитывает, что в краткосрочной перспективе потолок не будет преодолён, и делает ставку на инженерные разработки. OpenAI надеется, что потолок рано или поздно будет преодолён, и делает ставку на стандарты и возможности модели. А владение исходным кодом базовой модели даёт серьёзное преимущество в долгосрочной перспективе.

Интересно, что фармацевтический гигант Novo Nordisk фигурирует в списках как клиент Claude Science (от Anthropic), так и партнёр по ранней версии Rosalind (от OpenAI). Это показывает, что рынок ещё находится в стадии открытой конкуренции — ни один разработчик пока не обладает достаточно мощным инструментарием, чтобы учёные перенесли на него весь рабочий процесс. Вероятно, окончательный исход AI4S не будет определяться одним гигантом. Решающий голос останется за учёными — от их выбора между суверенитетом данных, академической независимостью и эффективностью исследований будет зависеть будущее направления.