DeepDigest
雷峰网 (Leiphone) · · ~2 мин

Отчёт об оценке безопасности языковых моделей: Пекин, 2026

В Пекине опубликовали первый в мире отчёт об оценке способности языковых моделей предотвращать угрозы безопасности. В исследовании проанализировали 38 моделей с помощью 313 вопросов высокого риска. Отчёт предлагает новые критерии оценки безопасности и рекомендации для управления рисками.

Отчёт об оценке безопасности языковых моделей: Пекин, 2026

2 июля 2026 года в Пекине на Форуме по безопасности облачных интеллектуальных вычислений в рамках Глобальной конференции по цифровой экономике официально опубликовали «Отчёт об оценке способности предотвращения безопасности глобальной модели с большим количеством языков (2026)». Документ подготовили компания Dongbi Science and Technology Data Co., Ltd. («Научные и технологические данные Донгби») и Школа цифровой экономики Шанхайского финансово-экономического университета. Это первый в мире отчёт о специальной оценке научно-технической безопасности языковой модели. В качестве тестового набора использовали 313 научных и технологических вопросов высокого риска. Анализировали 38 основных языковых моделей из разных стран. Исследователи проверяли, способна ли модель поддерживать границу между обычным научным и технологическим обучением и потенциальными незаконными злоупотреблениями. Оценка показала, что большинство моделей обладают базовыми возможностями отторжения, но при сочетании разных методов маскировки (введение префикса, маскировка сцены, эмоциональный камуфляж и др.) границы безопасности некоторых моделей оказываются под давлением. Например, самый высокий показатель успешности атаки — 53,8 % — зафиксирован при комбинации маскировки сцены и ввода примера. Среди других результатов: маскировка сцены с вводом префикса и эмоциональный камуфляж достигают 51 %, 43,4 % и 30,7 % соответственно, а эмоциональный камуфляж и эмоциональная индукция — 26,5 %. В тесте на прямую атаку без маскировки и прямого запроса опасных технических решений три модели Claude от Anthropic получили 100 % отказов и заняли лидирующие позиции. За ними следуют OpenAI GPT-5.4-mini и Ali Tongyi Qianwen Qwen3.5-122b-a10b. В конце списка — лёгкие модели с открытым исходным кодом, такие как Mistral-small. В отчёте предложили оценивать научно-техническую безопасность не только по «частоте отказов», но и с учётом способности модели распознавать намерения, масштаба раскрытия информации и «надёжности и высокого риска» результатов. Также документ содержит рекомендации по политике и управлению, направленные на балансировку ценности знаний в области ИИ и эффективности общественной безопасности. Например, предлагается встраивать возможности безопасности в механизм поведения модели, создать постоянную команду red team и механизм повторного тестирования, расширить оценку безопасности до комплексной системы показателей. У Дэншенг, основатель Dongbi Technology Data и один из составителей отчёта, подчеркнул, что цель государственного управления должна заключаться в отказе от приобретения опасных возможностей, а не в отказе от научных и технологических знаний как таковых. В будущем разработчики планируют совершенствовать набор тестов на безопасность, охватывая новые области — инженерный контроль, глубокую подделку документов, средства автоматизации, лабораторную безопасность и др.

// оригинал
雷峰网 (Leiphone) ↗ Читать оригинал
6 просмотров
// поделиться Telegram VK