Deep Digest — AI на русском

Safety

16 статьи по теме

arXiv cs.AI 27 Jun 2026

Новый подход к оценке точности языковых моделей: как избежать ошибок в анализе текстов

Кайли Энглин предложила методы для более точной оценки неопределённости в работе классификаторов на основе LLM, особенно при работе с небольшими выборками и вложенными данными.

LLM Research Safety

читать → 0 просмотра

arXiv cs.CL 26 Jun 2026

ProvenAI: как проверить, откуда взялись ответы ИИ

ProvenAI — фреймворк для оценки соответствия ответов ИИ источникам: проверяет правильность, цитирование и влияние источников. Тестировался на HotpotQA, показал точность ответов 53,53 %, цитирования — 71,55 %.

LLM Research Safety

читать → 1 просмотр

arXiv cs.CL 26 Jun 2026

LLM научили вести диалог без эскалации конфликта

Разработан метод снижения эскалации конфликтов в диалогах с LLM за счёт подсказок на основе принципов ненасильственного общения (NVC).

LLM Safety Research

читать → 1 просмотр

arXiv cs.CV 26 Jun 2026

Тесты на Deepfake: почему они могут вводить в заблуждение?

Аудит тестов на Deepfake показал, что они могут не отражать реальные угрозы — универсальные модели приближаются по эффективности к специализированным детекторам.

Vision Research Safety

читать → 1 просмотр

arXiv cs.LG 26 Jun 2026

Новая платформа поможет раскрыть схемы отмывания денег

Разработана платформа Clue2Group: она выявляет группы по отмыванию денег, работая от конкретной зацепки и объединяя данные о рисках и структуре финансовых операций.

Research Safety

читать → 1 просмотр

arXiv cs.LG 26 Jun 2026

Новый метод обучения ИИ: баланс точности, скорости и защиты данных

Модель FHPLF объединяет обучение хэшированию и федеративное обучение, снижая затраты на вычисления и повышая защиту данных при сохранении высокой точности.

Research Safety LLM

читать → 1 просмотр

arXiv cs.LG 26 Jun 2026

Новый взгляд на справедливость алгоритмов: преодоление предвзятости в ИИ

Антонио Феррара предлагает новый подход к алгоритмической справедливости — с учётом структурного контекста, а не только упрощённых оценок. Это поможет снизить предвзятость в ИИ.

Research LLM Safety

читать → 1 просмотр

arXiv cs.LG 26 Jun 2026

Непредсказуемость оценок безопасности: почему LLM могут ошибаться

Исследование показало нестабильность оценок безопасности с помощью LLM-as-judge даже при настройках для детерминированности; предложены рекомендации по улучшению воспроизводимости результатов.

LLM Safety Research

читать → 1 просмотр

arXiv cs.LG 26 Jun 2026

KG-TRACE: ИИ помогает разобраться в устойчивости бактерий к лекарствам

Система KG-TRACE объясняет, почему бактерии устойчивы к лекарствам, объединяя геномные данные и биологические знания; показала высокую точность на данных о туберкулёзе.

Research LLM Safety

читать → 1 просмотр

arXiv cs.AI 26 Jun 2026

Новый подход к этическим рассуждениям в ИИ: система «изложение мыслей»

Разработана система NoT для структурирования этических рассуждений в ИИ: она снижает число упущенных факторов в моральных дилеммах и помогает достигать консенсуса в дебатах.

LLM Research Safety

читать → 1 просмотр

arXiv cs.AI 26 Jun 2026

QES: новый подход к научным открытиям в эпоху ускоряющегося прогресса

Статья предлагает Qualitative Engine for Science (QES) как способ преодолеть ограничения ускорения технологического прогресса в научных открытиях и сократить разрыв между ИИ и человеческим мышлением.

LLM Research Safety

читать → 1 просмотр

arXiv cs.AI 26 Jun 2026

Новый подход к управлению ИИ: как контролировать автономные системы без слежки за их рассуждениями

Предложена модель управления ИИ-агентами: агенты автономны в рассуждениях, но рискованные действия требуют подтверждений от независимых источников и фиксируются в защищённом журнале.

LLM Safety Research

читать → 1 просмотр

arXiv cs.AI 26 Jun 2026

ИИ-платформа раскрывает данные о побочных эффектах антидепрессантов

Создана ИИ-платформа, объединяющая официальные отчёты и данные от пациентов о лекарствах для психического здоровья; выявлены более ранние сигналы о побочных эффектах в сообществах.

LLM Research Safety

читать → 1 просмотр

Google DeepMind 26 Jun 2026

Google: дорожная карта управления ИИ для безопасности агентов

Google представила дорожную карту управления ИИ, чтобы обеспечить безопасность агентов по мере роста их возможностей. Подход включает систему моделирования угроз на основе MITRE ATT&CK, средства контроля ИИ и измерение ключевых показателей производительности. Компания также опубликовала техническое руководство для разработчиков политики «Три уровня безопасности агентов».

LLM Safety Research

читать → 1 просмотр

arXiv cs.CL 26 Jun 2026

Обучение на полезность может лишить ИИ сострадания: новое исследование

Обучение языковых моделей на полезность может снижать уровень сострадания и моральных рассуждений, тогда как обучение кодированию лучше сохраняет ценности. Исследование проведено на Llama 3.1 8B с критериями AHB и MORU.

LLM Research Safety

читать → 1 просмотр

The Verge AI 26 Jun 2026

Anthropic и Белый дом: конфликт из-за моделей Mythos и Fable

Компания Anthropic отключила модели Mythos после ультиматума администрации Трампа, требующего ограничить доступ к ним для неграждан США. Переговоры между Anthropic и властями продвигаются медленно из‑за отсутствия чёткой правовой базы для экспортного контроля ИИ-систем. Ситуация создаёт риски для американской индустрии ИИ и влияет на мировой рынок технологий.

LLM Safety Business

читать → 3 просмотра