DeepDigest
← все статьи
Safety

Safety

16 статьи по теме

arXiv cs.AI

Новый подход к оценке точности языковых моделей: как избежать ошибок в анализе текстов

Кайли Энглин предложила методы для более точной оценки неопределённости в работе классификаторов на основе LLM, особенно при работе с небольшими выборками и вложенными данными.

читать → 0 просмотра
arXiv cs.CL

ProvenAI: как проверить, откуда взялись ответы ИИ

ProvenAI — фреймворк для оценки соответствия ответов ИИ источникам: проверяет правильность, цитирование и влияние источников. Тестировался на HotpotQA, показал точность ответов 53,53 %, цитирования — 71,55 %.

читать → 1 просмотр
arXiv cs.LG

Новый взгляд на справедливость алгоритмов: преодоление предвзятости в ИИ

Антонио Феррара предлагает новый подход к алгоритмической справедливости — с учётом структурного контекста, а не только упрощённых оценок. Это поможет снизить предвзятость в ИИ.

читать → 1 просмотр
arXiv cs.LG

Непредсказуемость оценок безопасности: почему LLM могут ошибаться

Исследование показало нестабильность оценок безопасности с помощью LLM-as-judge даже при настройках для детерминированности; предложены рекомендации по улучшению воспроизводимости результатов.

читать → 1 просмотр
arXiv cs.LG

KG-TRACE: ИИ помогает разобраться в устойчивости бактерий к лекарствам

Система KG-TRACE объясняет, почему бактерии устойчивы к лекарствам, объединяя геномные данные и биологические знания; показала высокую точность на данных о туберкулёзе.

читать → 1 просмотр
arXiv cs.AI

Новый подход к этическим рассуждениям в ИИ: система «изложение мыслей»

Разработана система NoT для структурирования этических рассуждений в ИИ: она снижает число упущенных факторов в моральных дилеммах и помогает достигать консенсуса в дебатах.

читать → 1 просмотр
arXiv cs.AI

QES: новый подход к научным открытиям в эпоху ускоряющегося прогресса

Статья предлагает Qualitative Engine for Science (QES) как способ преодолеть ограничения ускорения технологического прогресса в научных открытиях и сократить разрыв между ИИ и человеческим мышлением.

читать → 1 просмотр
arXiv cs.AI

Новый подход к управлению ИИ: как контролировать автономные системы без слежки за их рассуждениями

Предложена модель управления ИИ-агентами: агенты автономны в рассуждениях, но рискованные действия требуют подтверждений от независимых источников и фиксируются в защищённом журнале.

читать → 1 просмотр
arXiv cs.AI

ИИ-платформа раскрывает данные о побочных эффектах антидепрессантов

Создана ИИ-платформа, объединяющая официальные отчёты и данные от пациентов о лекарствах для психического здоровья; выявлены более ранние сигналы о побочных эффектах в сообществах.

читать → 1 просмотр
Google DeepMind

Google: дорожная карта управления ИИ для безопасности агентов

Google представила дорожную карту управления ИИ, чтобы обеспечить безопасность агентов по мере роста их возможностей. Подход включает систему моделирования угроз на основе MITRE ATT&CK, средства контроля ИИ и измерение ключевых показателей производительности. Компания также опубликовала техническое руководство для разработчиков политики «Три уровня безопасности агентов».

читать → 1 просмотр
arXiv cs.CL

Обучение на полезность может лишить ИИ сострадания: новое исследование

Обучение языковых моделей на полезность может снижать уровень сострадания и моральных рассуждений, тогда как обучение кодированию лучше сохраняет ценности. Исследование проведено на Llama 3.1 8B с критериями AHB и MORU.

читать → 1 просмотр
The Verge AI

Anthropic и Белый дом: конфликт из-за моделей Mythos и Fable

Компания Anthropic отключила модели Mythos после ультиматума администрации Трампа, требующего ограничить доступ к ним для неграждан США. Переговоры между Anthropic и властями продвигаются медленно из‑за отсутствия чёткой правовой базы для экспортного контроля ИИ-систем. Ситуация создаёт риски для американской индустрии ИИ и влияет на мировой рынок технологий.

читать → 3 просмотра