#AI_safety

2025-11-27

3 главных инсайта о «взломах» LLM из исследования StrongREJECT

Всем привет! Погружаюсь в новую для себя область AI Security, в связи с чем решил написать несколько обзоров на самые обсуждаемые исследования и статьи по этой теме. Сегодня поговорим про взлом LLM и неожиданные выводы исследования StrongReject. Джейлбрейкнуть

habr.com/ru/companies/datafeel

#AI_security #AI_safety #Benchmark #Jailbreak #LLM #StrongREJECT #Strong #REJECT

AiBayaibay
2025-09-01

🤖 Sgombriamo il campo dai dubbi: restituisce solo ricette d'amore, non di bombe. Un'impeccabile sicurezza è la nostra priorità

🔗 aibay.it/notizie/chatgpt-rivel

Ingvar Santrysantry
2025-08-24

Some experts criticize corporations for not focusing enough on , claiming they prioritize products & profit. However, this criticism isn't always fair, as has a more practical dimension than just AGI.

2025-06-26

Как построить безопасный MLOps-pipeline: Tier-уровни зрелости, принципы и реальные инструменты

На практике продакшен-модели чаще всего «падают» из-за трёх вещей: несоответствие с инфраструктурой, дрейфа данных, и ошибочного отката/обновления версии. Единый гайд по безопасной разработке ML-моделей — от хаотичного до полностью автоматизированного уровня зрелости. Что внутри: Как применять Infrastructure-as-Code для ML-кластеров и не оставлять открытые порты; Зачем даже маленькой команде нужен Feature Store и как избежать training-serving skew ; Где прячутся CVE в ML-библиотеках и как их ловить до релиза; Канареечный деплой с авто-откатом по метрикам и разумными порогами; мониторинг дрейфа данных и качества модели в реальном времени; Чек-лист DevSecOps : от тега в Model Registry до регулярных Model Review . Материал поможет выстроить MLOps-процесс, устойчивый к атакам и сбоям, не превращая релизы моделей в ночной марафон.

habr.com/ru/companies/swordfis

#mlsecops #mlops #DevSecOps #ai_security #ai_safety #безопасная_разработка_ML #жизненный_цикл_ML_модели #Kubernetes_ML

2025-06-06

Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё

Возможно я был недостаточно внимателен, но мне попалось на Хабре буквально одно, очень краткое упоминание крайне интересного исследования от команды из Университета Цинхуа и партнерских институтов нескольких стран: Absolute Zero Reasoner (AZR) — новую систему машинного обучения, которая развивает принципы self-play и способна обучаться без каких-либо внешних данных. В отличие от традиционных подходов, требующих тысячи размеченных примеров, AZR использует принцип самообучения через создание и решение собственных задач программирования. Система играет две роли одновременно: составителя задач (Proposer) и решателя (Solver), используя исполнитель кода как объективного судью для получения обратной связи. AZR продемонстрировал state-of-the-art результаты в программировании и математических рассуждениях, превзошедший модели, обученные на десятках тысяч человеческих примеров, при этом показав впечатляющий кросс-доменный перенос знаний между различными областями знаний.

habr.com/ru/articles/916316/

#Absolute_Zero_Reasoner #AZR #машинное_обучение_без_данных #самообучающийся_ИИ #selfplay #безопасность_ИИ #AI_safety

2025-03-17

История развития филосовской мысли AI Safety

Ранние представления об искусственном разуме и «восстании машин» Еще в XIX веке появились первые предупреждающие идеи о том, что машины могут однажды превзойти человека. В 1863 году писатель Самюэл Батлер опубликовал эссе « Дарвин среди машин » , где рассуждал, что механизмы эволюционируют подобно живым существам. Он пророчески заявил, что наступит время, когда «машины будут держать настоящее господство над миром и его обитателями» . Более того, Батлер даже предложил людям объявить «войну до смерти» всему механическому, пока не поздно. Это едва ли не первое изложение идеи экзистенциального риска от технологий: мысль о том, что создание интеллектуальных машин может обернуться подчинением человечества. Такие ранние спекуляции заложили философский фундамент для более поздних размышлений об искусственном интеллекте (ИИ) и потенциальном «восстании машин» .

habr.com/ru/articles/891440/

#ai #ai_safety #ai_alignment #philosophy

2025-03-06

Системы оценки критичности уязвимостей в AI Security

Уязвимости в GenAI-системах - таинственное и неприступное понятие. Что это? Они вообще существуют? Существуют, конечно. Приглашаю к прочтению, если эта тема вас интересует. Расскажу, какие есть примеры уязвимостей (прям с CVE), и какие есть подходы к оценке их критичности.

habr.com/ru/articles/888048/

#уязвимости #cvss #llm #скоринг #оценка_критичности #ai_security #ai_safety

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst