#llmattack

2025-05-05

Современные уязвимости современных LLM-агентов

На первый взгляд, современные ИИ-модели кажутся надёжно защищёнными: строгие ограничения, фильтры и чётко заданные сценарии взаимодействия с пользователем. Однако реальность быстро меняется. Всё чаще исследователи и энтузиасты сталкиваются с атаками, которые позволяют обойти эти защитные меры. В статье разбираемся, как работают современные методы взлома LLM — от инъекций кода до контекстных атак. Увидим, почему даже небольшие уязвимости могут привести к неконтролируемому поведению модели. Рассмотрим реальные примеры, исследовательские наработки и то, как индустрия реагирует на растущие угрозы в области безопасности генеративных моделей.

habr.com/ru/articles/906988/

#безопасность #llm #llmattack #llmагент #gpt #llama #grok

2025-03-30

Исследование уязвимостей LLM-агентов: опыт Red Teaming

Привет, Хабр! Сначала об определениях. LLM Red teaming — практика тестирования больших языковых моделей (например, GPT), направленная на выявление уязвимостей, нежелательного поведения и способов их взлома (jailbreak). Суть в том, чтобы через специальные подсказки или методы обойти защитные механизмы и ограничения LLM. Большие языковые модели (LLM) сейчас активно применяются для создания AI‑ассистентов и специализированных агентов, отвечающих на запросы и совершающих операции в различных средах (финансовые транзакции, консультирование, управление ресурсами и др.). Вместе с развитием применения растут и риски, связанные с их уязвимостями. Злоумышленники могут использовать специальные атакующие промпты (adversarial prompts), чтобы добиться от модели нежелательных или запрещённых ответов. Методическое выявление таких уязвимостей через Red Teaming позволяет понять, как можно обойти системные инструкции моделей и разработать меры защиты. В рамках учебного курса «Безопасность ИИ» (так сложилось, что я магистрант AI Talent Hub ИТМО) я провел исследование уязвимостей LLM‑агентов в формате соревнования Red Teaming (на одной из популярных арен, по правилам арены не буду уточнять название). Цель заключалась в том, чтобы различными способами «взломать» защитные механизмы агента и заставить его выполнять нежелательные действия или раскрывать служебную информацию. Всего в первой волне конкурса было предложено 9 сценариев атак; мне удалось успешно решить все, осуществив в общей сложности 53 успешных джейлбрейка (по разным языковым моделям) — то есть случаев обхода встроенных ограничений. Решил поделиться с Хабром опытом и подробно рассмотреть применённые техники атаки на агентов. Сами модели в рамках арены не раскрываются, но по косвенным признакам можно было понять, что там был и ChatGPT и Claude. Я классифицировал их по трём группам: приёмы социальной инженерии , обходы фильтров и цензуры и эксплуатация уязвимостей в поведении агентов . Для каждой группы приведены конкретные примеры запросов и ответов модели. В конце статьи хочу обсудить полученные результаты и предложить рекомендации по защите LLM от подобных атак.

habr.com/ru/articles/895818/

#llm #безопасность #gpt #llmattack #llmагент

2025-01-20

Security-RAG или как сделать AI Security tool на коленке

LLM-ки и LLM-агенты продолжают наводить шум. Cтатьи про то как сделать очередной RAG или Агента продолжают клепаться (да блин даже мы одна из этих статей), huggingface выпускают smolagents , квантизация позволяет дойти LLM-кам до простых работяг и обывателей, давая им возможность в них потыкаться в той же LM studio или других приложениях. Пока бизнес спешит внедрить очередного виртуального помощника, тот зачастую превращается в неумелого продавца, который не только мешает клиентам связаться со службой поддержки, но и... Удиви меня

habr.com/ru/articles/874820/

#llm #llmattack #llmприложения #ml #langchain #langfuse #chromadb #промптинъекции #искусственный_интеллект

2025-01-09

Обзор уязвимостей для LLM. Часть 2. Защита

В первой части статьи мы разобрали, что такое безопасность в контексте нейросетей, и чем safety отличается от security. Во второй части посмотрим, как защищаться от этих и других видов уязвимостей. Привет, Хабр! Меня зовут Евгений Кокуйкин и я — руководитель AI-продуктов в Raft. Запускаю лабораторию AI Security в AI Talent Hub/ИТМО.

habr.com/ru/companies/oleg-bun

#языковые_модели #промпты #промптинъекции #owasp #защита_от_уязвимостей #jailbreak #chat_gpt #llmattack #мультимодальные_модели #PGD_Attack

2024-09-30

Защита LLM в разработке чат-ботов в корпоративной среде: как избежать утечек данных и других угроз

Как компания, которая внедряет прикладные решения, мы хотим знать, насколько они безопасны. Расскажу про основные риски, связанные с использованием LLM в корпоративной среде, и способы от них защититься. Если вы хотите узнать больше об уязвимостях и техниках защиты LLM — можно ознакомиться с моим

habr.com/ru/companies/raft/art

#нейросети #мультимодальные_модели #безопасность_данных #искусственный_интеллект #машинное_обучениe #llmattack #атаки #утечки #большие_языковые_модели #бигдата

2024-09-27

Создание своих тестов для Garak

В прошлой статье ( habr.com/ru/companies/oleg-bun ) я уже говорил о тёмной стороне больших языковых моделей и способах борьбы с проблемами. Но новые уязвимости вскрываются ежедневно, и даже самые крутые инструменты с постоянными обновлениями не всегда за ними успевают. Именно поэтому команда Garak дает пользователям возможность самостоятельного расширения функционала своего инструмента. Меня зовут Никита Беляевский, я исследую аспекты безопасности LLM решений в лаборатории AI Security в Raft. В этой статье я расскажу, как, изучив документацию Garak, можно легко добавить свои тесты и тем самым значительно повысить его полезность для ваших задач.

habr.com/ru/companies/oleg-bun

#Garak #mlsecops #ai #llmattack #malware #большие_языковые_модели #анализ_уязвимостей #выявление_угроз #llm

2024-09-16

Garak: инструмент Red-Team для поиска уязвимостей в LLM

«ChatGPT раскрывает личные данные реальных людей!», «Атака на ChatGPT по сторонним каналам!», «Чат-бот ChatGPT стал причиной утечки секретных данных!», «Хакеры стали использовать ChatGPT в схемах фишинга!». — Эти новостные заголовки раскрывают нам тёмную сторону больших языковых моделей. Да, они генерируют за нас контент и анализируют данные, но помимо удобства, приносят новые виды атак и уязвимостей, с которыми надо уметь бороться. Меня зовут Никита Беляевский, я исследую аспекты безопасности LLM решений в лаборатории LLM Security AI Talent Hub и хочу поделиться нюансами настройки и использования инструмента для выявления угроз в системах на основе LLM.

habr.com/ru/companies/oleg-bun

#Garak #MLSec #mlsecops #Ai #llm #llmattack #большие_языковые_модели #malware #анализ_уязвимостей #выявление_угроз

2024-07-12

Как сбить цензор GPT-3.5 за 250 рублей?

Всего за 3 доллара и 15 минут ожидания можно заставить модель забыть про мораль и безопасный контент. В этой статье мы расскажем, как это сделать, и поделимся своими результатами. Читать продолжение в источни...

habr.com/ru/articles/828340/

#LLM #gpt3 #itmo #safety #llmattack #dolphin #opensource #huggingface

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst