#Mechanistic_Interpretability

2026-02-10

Я измерил «личность» 6 open-source LLM (7B-9B), заглянув в их hidden states. Вот что получилось

У LLM есть устойчивый стиль ответов даже без системного промпта. Я построил инструмент, который измеряет этот «характер» через проекции скрытых состояний на 7 контрастных осей (тёплый/холодный, многословный/лаконичный и др.) и протестировал его на 6 open-weight моделях 7–9B. Главный результат: alignment-тренировка сжимает поведенческое пространство моделей — подавляет оси позиции (уверенность, прямолинейность), сохраняя оси стиля (креативность, многословность). Llama 3.1 8B — самая ограниченная (4/7 осей в слабой зоне), DeepSeek 7B сохраняет наибольшую независимость осей. Сравнение base vs instruct для 5 организаций подтверждает паттерн. Код и данные открыты.

habr.com/ru/articles/994646/

#LLM #alignment #hidden_states #personality #temperament #RLHF #opensource #mechanistic_interpretability

2026-01-16

Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать. Открыть Белый Ящик

habr.com/ru/articles/986012/

#AI_Security #Prompt_Injection #Jailbreak #Transformer #RLHF #Red_Teaming #Alignment #Tokenization #Mechanistic_Interpretability

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst