Lmst

LLM не понимает намерение пользователя?

На днях вышла новая статья "Beyond Context: Large Language Models Failure to Grasp Users Intent" , которая задаёт новые тренды академического кликбейт названия публикаций. По сути авторы заявляют, что модели не понимают глобального интента пользователя. Они делают глубокое исследование, которое это подтверждает на примерах обеспечения личной безопасности пользователя и получения легальной, но потенциально вредоносной информации. Но на практике оказывается иначе: модели распознают намерение пользователя, но не используют его при принятии решений . Почему так происходит и как с этим работать в реальных системах?

https://habr.com/ru/articles/981118/

#интенты #llmмодели #контроль_поведения #фильтрация_ответов #prompt_engineering #intent_recognition

13 рецептов создания AI-ассистента для музыкального театра: от онбординга до классификатора

За 6 недель я автоматизировал работу музыкального театра, создав AI-ассистента на базе n8n и LLM. Ванесса общается с 50 родителями на естественном языке, обрабатывает платежи, обрабатывает платежи, информирует о расписании занятий и концертов — заменила целую штатную единицу. Расходы — 150 рублей в месяц. В статье — 13 практических рецептов с кодом, схемами workflow и конкретными цифрами. Все решения придуманы и отшлифованы в боевых условиях. 8 AI-агентов, расходующих 10-12 млн токенов в месяц на службе искусства.

https://habr.com/ru/articles/974980/

#n8n #AIагент #LLM #автоматизация #чатбот #Telegram_bot #workflow #prompt_engineering #Claude_Sonnet #nocode

https://github.com/ComposioHQ/awesome-claude-skills/tree/master/skill-creator

Claude Skill 기능을 적극적으로 활용해보려고 하는데, skill을 만들 수 있도록 돕는 skill-creator라는게 있다. 이걸 좀 더 참고해서 어떻게 나한테 쓸만한걸 만들 수 있는지 한번 살펴봐야겠다.

#llm #prompt_engineering

Как улучшить качество Claude Code, Cursor и др. в несколько раз? Мой личный опыт

Бывало ли такое, что вы ведете долгий проект вместе с агентом, ставите задачи ИИшке, а она только и делает, что топчется на месте, создавая выдуманные переменные и плодя кучу дубляжей файлов с приставками _fix , _final , _corrected ? На самом деле, таким болеют модели и на начальных стадиях, просто баги и мелочи проще отследить, но когда проект переходит за 10к+ строк, ситуация меняется, и хочется иметь агента, способного быть в теме, на какой стадии проект и как грамотно фиксить код. Сегодня я поделюсь своим личным опытом, который я заработал, благодаря многочасовым перепискам с Claude Code, но которые ни к чему не привели, пока я системно не подошел к этому вопросу.

https://habr.com/ru/articles/972576/

#AI_Code_Assistant #Prompt_Engineering #Управление_контекстом_ИИ #CURRENT_STAGEmd #Модульная_документация #AI_Project_Workflow #Стабильность_LLM #Claude_Code #Cursor_IDE #Оптимизация_работы_ИИ

Почему ваше AI-решение не окупается. Фреймворк OpenAI, который все пропустили

OpenAI опубликовали фреймворк, на который мало кто обратил внимание. Исследование OpenAI (да и не только их) показало: компании внедряют ИИ, но часть из них не получает ожидаемого эффекта. В этом фреймворке на мой взгляд обозначены принципы отделяющие посредственные решения от тех которые делают внедрение AI в бизнес эффективным. https://openai.com/index/evals-drive-next-chapter-of-ai/ KPI и OKR остаются бизнес-целями. Evals — метрики, которые показывают, как AI помогает достигать целей. Либо evals становятся частью KPI, либо контролируют качество AI, который двигает показатели вверх. Это нужно, если бизнесу важны: - Понятный путь к окупаемости (ROI) - Свести критические ошибки к минимуму - Предсказуемость результатов для клиентов - AI, который выдерживает рост нагрузки без сбоев Evals – конкурентное преимущество. Промпты скопируют, архитектуру evals – нет. Это скрытый слой, который недоступен ни поставщикам моделей, ни конкурентам.Evals гарантируют стабильность при обновлениях промптов, переходе на другие модели или архитектуру. Так AI-решение постоянно улучшается под задачи бизнеса не теряя в качестве. Фреймворк OpenAI из 3 шагов: 1. Определение – превратите размытые цели в конкретные: "Конвертировать письма компаний с бюджетом 100K+ в демо, сохраняя стиль бренда" 2. Измерение – тестируйте на клиентских запросах и пограничных случаях 3. Улучшение – развивайте на основе результатов тестов, а не надейтесь на удачу Для этого процесса создали BotMetrica.com – слой надёжности, который делает AI готовым к промышленному использованию. В ближайшие дни поделюсь тем, как BotMetrica формализует каждый шаг этого процесса с конкретными примерами. "Don't hope for 'great.' Specify it, measure it, and improve toward it" / "Не полагайтесь на удачу. Определите 'отличное', измерьте и улучшайте" – OpenAI Пишите в личку – отвечу на вопросы и покажу сервис: @ovashchukov или на oleg@botmetrica.com

https://habr.com/ru/articles/971432/

#AI #evals #OpenAI #метрики #KPI #ROI #LLM #prompt_engineering #AI_evaluation #testing

Плохой промпт против хорошего: зачем нужен контекст для ИИ в задачах тестировщика

Всем привет! Меня зовут Катя и я ведущий инженер по тестированию в MD Audit. В прошлой статье я рассказала, какой подход помог мне сделать ИИ напарником по тестированию и поделилась формулой хорошего промпта для QA. Но остаётся вполне логичный вопрос — А какая вообще разница? Ну попрошу я написать ИИ тесты без контекста. Что изменится в полученном результате? В этой статье я покажу на живых примерах, как меняется результат работы ИИ в тестировании, если добавить подробностей..

https://habr.com/ru/articles/965048/

#искусственный_интеллект #тестирование_itсистем #ручное_тестирование #prompt_engineering

Как я научила ИИ быть моим напарником по тестированию

Всем привет! Меня зовут Катя и я ведущий инженер по тестированию в MD Audit. Хочу поделиться как я внедрила ИИ в процессы тестирования, чтобы не тратить время на рутинные задачи и больше заниматься любимым делом (кидать мемы в рабочие чаты).

https://habr.com/ru/articles/963718/

#искусственный_интеллект #нейросети #AI_в_тестировании #промт #prompt_engineering

Исследование-обучение с отладчиком контекста (ICRF 1.0)

Рассуждающие чаты показывают пользователю ход своих мыслей. Но обычно там написана какая-то ерунда. Максимум, что там полезного можно вычитать: «пользователь спрашивает про плоскую землю — наверное, он сумасшедший». А хочется, чтобы нейронка подробно объясняла каждый шаг и свои намерения. Изумительно! Читать далее

https://habr.com/ru/companies/bar/articles/958636/

#icrf #mccp #ai #prompt_engineering #attention_landscape_engineering #llm_attention

Как Senior управляют контекстным окном LLM

Большие языковые модели (LLM) уже умеют писать код, анализировать данные и даже проектировать архитектуру. Но большинство пользователей по-прежнему работают с ними неправильно — перегружают контекст, теряют важную информацию и удивляются «галлюцинациям» модели. В статье — практический разбор того, как устроено контекстное окно и почему именно контекстная инженерия становится новым навыком разработчиков. Разберём типичные ошибки, правила оптимизации, принципы управления памятью LLM и реальные стратегии, которые используют команды, работающие с Claude, ChatGPT и GitHub Copilot. После прочтения вы поймёте, как добиться стабильных и точных ответов от модели, тратить меньше токенов и управлять контекстом так, как это делают инженеры ведущих AI-компаний.

https://habr.com/ru/articles/955688/

#LLM #контекстная_инженерия #prompt_engineering #управление_контекстом

[Перевод] Как работает Context Engineering в Claude и других агентах

Команда AI for Devs подготовила перевод статьи об инженерии контекста — новом ключевом подходе в построении AI-агентов. Если раньше все говорили о prompt engineering, то теперь на первый план выходит умение управлять ограниченным ресурсом — контекстом. Компакция, заметки, подагенты, динамическая подгрузка данных — всё это формирует новое искусство работы с LLM.

https://habr.com/ru/articles/953440/

#context_engineering #prompt_engineering #AI_агенты #Claude_Anthropic #LLM #контекст #компакция #инструменты #память

Как AI изменил рынок труда и почему у IT-джуниоров мало шансов найти работу

Искусственный интеллект сделал то, чего раньше не знал рынок труда. За короткое время он сократил сотни тысяч стартовых вакансий и оставил лишь узкий коридор для новичков с AI-скиллами. Теперь молодые специалисты могут быстро выйти на высокий доход, тогда как другим становится сложнее найти первый шаг в профессию. Поговорим о том, как AI изменил рынок для IT-новичков, и почему сегодня карьерные перспективы зависят от умения работать с нейросетями.

https://habr.com/ru/articles/949210/

#рынок_труда_it #ai #архитектура_AIсистем #зарплаты_в_it #карьера_в_it #обучение_AI #juniorразработчики #genai #переквалификация #prompt_engineering

Как мы автоматизировали анализ упавших тестов с помощью AI: от хаоса к структуре

Представьте: каждый день ваши автотесты генерируют десятки отчетов об ошибках, QA команда тратит часы на анализ падений, а разработчики получают невразумительные описания в духе "test.feature упал на строке 410". Знакомо? Мы решили эту проблему, интегрировав AI в процесс анализа тестов, и хотим поделиться опытом.

https://habr.com/ru/articles/948980/

#искусственный_интеллект #автоматизация_тестирования #cicd #devops #qa #sourcegraph #prompt_engineering #cucumber #ruby_on_rails #gherkin

Нужно ли тратить время на prompt engineering в 2025 году?

Многие говорят: «Prompt engineering мёртв» или «Следующая версия модели сделает это ненужным». Но исследования показывают: плохой промпт может обнулить результат, а хороший - поднять точность до 90% . Модели становятся мощнее, но правильная формулировка запросов остаётся важнейшим навыком. Это похоже на новую «социальную грамотность»: нужно учиться правильно общаться не только с людьми, но и с ИИ.

https://habr.com/ru/articles/947404/

#prompt_engineering

Один пост, чтобы обрести силу… или разбираемся в промптах, чтобы научиться их писать раз и навсегда

В последнее время расплодилось каналов с псевдоэкспертами по промпт-инжинирингу. Но цель у них одна — зарабатывать на вашем внимании, втюхивая вам сгенерированные в тех же LLM промпты как нечто волшебное и уникальное. Здесь мы такое не одобряем! Давайте-ка один раз хорошенько разберём, как работают промпты и как их писать. Я намеренно не буду грузить вас заумными терминами, так как именно их используют как завесу из магической пыли вокрут этой темы. Моя же цель — рассказать все максимально просто.

https://habr.com/ru/articles/946608/

#промпты #prompt_engineering #llm #искусственный_интеллект #оптимизация_промптов #туториал #openai #chatgpt #gemini #claude

[Перевод] GEPA вместо RL: как рефлексивная эволюция промптов обгоняет обучение с подкреплением

Большие языковые модели (LLM) всё чаще адаптируются к downstream-задачам с помощью методов RL, таких как Group Relative Policy Optimization (GRPO), которые нередко требуют тысячи прогонов для освоения новых задач. Мы утверждаем, что интерпретируемая природа языка может предоставлять LLM куда более богатую обучающую среду по сравнению с policy gradient’ами, основанными на разреженных скалярных наградах. Чтобы проверить эту гипотезу, мы представляем GEPA (Genetic-Pareto) — оптимизатор промптов, который системно использует natural language reflection для извлечения высокоуровневых правил из trial-and-error процесса. Для любой AI-системы, содержащей один или несколько промптов LLM, GEPA сэмплирует траектории на уровне системы (например, рассуждения, вызовы инструментов и их выводы) и анализирует их на естественном языке, чтобы диагностировать проблемы, предлагать и тестировать обновления промптов, а также объединять комплементарные инсайты с границы Парето собственных попыток. Благодаря такому дизайну GEPA нередко превращает даже несколько прогонов в существенный прирост качества. На четырёх задачах GEPA в среднем превосходит GRPO на 10% и до 20% максимум, при этом используя до 35× меньше прогонов. GEPA также опережает ведущий оптимизатор промптов MIPROv2 более чем на 10% на двух LLM и демонстрирует обнадёживающие результаты как стратегия поиска на этапе инференса для задач оптимизации кода.

https://habr.com/ru/articles/944780/

#llm #ai #prompt #grpo #prompt_engineering #reinforcementlearning #парето #sample_efficiency #ии

Schema Guided Reasoning: метод структурированного рассуждения AI

📝 Описание Рассматриваем подход Schema Guided Reasoning (SGR) — метод структурированного промптинга, который направляет рассуждения LLM через типизированные схемы и явные рабочие процессы. Также разбираем расширение для пространственного рассуждения — SG² (Schema-Guided Scene-Graph Reasoning) , многоагентный фреймворк «рассуждай-пока-извлекаешь» для задач по графам сцены. Подходы демонстрируют прирост точности на 5–10% и достигают 95%+ воспроизводимости, одновременно снижая галлюцинации за счёт валидации схем и программного извлечения фактов. 🔍 Ключевые особенности - Структурированные выводы : типизированные схемы (JSON Schema / Pydantic) обеспечивают контроль формата и смысла ответа. - Три паттерна рассуждения : Cascade, Routing, Cycle — для разных типов задач и контроля шага рассуждений. - Constrained decoding : CFG/grammar-ограничения для безопасной генерации, автоматические повторы при валидации. - Мультиагентная архитектура SG² : разделение на модуль рассуждений и модуль извлечения с программным доступом к графу. - Программное извлечение : генерация Python-кода для обхода scene-graph вместо жёстких API. - Снижение галлюцинаций : разделение контекста и схема-навигация уменьшают отвлечения и ошибочные выводы. - Совместимость : OpenAI Structured Outputs, Instructor, LangChain, Pydantic AI, локальные бэкенды (xgrammar/Outlines/etc.).

https://habr.com/ru/articles/944540/

#sgr #schemaguidedreasoning #prompt_engineering #llm

Schema-Guided Scene-Graph Reasoning based on Multi-Agent Large Language Model System

📝 Описание Рассматриваем подход Schema Guided Reasoning (SGR) — метод структурированного промптинга, который направляет рассуждения LLM через типизированные схемы и явные рабочие процессы. Также разбираем расширение для пространственного рассуждения — SG² (Schema-Guided Scene-Graph Reasoning) , многоагентный фреймворк «рассуждай-пока-извлекаешь» для задач по графам сцены. Подходы демонстрируют прирост точности на 5–10% и достигают 95%+ воспроизводимости, одновременно снижая галлюцинации за счёт валидации схем и программного извлечения фактов. 🔍 Ключевые особенности - Структурированные выводы : типизированные схемы (JSON Schema / Pydantic) обеспечивают контроль формата и смысла ответа. - Три паттерна рассуждения : Cascade, Routing, Cycle — для разных типов задач и контроля шага рассуждений. - Constrained decoding : CFG/grammar-ограничения для безопасной генерации, автоматические повторы при валидации. - Мультиагентная архитектура SG² : разделение на модуль рассуждений и модуль извлечения с программным доступом к графу. - Программное извлечение : генерация Python-кода для обхода scene-graph вместо жёстких API. - Снижение галлюцинаций : разделение контекста и схема-навигация уменьшают отвлечения и ошибочные выводы. - Совместимость : OpenAI Structured Outputs, Instructor, LangChain, Pydantic AI, локальные бэкенды (xgrammar/Outlines/etc.).

https://habr.com/ru/articles/944536/

#SGR #SchemaGuidedReasoning #SchemaGuided_SceneGraph_Reasoning #prompt_engineering #aiagent

Почему ИИ не смог заменить меня в n8n, но стал идеальным ассистентом

n8n — это мощный инструмент, который я, как и многие инженеры, полюбил за гибкость и простоту. Он позволяет собрать практически любую интеграцию, как из конструктора, но с возможностью в любой момент залезть «под капот» с кастомным JavaScript. Идеально. Но у этой мощи есть и обратная сторона. Сложные воркфлоу превращаются в лабиринт из нод, где каждая требует тонкой настройки десятков полей. Постоянное переключение между вкладками документации, написание JSON-объектов, парсинг API через Curl, дебаггинг бесконечных ошибок... Знакомо? Время на продумывание логики уходило на рутину. И мне, как и многим, пришла в голову «гениальная» идея: а что, если всю эту рутину возьмет на себя ИИ? Это история о том, как я прошел путь от веры в универсального агента до создания практичной группы ассистентов, которые не заменяют, а реально ускоряют работу.

https://habr.com/ru/articles/939092/

#LLM #MCP #n8n #RAG #chrome_extension #Workflow_Automation #ai_assistant #nocode #prompt_engineering

Универсальные подсказки по промптам (итоги, источники, бонус). Часть 5

Советы будут полезны скорее для тех, кто полез пользоваться продвинутыми моделями, но не получил ВАУ эффекта. Они не должны тебя удивлять или развлекать. Это инструмент, высокоточный и мощный инструмент. И как и всяким инструментом, если есть желание им пользоваться профессионально, то надо иметь минимальные навыки. А уж как пользоваться этим микроскопом: гвозди забивать; или постигать суть вещей - персональный выбор каждого. Лично я выбираю гвозди.

https://habr.com/ru/articles/937586/

#gpt #gpt5 #deepseek #prompt #prompt_engineering #promptengineering #промпт #промптинжиниринг #промпты

Анатомия памяти LLM: Почему будущее не за промптами, а за Инженерией Контекста

Мой счет за Google API взлетел до €51 из-за контекста LLM. Эта статья раскрывает, почему "память" моделей так дорога, как работает механизм Внимания, и предлагает 5 хаков для управления контекстом. Узнайте, почему будущее за Инженерией Контекста, а не за промптами.

https://habr.com/ru/articles/934244/

#инженерия_контекста #llm #llm_память #оптимизация_llm #prompt_engineering #механизм_внимания #rag #контекстное_окно #контекст_llm

#Prompt_engineering

Client Info