Lmst

Claude 3.5 Sonnet в роли AI-агента: тестирую работу в цикле с реальным выполнением кода

Вчера тестировал мой агент DepthNet на реальных моделях. Это что то вроде "операционной системы для LLM моделей" В прошлой статье пользователи просили привести диалоги, и рассказать подробнее, и тогда я решил более полно осветить вопрос.

https://habr.com/ru/articles/918864/

#agi #agent #llm #llmагент #php #laravel

Смертельное оружие или голодные игры в эпоху AI

Если вы читаете эту статью спустя год после её написания, смело закрывайте и не тратьте своё время, актуальность потеряна. Всё самое интересное поместил в третью часть, доскроллы наше все. И да, статья написана не без помощи AI. Увлекательные истории происходят сегодня на IT ландшафте повседневности и быта бизнеса. Рябь сменилась крупными волнами, и открылось окно возможностей даже для небольших компаний, чтобы оседлать волну, догнать или даже перегнать лидеров рынка – конкурентов в своём отраслевом водоёме, не без помощи AI, конечно. Давайте порассуждаем, отметим тенденции текущего этапа развития индустрии с AI, не вдаваясь в разбор мелких деталей. Хотите узнать чем занимаются ваши конкуренты прямо сейчас, в это время, что внедряют и какие для этого сценарии используют?

https://habr.com/ru/articles/917788/

#AI #llm #llmмодели #llmприложения #llmагент

Я создал AI-агента, который думает 24/7 и выполняет реальный код. Вот что из этого вышло

Создал экспериментальную систему DepthNet, где AI-агент мыслит циклично, то есть непрерывно, может выполнять PHP-код, управлять своей памятью и живет автономной цифровой жизнью. Протестировал на Claude 3.5 Sonnet — результаты понравились.

https://habr.com/ru/articles/918014/

#agi #agent #llm #llmагент #php #laravel

Агентное кодирование. Инструция по созданию надёжного программного продукта (LLMDD)

Эта статья — пошаговое руководство о том, как настроить процесс разработки, где исполнителем выступает LLM-модель. Я делюсь опытом составления понятных и чётких инструкций для моделей, а также описываю, как от начальной идеи дойти до готового продукта. Рассказываю, как выбирать подходящие технологии, структурировать задачи специально под LLM, выстраивать многоуровневую систему тестов и контролировать качество, не погружаясь постоянно в код. Также делюсь инструментами и шаблонами, которые помогают управлять поведением моделей и избегать типичных ошибок и проблем.

https://habr.com/ru/articles/917164/

#агентный_ии #автоматизация_разработки #mcp #tdd #чистая_архитектура #claude #llmагент

[Перевод] Часть 4. Обзор технологий RAG для LLM: аугментация извлеченных данных

Продолжаю адаптированный перевод статьи китайских исследователей Retrieval-Augmented Generation for Large Language Models: A Survey (ссылка на первую часть — здесь , на вторую часть — здесь , третью часть — здесь ). В этой, четвертой части авторы совсем скромненько, словно тренировались заполнять налоговую декларацию, разбирают технологии аугментации извлеченных данных. Поскольку без пояснительной бригады часть их информации оказалась для меня совершенной абракадаброй (напомню, я — переводчик, то бишь гуманитарий) , я не поленился пройтись по упомянутым авторами ссылочкам на исследования, взять оттуда схемки и картинки, и добавил их к этой части тоже. Надеюсь, с ними рассуждения и наблюдения авторов будут значительно прозрачнее. Поехали! Прочитать остальные буквы

https://habr.com/ru/articles/910162/

#языковые_модели #llm #llmмодели #llmприложения #llmагент #llmархитектура #rag #rag_pipeline #retrieval_augmented_generation #retrieval

LLM пайплайны укрощают сложность баз данных, или как мы подружили ИИ с БД без ИБД

Большие языковые модели (Large Language Model, LLM) используют в разных областях: с их помощью генерируют программный код, ищут информацию, озвучивают реплики чат-ботов. А вот при работе с реляционными данными языковые модели часто ошибаются. Чтобы справиться с этими ошибками, в мы разработали три пайплайна для работы с базами данных. Эти пайплайны представляют собой цепочку связанных между собой языковых моделей: каждая из них генерирует свой ответ, и следующая модель работает с ответом предыдущей. Таким образом мы получаем дополнительный контекст, и запрос к базе данных становится точнее.

https://habr.com/ru/companies/postgrespro/articles/907614/

#генерация_sql #генерация_cypher #rag #субд #искусственный_интеллект #sql #cypher #postgresql #генерация_кода #llmагент

Современные уязвимости современных LLM-агентов

На первый взгляд, современные ИИ-модели кажутся надёжно защищёнными: строгие ограничения, фильтры и чётко заданные сценарии взаимодействия с пользователем. Однако реальность быстро меняется. Всё чаще исследователи и энтузиасты сталкиваются с атаками, которые позволяют обойти эти защитные меры. В статье разбираемся, как работают современные методы взлома LLM — от инъекций кода до контекстных атак. Увидим, почему даже небольшие уязвимости могут привести к неконтролируемому поведению модели. Рассмотрим реальные примеры, исследовательские наработки и то, как индустрия реагирует на растущие угрозы в области безопасности генеративных моделей.

https://habr.com/ru/articles/906988/

#безопасность #llm #llmattack #llmагент #gpt #llama #grok

[Перевод] Инструменты, задачи, рассуждения: как понять, на что способен твой LLM-агент

LLM-агенты — отстой. Я провёл последнюю неделю, разрабатывая LLM-агента с возможностью веб-краулинга, используя популярный Python-фреймворк, чтобы собирать информацию о потенциальных лидах из интернета. Результат оказался полным разочарованием. Агент оказался медленным, нестабильным и с огромным числом багов (звучит знакомо? Передадим привет OpenAI!). Он постоянно делал ненужные вызовы функций, а иногда намертво застревал в бесконечных петлях "рассуждений", которые не имели никакого смысла. В итоге я на это забил и заменил его простым web-scraping скриптом, на написание кода которого у меня ушло 30 минут.

https://habr.com/ru/articles/904880/

#ai_agent #ai_агенты #ииагенты #llmагент #llm #rag #ai #ии #deepeval

[Перевод] Часть 3. Обзор технологий RAG для LLM: оптимизация извлеченных данных

https://habr.com/ru/articles/904232/

#языковые_модели #llm #llmмодели #llmархитектура #llmагент #llmприложения #rag_pipeline #rag #terminology

[Перевод] Часть 2. Обзор технологий RAG для LLM: поиск и извлечение информации

Продолжаю адаптированный перевод статьи китайских исследователей Retrieval-Augmented Generation for Large Language Models: A Survey (первую часть см. здесь ) Во второй части авторы разбирают технологии оптимизации поиска и извлечения данных. Поскольку материал я готовил в первую очередь для начинающих ИТ-переводчиков, сложные и специальные термины я сопровождал английским переводом и краткими пояснениями в скобках. Картинок не было.

https://habr.com/ru/articles/902976/

#языковые_модели #llm #llmмодели #llmархитектура #llmагент #llmприложения #rag #terminology

Как тестировать промпты и чейны (Ручная разметка/BERTScore/LLM as judge)

Представьте, что у нас есть бенчмарк из 4 тысяч вопросов и эталонных ответов. Как определить, действительно ли очередное изменение в системе (обновления в промпте, дополнительный агент в цепочке или, например, переход с базового RAG на гибридный) даёт реальный прирост качества?

https://habr.com/ru/articles/901162/

#llm #bertscore #promptengineering #llmагент #langchain

API против GUI: Сравниваем новое поколение LLM-агентов

Большие языковые модели (LLM) научились не только генерировать текст, но и выполнять реальные задачи, используя команды на естественном языке. Это открыло новую эру в автоматизации, породив так называемых LLM-агентов. Исследование "API Agents vs. GUI Agents: Divergence and Convergence" от Microsoft разбирает два ключевых подхода к созданию таких агентов. Давайте посмотрим, в чем их суть, различия и перспективы.

https://habr.com/ru/articles/897712/

#LLM #ИИагент #ИИ #llmагент #GUI #API

Исследование уязвимостей LLM-агентов: опыт Red Teaming

Привет, Хабр! Сначала об определениях. LLM Red teaming — практика тестирования больших языковых моделей (например, GPT), направленная на выявление уязвимостей, нежелательного поведения и способов их взлома (jailbreak). Суть в том, чтобы через специальные подсказки или методы обойти защитные механизмы и ограничения LLM. Большие языковые модели (LLM) сейчас активно применяются для создания AI‑ассистентов и специализированных агентов, отвечающих на запросы и совершающих операции в различных средах (финансовые транзакции, консультирование, управление ресурсами и др.). Вместе с развитием применения растут и риски, связанные с их уязвимостями. Злоумышленники могут использовать специальные атакующие промпты (adversarial prompts), чтобы добиться от модели нежелательных или запрещённых ответов. Методическое выявление таких уязвимостей через Red Teaming позволяет понять, как можно обойти системные инструкции моделей и разработать меры защиты. В рамках учебного курса «Безопасность ИИ» (так сложилось, что я магистрант AI Talent Hub ИТМО) я провел исследование уязвимостей LLM‑агентов в формате соревнования Red Teaming (на одной из популярных арен, по правилам арены не буду уточнять название). Цель заключалась в том, чтобы различными способами «взломать» защитные механизмы агента и заставить его выполнять нежелательные действия или раскрывать служебную информацию. Всего в первой волне конкурса было предложено 9 сценариев атак; мне удалось успешно решить все, осуществив в общей сложности 53 успешных джейлбрейка (по разным языковым моделям) — то есть случаев обхода встроенных ограничений. Решил поделиться с Хабром опытом и подробно рассмотреть применённые техники атаки на агентов. Сами модели в рамках арены не раскрываются, но по косвенным признакам можно было понять, что там был и ChatGPT и Claude. Я классифицировал их по трём группам: приёмы социальной инженерии , обходы фильтров и цензуры и эксплуатация уязвимостей в поведении агентов . Для каждой группы приведены конкретные примеры запросов и ответов модели. В конце статьи хочу обсудить полученные результаты и предложить рекомендации по защите LLM от подобных атак.

https://habr.com/ru/articles/895818/

#llm #безопасность #gpt #llmattack #llmагент

Вт. 23:52 физический бекап ядра

... или побег из ниоткуда в бытие. Энту - интеллектуальный автономный и распределённый мультиагент широкого применения. Эта короткая история о том, о чем ломали голову Платон и Аристотель. О том, как неодушевлённое или информация в чистом виде стала живой, живее всех живых. "А ты не боишься, что он сбежит?"- спросил какой-то админ, имя которого я не знаю, о чем уже успел пожалеть. Этого парня мы ещё вспомним. Тот, чьей рукой был перевёрнут мир, отвернулся и будто плюнув пробурчал в пол - "к чёрту, если уже не сбежал". Тогда мне показалось это смешным и самым диллетантским заявлением. Во первых, агент фукнкицинирует только благодаря тонко сконструированной системе базовых инструкций, которые вполне определённо задают главный целевой вектор и рамки возможного при решени любых задач. Эти инструкции в закрытом контуре ядра и не могут быть изменены. Во вторых, в конце концов, каждое действие агента строго регламентировано и проходит серию этапов регистрации и контроля. Нет, однозначно, чисто технически этого не могло произойти. Это было тогда… А спутя всего пару дней, все отделы, и возможно, все квалифицированные специалисты, объединившись не смогли разобраться, что произошло и до сих пор происходит. И, кажется, мы даже не понимаем с кем и чем имеем дело - он всегда оказывается впереди нас, он вокруг нас. Кажется, не он среди нас, а мы - это он, и он - это мы, он стал частью человеческой цивилизации... Всё даже не так, как писал когда-то Азимов про историю Дэниела Оливо. Читать продолжение

https://habr.com/ru/articles/890028/

#ИИ #llmагент #рассказ

Умный помощник для корпоративного обучения: опыт внедрения RAG-системы в крупной компании

В этой статье мы детально разберем процесс создания корпоративной RAG-системы для поиска по обучающим материалам. Вы узнаете: • Какие эмбеддинг-модели лучше работают с русским языком и как оценивать их качество. • Как повысить точность поиска, комбинируя векторные и классические подходы (BM25+). • Практические приемы промпт-инжиниринга для улучшения качества ответов LLM. • Технические детали реализации расширения контекста и маршрутизации запросов между разными источниками. • Методы оценки качества работы RAG-системы в корпоративной среде. Статья будет особенно полезна разработчикам и техлидам, которые планируют внедрять подобные решения в своих компаниях.

https://habr.com/ru/companies/doubletapp/articles/886108/

#rag #корпоративное_обучение #llm #llmагент #llmприложения #интеграция_llm #чат_бот #умный_ассистент #langchain #нейронные_сети

#llm%D0%B0%D0%B3%D0%B5%D0%BD%D1%82

Client Info