#ai_agent

2025-05-27

[Перевод] AI-агент говорит, что всё сделал. А ты уверен? Что нужно знать про оценку

Оценка AI-агентов — это процесс анализа и понимания того, насколько эффективно AI-агент выполняет задачи, принимает решения и взаимодействует с пользователями. В силу их автономной природы, качественная оценка агентов необходима для обеспечения их корректного функционирования. AI-агенты должны действовать в соответствии с замыслом разработчиков, быть эффективными и соответствовать определенным этическим принципам AI, чтобы удовлетворять потребности организации. Процесс оценки помогает удостовериться, что агенты соответствуют указанным требованиям.

habr.com/ru/articles/913222/

#ai_agent #ииагенты #ии #ai #genai #llm #rag

2025-05-20

Как сделать RAG/ИИ-ассистента без кода

Если Вам нужно сконфигурировать персонального или командного AI ассистента без единой строчки кода, то инфраструктура OpenAI позволяет это сделать. Для примера сделаем бота который может писать сообщения в стиле определенного телеграм канала. Берем канал t.me/+yU0dsHboVmlhNGYy . Экспортируем сообщения из канала json.

habr.com/ru/articles/907960/

#ai #ai_agent #ассистент #помощник #ииассистент #ии #ииагенты #ии_и_машинное_обучение

2025-05-14

[Перевод] LLM-судья: как LLM отсекает правду от лжи?

LLM-as-a-judge — распространённая техника оценки продуктов на основе LLM. Популярность этой техники обусловлена практичностью: она представляет собой удобную альтернативу дорогостоящей человеческой оценке при анализе открытых текстовых ответов. Оценивать сгенерированные тексты сложно, будь то «простой» саммари или диалог с чат-ботом. Метрики типа accuracy плохо работают, поскольку «правильный» ответ может быть сформулирован множеством способов, не обязательно совпадающих с образцом. Кроме того, стиль или тон — субъективные характеристики, которые сложно формализовать. Люди способны учитывать такие нюансы, но ручная проверка каждого ответа плохо масштабируется. В качестве альтернативы появилась техника LLM-as-a-judge : для оценки сгенерированных текстов используются сами LLM. Интересно, что LLM одновременно являются и источником проблемы, и её решением!

habr.com/ru/articles/905728/

#llm #промпт #chain_of_thoughts #ai #ии #искусственный_интеллект #rag #qa #ai_agent

2025-05-05

[Перевод] Что покажет бенчмарк? Оценка мультиагентных систем в действии

Изучим бенчмарк для мультиагентных систем, его методологии и применение в оценке производительности агентов в сложных средах.

habr.com/ru/articles/904904/

#ai_agent #ai_агенты #ии_агенты #ииагенты #ии #ai #benchmarking #бенчмаркинг

2025-05-01

[Перевод] Инструменты, задачи, рассуждения: как понять, на что способен твой LLM-агент

LLM-агенты — отстой. Я провёл последнюю неделю, разрабатывая LLM-агента с возможностью веб-краулинга, используя популярный Python-фреймворк, чтобы собирать информацию о потенциальных лидах из интернета. Результат оказался полным разочарованием. Агент оказался медленным, нестабильным и с огромным числом багов (звучит знакомо? Передадим привет OpenAI!). Он постоянно делал ненужные вызовы функций, а иногда намертво застревал в бесконечных петлях "рассуждений", которые не имели никакого смысла. В итоге я на это забил и заменил его простым web-scraping скриптом, на написание кода которого у меня ушло 30 минут.

habr.com/ru/articles/904880/

#ai_agent #ai_агенты #ииагенты #llmагент #llm #rag #ai #ии #deepeval

2025-04-28

[Перевод] Хочешь умного агента? Научись оценивать его правильно

В середине 2024 года AI-агенты стали главной темой обсуждений в технологическом сообществе — с помощью них теперь выполняют множество задач от заказа ингредиентов для ужина до бронирования билетов и записи на прием к врачу. Затем появились вертикальные AI-агенты — узкоспециализированные системы, о которых заговорили как о потенциальной замене привычных SaaS-решений. Но по мере роста влияния агентов увеличиваются и риски, связанные с их преждевременным внедрением. Недостаточно протестированный AI-агент может стать источником множества проблем: от неточных предсказаний и скрытых байасов до плохой адаптивности и уязвимостей в безопасности. Такие ошибки дезориентируют пользователей и подрывают доверие к системе, нарушая принципы fairness и транспарентности. Если вы разрабатываете AI-агента, наличие чёткой стратегии безопасного деплоймента критически важно. В этой статье мы рассмотрим, почему тщательная валидация необходима, разберём пошаговые подходы к тестированию и методы проведения комплексной оценки AI-агентов для обеспечения их надёжного развертывания.

habr.com/ru/articles/902608/

#ai_agent #ai_agents #ai_агенты #ии_агент #ai #ии #llm #eval

2025-04-24

[Перевод] Как тестировать AI-агентов, чтобы не было больно

AI-агенты трансформируют индустрии — от чат-ботов в службе поддержки до продвинутых ассистентов для программирования. Однако, чтобы они действительно были эффективными и заслуживающими доверия, необходимо их тщательное тестирование. Строгая процедура тестирования и оценки позволяет оценить производительность агента, адаптивность к новым сценариям и соответствие требованиям безопасности. В этой статье изложены структурированные шаги для тестирования и оценки AI-агентов с точки зрения надежности, устойчивости к сбоям и общего воздействия.

habr.com/ru/articles/902598/

#ai_agent #ai_agents #ииагенты #ai_агенты #ai #ии #llm

2025-04-21

[Перевод] Оцени, прежде чем доверять: как сделать AI-агента полезным

Часто недооцененным аспектом разработки AI-агентов остаётся этап оценки. Хотя создать proof of concept относительно просто, поиск оптимальной конфигурации для балансировки стоимости, скорости, релевантности и других параметров требует значительных временных затрат. Инструменты и фреймворки для оценки являются ключевыми элементами этой стадии оптимизации.

habr.com/ru/articles/902594/

#ai_agent #ai_агенты #ai #ии #llm #rag #eval #genai

2025-04-04

Безопасность AI-агентов в Web3. Часть 2: уязвимости современных LLM и соревновательный взлом

Продолжаем знакомиться с небезопасным Web3 и языковыми моделями, которые широко применяются для AI-агентов. В этой статье расскажу о новых подходах и примерах успешных jailbreak-запросов GPT4/4.5/Claude. Посмотрим на современные модели, в т.ч. те, которые и ломать не надо. Сравним стойкость разных моделей, а в конце разберем несколько конкурсных задач по взлому AI Web3 агентов. Первую часть можно найти тут

habr.com/ru/companies/pt/artic

#blockchain #web3 #jailbreak #claude_3 #grok #gpt4 #ai_agent #promptengineering #llmмодели #llm

2025-04-03

Безопасность AI-агентов в Web3. Часть 1: архитектура, уязвимости и старые добрые джейлбрейки

В последние годы мы наблюдаем активный рост популярности LLM-моделей и интереса к их интеграции в Web3-приложения, такие как DAO и dApp-боты или автоматические трейдеры. Представьте: смарт-контракт управляет финансами, а подключённая языковая модель принимает решения, основываясь на анализе новостей или команд пользователей. Ещё недавно такая идея казалась футуристичной, однако сегодня, в 2025 году, web3 AI-агенты, взаимодействующие с блокчейном и децентрализованными системами, стали реальностью. Многие уже слышали истории о том, как пользователи вынуждают LLM-модели отвечать на неэтичные вопросы, сочинять матерные стихи и совершать другие «шалости». Однако в контексте web3 подобные нестандартные поведения моделей могут привести к реальным и ощутимым финансовым последствиям. В этой статье мы рассмотрим устройство web3 AI-агентов, проанализируем возможные векторы атак, обсудим актуальные jailbreak-методы и разберём несколько конкурсных задач на примерах из личного опыта.

habr.com/ru/companies/pt/artic

#llm #jailbreak #ai_agent #blockchain #web3 #promptengineering

2025-03-26

AI агенты — клоны сотрудников (часть 3)

Итак, я прошел длинный путь создания RAG с нуля , и начал делать AI агентов для нашей компании. По технологиям испробовал:

habr.com/ru/articles/894554/

#ai_agent #rag #ai #python #бизнеспроцессы #чатбот

2025-03-17

[Перевод] Почему релиз Agents SDK от OpenAI изменит рынок корпоративного ИИ

Во вторник OpenAI кардинально изменил ландшафт корпоративного ИИ, представив свою комплексную платформу для создания агентов — пакет, включающий обновлённый Responses API, мощные встроенные инструменты и открытый исходный код Agents SDK. Хотя эта новость могла затеряться среди других громких новостей в сфере ИИ — таких как презентация Google открытой модели Gemma 3 или появление китайского стартапа Manus с его автономной платформой агентов, поразившей наблюдателей, — оно несомненно является важным событием для бизнеса. OpenAI объединяет ранее разрозненную и сложную экосистему API в единый, готовый к промышленному использованию каркас.

habr.com/ru/articles/891532/

#ai #openai #llm #ai_agent #venture_beat #искусственный_интеллект #ии #большие_языковые_модели

2025-03-13

n8n. Создаём AI Telegram agent с установкой и настройкой

Всем привет! В этой статье будет рассматриваться n8n — open source платформа для автоматизации рабочих процессов, которая поддерживает более 400 интеграций, в том числе LMM, векторные базы данных и все, что нужно, чтобы создать ИИ-агентов и RAG-приложений. Итак, сегодня мы развернем n8n c RAG-агентом и покажем, как им пользоваться на простых примерах, среди которых будет telegram чат-бот для работы с БД PostgreSQL.

habr.com/ru/companies/amvera/a

#n8n_telegram #ai_agent #n8n_установка #n8n_docker #n8n_agent #n8n_база_данных_postgresql #n8n_https #создание_ии_агентов #rag_ai #n8n_ai

Hit new slatestHitnewslatest
2025-03-12

Explore China's : revolutionary breakthrough or strategic hype? Analysis of capabilities, limitations, and global impact.
hitnewslatest.com/2025/03/chin

2025-02-27

[Перевод] Бенчмаркинг AI-агентов: оценка производительности в реальных задачах

AI-агенты уже решают реальные задачи — от обслуживания клиентов до сложной аналитики данных. Но как убедиться, что они действительно эффективны? Ответ заключается в комплексной оценке AI-агентов. Чтобы AI-система была надежной и последовательной, важно понимать типы AI-агентов и уметь их правильно оценивать. Для этого используются продвинутые методики и проверенные фреймворки оценки AI-агентов. В этой статье мы рассмотрим ключевые метрики, лучшие практики и основные вызовы, с которыми сталкиваются компании при оценке AI-агентов в корпоративных средах.

habr.com/ru/articles/886198/

#ai_agent #benchmarking #ии_агенты #бенчмаркинг #llm

2025-02-26

[Перевод] Agents 101: Как создать своего первого ИИ-агента за 30 минут

ИИ-агенты становятся всё более востребованными для автоматизации задач и улучшения взаимодействия с пользователем. В этой статье вы узнаете, как создать собственного агента с помощью CopilotKit и LangGraph. Пошаговое руководство, примеры с исходным кодом и разбор ключевых компонентов помогут вам быстро освоить процесс и запустить своего первого ИИ-ассистента за 30 минут.

habr.com/ru/companies/otus/art

#AI_agent #ии_агенты #вебдев #opensource #ии

2025-02-10

Crew AI — один из самых популярных агентных фреймворков

Представьте, что ваши ИИ-агенты — это маркетинговый отдел, где Crew AI его мозг. Сейчас это один из самых популярных фреймворков, и не зря.

habr.com/ru/companies/raft/art

#crew_ai #agentic_ai #ai_agent #llmмодели

2025-01-27

Используем языковые модели в AI-агентах. Часть 2. Retrievers, TextSplitters

LanhChain - фреймворк, предоставляющий обширный и удобный функционал по использованию LLM, он служит для разработки приложений на основе больших языковых моделей, создания AI-агентов, взаимодействия с векторными хранилищами и т.д. В этой части я разберу способы разделения текста и его хранения.

habr.com/ru/articles/876844/

#nlp #nlp_обработка_текста #langchain #python #агенты #ai_agent

2025-01-06

Используем языковые модели в AI-агентах. Часть 1. Введение в LangChain

LanhChain - фреймворк, предоставляющий обширный и удобный функционал по использованию LLM, он служит для разработки приложений на основе больших языковых моделей, создания AI-агентов, взаимодействия с векторными хранилищами и т.д.

habr.com/ru/articles/871830/

#ai_agent #llm #langchain #python3 #нлп #агенты_ии #hugging_face

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst