#LLMArena

2025-03-31

Как предъявлять бездушным машинам, чтобы они тебя понимали. Гайд про промпт-инжинирингу

Если вам кажется, что нейросети тупят, не справляются с задачами или делают все как-то через раз — не спешите списывать их со счетов. Возможно, проблема не в них, а в том, как вы у нее спрашиваете. LLM — не универсальное решение всех задач. Это предикативные модели, обученные на массивных объемах текстов, и их поведение напрямую зависит от того, что именно вы им подаете на вход. Промпт в этом контексте — полноценный интерфейс взаимодействия, инструкция, способ задать контекст. Если вводите плохой промпт, получаете плохой результат. Это не случайность, не артефакт, а вполне ожидаемое следствие некорректной постановки задачи.

habr.com/ru/articles/895810/

#llm #ии #искусственный_интеллект #промпты #промптинжиниринг #llmarena

2025-03-24

Как выбрать LLM-модель, которая заберет у вас работу

Пока одни спорят, заменит ли ИИ людей, другие уже выбирают, какую нейросеть поставить себе в напарники. ChatGPT, Claude, Mistral, а еще китайские модели, которые неожиданно набирают популярность — надо бы разобраться в этом хаосе. Не стоит полагаться только на отзывы или случайные тесты. Разбираемся, по каким критериям действительно стоит оценивать LLM, чтобы выбрать мощную и полезную модель, а не просто хорошо обученного бота.

habr.com/ru/articles/893642/

#llm #llmмодели #ии #нейросеть #chatgpt #claude #yandexgpt #qwen #llmarena

2025-03-06

От ресторанов до банков: какие компании доверяют ИИ важные задачи

Нейросети – мощный инструмент, который уже меняет бизнес. Но обычно все сводится к общим словам: «ИИ помогает в маркетинге», «Нейросети улучшают сервис»… Звучит красиво, но где конкретика? Мы нашли реальные кейсы: как крупные компании уже используют искусственный интеллект, что из этого вышло и какие технологии стоят за успехом.

habr.com/ru/articles/888476/

#ии #искусственный_интеллект #ai #llmarena #claude_37_sonnet #gpt4o

2025-02-24

Люди больше не нужны? Профессии, которые уже заменил ИИ

2023 - 2024 годы стали переломными для искусственного интеллекта. Развитие технологий ускорилось, а внедрение нейросетей затронуло буквально все сферы жизни. Мощные мультимодальные модели, такие как GPT-4 от OpenAI и Gemini Ultra от Google, теперь способны анализировать не только текст, но и изображения, аудио, код и даже сложные бизнес-данные. И вроде бы все здорово — ИИ избавляет нас от рутины, ускоряет работу и помогает автоматизировать процессы. Но вместе с этим появляется и тревога: а не останемся ли мы без работы? Этот страх небезоснователен — согласно анализу Goldman Sachs , к 2035 году из-за ИИ может исчезнуть до 300 миллионов рабочих мест по всему миру. Однако прогноз McKinsey Global Institute немного сглаживает панику: к 2030 году появится 20–50 миллионов новых профессий. Так какие же специальности ИИ уже успешно вытесняет, а какие пока держатся — давайте разбираться.

habr.com/ru/articles/884810/

#ии #llm #llmarena #openai #gpt #gemini #qwen #claude #deepseek

2025-02-13

Феномен DeepSeek: разбираем причины шума вокруг нейросети

Понедельник, 27 января, начался с крупнейшего однодневного падения компании в истории фондового рынка США. Акции NVIDIA упали на 18%, а прибыль снизилась на $589 миллиардов. А все из-за китайской версии «синего кита» — точнее, выхода ИИ-модели DeepSeek-R1. Издание The New Yorker назвало ситуацию «Sputnik moment», по аналогии с отправкой первого человека в космос. Тогда США осознали свое отставание от технического прогресса — и вот опять. Но почему это вдруг произошло так резко? Ведь DeepSeek и другие китайские, европейские нейросети существовали и до 2025 года. Давайте разберемся, почему все вдруг обратили внимание на чат-бота из Поднебесной, когда вокруг так много аналогов.

habr.com/ru/articles/882162/

#ии #deepseek #ai #llm #llmarena #openai #gpt

2024-12-26

Будущее LLM: 7 прогнозов на 2025 год

Языковые модели, или LLM, продолжают впечатлять своим развитием. Технологии становятся умнее, их возможности шире, а применение в бизнесе и жизни — еще полезнее. В 2024 году LLM обрели зрение и память, получили доступ к актуальной информации и подтянули знания в кодинге. Чего ожидать от 2025 года? Собрал наиболее правдоподобные прогнозы и добавил свои. Спойлер: Джарвиса, который будет делать за нас всю работу, ждать не стоит.

habr.com/ru/articles/870002/

#искусственный_интеллект #llm #llmarena #finetuning #rag #agi #o1preview #openai #gpt

2024-10-14

[Перевод] Как устроен бенчмарк LLM? Знакомство с оценкой моделей

В условиях, когда полным ходом идет (генеративная) революция искусственного интеллекта, каждый день появляются новые крупные языковые модели (LLM). Существуют общие модели и усовершенствованные версии этих общих моделей для конкретных целей. В настоящее время на Huggingface размещено около 750 000 различных моделей . Но как выбрать ту, которая подойдет вашим целям? Найти модель, которая лучше всего подойдет для поставленной задачи, сложно. Также определить, что такое «хорошая производительность» при выполнении некоторых задач, может быть непросто. Существует ряд доступных бенчмарков, которые помогут вам сравнить эти LLM. В этой статье объясняются основы оценки LLM и подробно рассматриваются общие метрики оценки и бенчмарки LLM.

habr.com/ru/articles/850218/

#FEval #BBH_(Big_Bench_Hard) #GPQA #MMLUPRO #LLM_бенчмарк #llmarena #benchmarking

2024-09-30

[Перевод] Как оценить качество LLM модели

Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей. Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны: Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга». LLM не всегда правильно излагают факты; это явление называется «галлюцинациями». LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться. Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с n параметров) лучше LLM Б (с m параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений? Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее ), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.

habr.com/ru/articles/846748/

#Машинное_обучение #LLM #DeepEval #RAG #LMSys #LLMArena #PromptBench #llm_arena #HELM #MMLU #HellaSwag #BIGBench_Hard

2024-09-24

[Перевод] Полный гид по бенчмаркам LLM: подробный каталог

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились. В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.

habr.com/ru/articles/845510/

#Бенчмарки #LLM #AlpacaEval #MTBench #llmarena #TrustLLM #TruthfulQA #SycophancyEval #CyberSecEval

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst