#gemini_pro

2025-12-31

Gemini 3 Flash против Pro: Google забрал 2025 год? Сравнение архитектуры, тестов и креатива

На рынке LLM сейчас такое творится, что даже следить устаёшь. Релизы летят как горячие пирожки, только успевай жевать. Позавчера все носились с Claude, вчера с Gemini, сегодня весь интернет ждал GPT 5.2 как второго пришествия. А Google такой: "Подержи моё пиво". Пока всё внимание было приковано к OpenAI, Google тихо выкатил Gemini 3 Flash. Без громких презентаций, просто намёк в X и готово. Тайминг идеальный. Вообще Google в этом году напоминает шахматиста, который пока все смотрят на ферзя, спокойно забирает фигуры по краям доски. Ещё и Nano Banana 2 Flash на подходе. Раньше Gemini воспринимался как крепкий середнячок, хорош, но не универсален. Сейчас компания закрывает направление за направлением, и конкурентам становится тесновато. В конце года Google выпустил Gemini 3 Pro, заточенный под сложную аналитику. Мы тогда разбирали его подробно, и в комментариях всплыла интересная штука: после выхода Flash народ начал жаловаться, что Pro стала отвечать хуже. То ли ресурсы перекинули, то ли просто показалось, то ли что-то подкрутили на бэкенде. Ладно, не будем гадать. Сегодня тестируем сами и смотрим, что там на самом деле. Приятного чтения, поехали!

habr.com/ru/companies/bothub/a

#ai #нейросети #машинное+обучение #google #openai #gpt #gemini_flash #gemini_pro #claude #anthropic

2025-11-13

LLM vs. почерк: практическое сравнение GPT-5, Gemini и Claude в задачах OCR

Распознавание рукописного текста — задача, которая остаётся болезненной даже в 2025 году. Именно это не позволяет оцифровать многие архивы и документы, а также является камнем преткновения в разной бизнес деятельности. Производители заявляют, что модели вроде GPT-5, Gemini 2.5 Pro и Claude Sonnet 4.5 способны не просто распознать почерк, но и догадаться, что автор имел в виду: исправить пунктуацию, восстановить сокращения, даже понять, что стоит за пометками на полях. Звучит красиво. Но работает ли это на реальных документах? Чтобы ответить, мы провели исследование и сравнили , как три топ-LLM обрабатывают рукописные и смешанные документы — с точки зрения точности, структурной консистентности и понимания контекста.

habr.com/ru/articles/966002/

#llmмодели #chatgpt5 #claude_sonnet #gemini_pro #языковые_модели #обработка_документов #почерк #почерк_врачей #gpt5 #обработка_изображений

2025-09-11

Какая LLM лучше распознает чертежи? Мы сравнили 6 LLM и узнали ответ

Инженерные чертежи содержат десятки типов размеров и допусков: линейные и угловые, радиальные и диаметральные, справочные и базовые, а также геометрические характеристики вроде плоскостности или перпендикулярности. Для инженера это привычный язык, но для автоматической обработки такие документы представляют серьёзную задачу. С появлением мультимодальных LLM возник вопрос: способны ли они заменить классические OCR-решения и специализированные пайплайны постобработки? Насколько хорошо современные модели справляются с извлечением размеров и допусков из коробки, без дообучения? Какие модели дают максимальную точность, какие быстрее, а какие дешевле? И можно ли комбинировать разные подходы, чтобы повысить результат? Чтобы ответить на эти вопросы, мы протестировали шесть актуальных vision-LLM на одном наборе реальных механических чертежей и сравнили их точность, скорость и стоимость обработки.

habr.com/ru/articles/946080/

#llmмодели #chatgpt4 #chatgpt5 #claudeopus4 #gemini_flash #gemini_pro #qwen #языковые_модели #чертежи #обработка_изображений

2025-07-07

Как LLM решают вопросы в духе “Что? Где? Когда?” — эксперимент и выводы

Провёл эксперимент: дал современным языковым моделям логические вопросы в духе «Что? Где? Когда?». В статье — наблюдения, примеры ответов, сравнительный анализ и советы как использовать LLM при создании своих вопросов.

habr.com/ru/articles/925776/

#что_где_когда #llmмодели #gemini_pro #openai_o3 #логические_задачи #квизы

2025-06-03

Как мы протестировали AI-модели на извлечение данных из счетов: победитель удивил

Обработка счетов — важная и рутинная часть документооборота, которую всё чаще доверяют AI-моделям. Наша компания часто занимается интеллектуальной обработкой счетов для клиентов, а значит мы постоянно ищем лучший способ для их распознавания. Поэтому мы провели практическое исследование и сравнили, как с этой задачей справляются разные решения: от популярных open-source моделей до коммерческих API. Исследование включало несколько этапов: мы собрали разнообразный датасет из реальных счетов, привели его к единому формату, определили метрики и протестировали 7 популярных на наш взгляд моделей, чтобы понять:

habr.com/ru/articles/915076/

#llm #deepseek #gemini_pro #gpt4o #invoice #azure_ai #aws #счетфактура #языковые_модели #большие_языковые_модели

2025-04-28

Обзор Gemini 2.0: путь Google к поколению 2.5

Привет, Хабр. Недавно Google выпустила свою передовую модель Gemini 2.5, закономерно обогнав поколение 2.0 в общем зачете. Однако, всё познаётся в сравнении, а лучший способ понять, что изменилось – сравнить с предшественниками. Что представляют собой модели 2.0 и насколько они актуальны (и актуальны ли вообще) – выясним в статье. Приятного чтения :)

habr.com/ru/companies/bothub/a

#gemini #gemini_ai #gemini_pro #google_ai #gemini_25_pro #ai #gemini_20_flash #gemini_25_flash #gemini_25 #gemini_20

2023-12-13

Подключение Google Gemini Pro к проекту на Python

Несколько дней назад я решал задачу подключения Yandex GPT, и главной сложностью там было освоение Yandex Cloud Console. В остальном API - вылитая LLaMa 2. С Google Gemini история иная. Документация консоли содержит те самые вставки "New to Google Cloud", отсутствие которых вдохновило меня писать про Yandex GPT. При работе с консолью есть нюансы, их и выделим ниже по тексту. Но в целом, можно просто следовать документации, и всё получится. В Google Cloud теперь доступны два пространства, с которых можно начинать: Vertex AI Studio и Model Garden . Первая предназначена для экспериментов с моделями и отладки промптов. А вторая - библиотека моделей, где всего их на сегодня 56, среди них упомянутая LLaMa 2, PaLM 2, знаменитый тем, что на нём работет Google Bard и, возможно, скоро мы увидим прорыв в медконсультировании Med PaLM 2 , Gemini Pro. Мы сегодня коснёмся только Gemini Pro Vision, поскольку именно она заявлена как главный прорыв. Подключить модель просто, весь процесс состоит из четырёх шагов

habr.com/ru/articles/780488/

#gemini_pro #cloud #google #bard #openai #llama 2 #palm 2

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst