[Перевод] Reasoning CV-модели OpenAI не смогли посчитать монеты
Новые мультимодальные модели OpenAI o3 и o4-mini позиционируются как "разумные". Однако качественное тестирование на практических задачах вроде подсчета объектов и распознавания текста выявило неожиданные пробелы в их производительности, в некоторых случаях уступающие даже не-reasoning моделям. Узнайте, какие именно тесты провалили новинки и где показали уверенный результат.
https://habr.com/ru/articles/909052/
#ai #computervision #multimodal_llm #openai #llm #testing #evaluation #VQA #ocr