#Multimodal_LLM

2025-06-03

Новый вид контента: ИИллюстрированная аудиокнига

Недавно мне пришла в голову идея написать приложение для автоматической генерации иллюстраций к аудиокнигам. Видео-модели пока не умеют создавать длинные видео, но ведь можно экранизировать аудиокниги с помощью серии иллюстраций! Эта идея меня захватила, и я написал небольшой проект...

habr.com/ru/articles/915174/

#llm #multimodal_llm #аудиокниги #медиа

2025-05-16

[Перевод] Reasoning CV-модели OpenAI не смогли посчитать монеты

Новые мультимодальные модели OpenAI o3 и o4-mini позиционируются как "разумные". Однако качественное тестирование на практических задачах вроде подсчета объектов и распознавания текста выявило неожиданные пробелы в их производительности, в некоторых случаях уступающие даже не-reasoning моделям. Узнайте, какие именно тесты провалили новинки и где показали уверенный результат.

habr.com/ru/articles/909052/

#ai #computervision #multimodal_llm #openai #llm #testing #evaluation #VQA #ocr

2024-11-08

Понимает ли Vision Llama импрессионистов?

Всем привет, меня зовут Арсений, я Data Scientist в компании Raft, и сегодня я расскажу вам про Visual Language Models (VLM). Большие языковые модели уже стали частью нашей жизни и мы применяем их, чтобы упростить современную рутину, а так же используем для решения бизнес задач. Недавно вышло новое поколение vision transformer моделей, которые заметно упростили анализ изображений, из какой бы сферы эти изображения не были. Особенно заметным был сентябрьский релиз Llama-3.2-11b, и не только потому что это первая vision модель от Llama, сколько потому, что с ней вместе вышло целое семейство моделей, включая маленькие на 1B и 3B параметров. А как вы знаете, меньше, значит юзабельнее.

habr.com/ru/companies/raft/art

#Vision_Transformers #Vision_Language_Models #multimodal_llm #Llama32 #qwen2vl #llava #art #art_history

2024-07-25

Устойчивость к кибератакам российских больших языковых моделей с открытым исходным кодом

Маленькая ремарка С появлением больших языковых моделей обществу был брошен вызов. Первые проблемы, с которыми пришлось столкнуться в области LLM, были связаны с тем, что

habr.com/ru/companies/isp_ras/

#Opensource_LLM #Multimodal_LLM #Attacks_on_LLM #Alignment_LLM #Adversarial_attacks #Backdoor_attacks #Trusted_AI_Research_Center_ISP_RAS

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst