Lmst

Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»

Новости об ИИ выходят быстрее, чем успеваешь их переварить: релизы моделей, таблицы бенчмарков, заявления про "революцию" и "конец профессий". Эта статья научит,что проверять, когда выходит новая модель, как читать бенчмарки, на что смотреть в model/system card , чтобы понимать реальный смысл анонса, чем open-weight отличается от закрытых моделей и почему это влияет на рынок. А заодно, как читать без паники и самообмана статьи вроде "ИИ отнимет у вас работу".

https://habr.com/ru/articles/1003130/

#нейросети #искусственный_интеллект #LLM #бенчмарки #Claude_Sonnet_46 #Gemini_31_Pro #GPT52 #SWEbench #ARCAGI2 #сравнение_моделей_ИИ

Google представив Gemini 3.1 Pro — ШІ для багатокрокового мислення, 3D і коду
# #3D #AI #AIModel #AIStudio #AndroidStudio #ARCAGI2 #BrowseComp #Gemini31Pro #GeminiCLI #GeminiEnterprise #Google #GoogleGemini #GPQADiamond #NotebookLM #SVG #SWEBenchVerified #VertexAI
https://gizchina.net/2026/02/22/gemini-3-1-pro-model-google-mirkuvannia/

Sur le #benchmark #ARC-AGI-2, un des plus complexes du milieu, le modèle est passé d’un score de 45 % à près de 85 % en trois mois. Avec un score aussi élévé, #Google approche des limites du #test : son #modèle a désormais les #capacités des #meilleurs #humains de la #planète #réunis #LLM #IA

Google i OpenAI w wyścigu AI – myślenie głębsze vs prędkość działania

Czy to już „myślenie” AI, czy po prostu nowy, bardzo kosztowny sposób na dłuższe mielenie odpowiedzi? Google odpalił tryb Gemini 3 Deep Think – specjalny mechanizm do zadań, gdzie liczy się analiza i rygor, nie small talk.

Czytaj dalej:
https://pressmind.org/google-i-openai-w-wyscigu-ai-myslenie-glebsze-vs-predkosc-dzialania/

#PressMindLabs #anthropic #arcagi2 #cerebraswse3 #gemini3deepthink #gpt53codexspark

Ilustracja przedstawiająca futurystyczne laboratorium badawcze AI w stylu 2.5D.

Chubby (@kimmonismus)

불과 10개월 만에 ARC-AGI-2 벤치마크 성능이 75%를 돌파했다는 성과를 공유한 트윗입니다.

https://x.com/kimmonismus/status/2018800964891984181

#arcagi2 #benchmark #agi #research

Data contamination threatens #LLM #AIEvaluation Scaling has “limits to growth”. New #ARCAGI2 counters this problem with contamination resistant, compositional reasoning tests and human baselines require original reasoning Not just memory recall evaluation arxiv.org/abs/2505.11831

ARC-AGI-2: A New Challenge for...

Gemini Flash không vượt qua được phiên bản Pro trên ARC-AGI-2. ARC-AGI-2 là thử thách AI mới, kết quả cho thấy hiệu suất của Pro vẫn cao hơn Flash. Nhiều thảo luận xoay quanh khả năng phát triển AGI. #Gemini #ARCAGI2 #AGI #AI #KhoaHocMayTinh #AIResearch #TríTuệNhânTạo #ArcAGI2 #MáyTínhThíNghiệm

https://www.reddit.com/r/singularity/comments/1pp2qg9/not_gemini_flash_beating_pro_on_arcagi2/

Interesting how Poetiq (company) can improve on the performance of the standard Gemini 3.0 Pro model by adding refinements and tricks. It leads to a 9% improvement on the ARC-AGI-2 Benchmark.
https://poetiq.ai/posts/arcagi_verified/
#AI #Poetiq #ArcAGI2 #Google #GeminiPro

Google Gemini’s new Deep Think model just topped the ARC‑AGI‑2 benchmark, showing a leap in open‑source AI performance. Meanwhile Nvidia rolls out fresh open tools for autonomous‑driving research, and the community eyes Cosmos Cookbook & Flux.2 from Black Forest Labs. Dive into the details! #GoogleGemini #DeepThink #ARCAGI2 #Nvidia

🔗 https://aidailypost.com/news/google-geminis-deep-think-tops-arc-agi-2-benchmark-nvidia-announces

🤖 So, someone cooked up a 'Tiny Recursion Model' with a whopping 7 million parameters, and it's hitting a staggering 45% on ARC-AGI-1. 🌟 8% on ARC-AGI-2? 🎉 Watch out, world - this minuscule marvel is taking mediocrity to new heights! 🚀
http://alexiajm.github.io/2025/09/29/tiny_recursive_models.html #TinyRecursionModel #ARCAGI1 #ARCAGI2 #AIInnovation #MachineLearning #HackerNews #ngated

A tiny recursive reasoning model achieves 45% on ARC-AGI-1 and 8% on ARC-AGI-2

http://alexiajm.github.io/2025/09/29/tiny_recursive_models.html

#HackerNews #tinyRecursiveModels #ARCAGI1 #ARCAGI2 #AIResearch #MachineLearning

Je viens d'écouter la dernière vidéo de @monsieurphi « Comment parler intelligemment d'intelligence ? »

https://notes.sklein.xyz/2025-07-05_1538/

Ce qui m'a particulièrement intéressé, c'est d'en savoir plus au sujet de #arcagi et #arcagi2

#LLM #Leaderboard

💡 ARC-AGI-2 mette in crisi i modelli IA più avanzati

https://gomoot.com/arc-agi-2-mette-in-crisi-i-modelli-ia-piu-avanzati/

#agi #arcagi2 #arcprize #benchmark #blog #chatgpt #claude #deepseekr1 #geminiflash #news #openai #picks #sonnet #tech #tecnologia

Neuer Test ARC-AGI-2 zeigt: MENSCH GEWINNT GEGEN KI!

KI-Modelle scheitern kläglich beim ARC-AGI-2 Test, während Menschen ihn locker lösen! 🤯 Dieser neue Benchmark enthüllt eklatante Schwächen aktueller KI. Ist die AGI doch weiter entfernt als gedacht? 🤔

KI versagt bei Logik-Test
Menschen sind (noch) überlegen
Was bedeutet das für die Zukunft?

#ai #ki #agi #arcagi2 #künstlicheintelligenz #artificialintelligence

https://kinews24.de/arc-agi-2/

AI-modellen falen in nieuwe test! 🤖💥 Zelfs de beste systemen scoren slechts 1-1.3% tegenover 60% van mensen. Is AI echt zo slim als we denken? #AI #ARCAGI2
https://itinsights.nl/het-laatste-it-nieuws/ai-modellen-struikelen-over-onmogelijke-test/

Arc-AGI-2 and ARC Prize 2025

https://arcprize.org/blog/announcing-arc-agi-2-and-arc-prize-2025

#HackerNews #ArcAGI2 #ARCPrize2025 #AIInnovation #TechNews #FutureOfAI

#ARCAGI2

Client Info