#ARCAGI2

2026-02-24

Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»

Новости об ИИ выходят быстрее, чем успеваешь их переварить: релизы моделей, таблицы бенчмарков, заявления про "революцию" и "конец профессий". Эта статья научит,что проверять, когда выходит новая модель, как читать бенчмарки, на что смотреть в model/system card , чтобы понимать реальный смысл анонса, чем open-weight отличается от закрытых моделей и почему это влияет на рынок. А заодно, как читать без паники и самообмана статьи вроде "ИИ отнимет у вас работу".

habr.com/ru/articles/1003130/

#нейросети #искусственный_интеллект #LLM #бенчмарки #Claude_Sonnet_46 #Gemini_31_Pro #GPT52 #SWEbench #ARCAGI2 #сравнение_моделей_ИИ

Rod2ik 🇪🇺 🇨🇵 🇪🇸 🇺🇦 🇨🇦 🇩🇰 🇬🇱 ☮🕊️rod2ik.bsky.social@bsky.brid.gy
2026-02-14

Sur le #benchmark #ARC-AGI-2, un des plus complexes du milieu, le modèle est passé d’un score de 45 % à près de 85 % en trois mois. Avec un score aussi élévé, #Google approche des limites du #test : son #modèle a désormais les #capacités des #meilleurs #humains de la #planète #réunis #LLM #IA

PressMind Labspressmind
2026-02-13

Google i OpenAI w wyścigu AI – myślenie głębsze vs prędkość działania

Czy to już „myślenie” AI, czy po prostu nowy, bardzo kosztowny sposób na dłuższe mielenie odpowiedzi? Google odpalił tryb Gemini 3 Deep Think – specjalny mechanizm do zadań, gdzie liczy się analiza i rygor, nie small talk.

Czytaj dalej:
pressmind.org/google-i-openai-

Ilustracja przedstawiająca futurystyczne laboratorium badawcze AI w stylu 2.5D.

Chubby (@kimmonismus)

불과 10개월 만에 ARC-AGI-2 벤치마크 성능이 75%를 돌파했다는 성과를 공유한 트윗입니다.

x.com/kimmonismus/status/20188

#arcagi2 #benchmark #agi #research

2026-01-17

Data contamination threatens #LLM #AIEvaluation Scaling has “limits to growth”. New #ARCAGI2 counters this problem with contamination resistant, compositional reasoning tests and human baselines require original reasoning Not just memory recall evaluation arxiv.org/abs/2505.11831

ARC-AGI-2: A New Challenge for...

2025-12-17

Gemini Flash không vượt qua được phiên bản Pro trên ARC-AGI-2. ARC-AGI-2 là thử thách AI mới, kết quả cho thấy hiệu suất của Pro vẫn cao hơn Flash. Nhiều thảo luận xoay quanh khả năng phát triển AGI. #Gemini #ARCAGI2 #AGI #AI #KhoaHocMayTinh #AIResearch #TríTuệNhânTạo #ArcAGI2 #MáyTínhThíNghiệm

reddit.com/r/singularity/comme

Erik JonkerErikJonker
2025-12-10

Interesting how Poetiq (company) can improve on the performance of the standard Gemini 3.0 Pro model by adding refinements and tricks. It leads to a 9% improvement on the ARC-AGI-2 Benchmark.
poetiq.ai/posts/arcagi_verifie

AI Daily Postaidailypost
2025-12-08

Google Gemini’s new Deep Think model just topped the ARC‑AGI‑2 benchmark, showing a leap in open‑source AI performance. Meanwhile Nvidia rolls out fresh open tools for autonomous‑driving research, and the community eyes Cosmos Cookbook & Flux.2 from Black Forest Labs. Dive into the details!

🔗 aidailypost.com/news/google-ge

N-gated Hacker Newsngate
2025-10-07

🤖 So, someone cooked up a 'Tiny Recursion Model' with a whopping 7 million parameters, and it's hitting a staggering 45% on ARC-AGI-1. 🌟 8% on ARC-AGI-2? 🎉 Watch out, world - this minuscule marvel is taking mediocrity to new heights! 🚀
alexiajm.github.io/2025/09/29/

Hacker Newsh4ckernews
2025-10-07
2025-07-05

Je viens d'écouter la dernière vidéo de @monsieurphi « Comment parler intelligemment d'intelligence ? »

notes.sklein.xyz/2025-07-05_15

Ce qui m'a particulièrement intéressé, c'est d'en savoir plus au sujet de #arcagi et #arcagi2

#LLM #Leaderboard

KINEWS24KiNews
2025-03-25

Neuer Test ARC-AGI-2 zeigt: MENSCH GEWINNT GEGEN KI!

KI-Modelle scheitern kläglich beim ARC-AGI-2 Test, während Menschen ihn locker lösen! 🤯 Dieser neue Benchmark enthüllt eklatante Schwächen aktueller KI. Ist die AGI doch weiter entfernt als gedacht? 🤔

KI versagt bei Logik-Test
Menschen sind (noch) überlegen
Was bedeutet das für die Zukunft?

kinews24.de/arc-agi-2/

IT InsightsITinsights
2025-03-25

AI-modellen falen in nieuwe test! 🤖💥 Zelfs de beste systemen scoren slechts 1-1.3% tegenover 60% van mensen. Is AI echt zo slim als we denken?  
itinsights.nl/het-laatste-it-n

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst