#METR

Jan Schmidt-PrüferPruferJan
2026-02-26

🚨 KI-Agenten exponentiell besser? METR zeigt steigende "Time Horizons" – aber 50% Erfolg = jeder 2. Versuch scheitert. Log-Skala: stabiler.

👉 Meine Einschätzung: Wirtschaftlich relevant, aber kein Beweis für baldige Agentenübernahmen.

(Picture Credits to METR, via metr org, abgerufen am 22.2.26, "Model Evaluation & Threat Research", Social-Media-Bearbeitung und Screenshot druch: Marlon Niklas Kaulich)

[Opus 4.6, 사람 기준 14.5시간짜리 문제를 푼다는 것의 의미 (METR Time Horizon)

METR 연구기관의 Opus 4.6 모델이 인간 전문가 기준 14.5시간짜리 문제를 50% 확률로 해결할 수 있는 능력을 평가한 연구 결과를 발표했습니다. 이 연구는 AI의 장기적·자율적 작업 수행 능력을 측정하며, AI가 고숙련 지식 노동을 대체할 수 있는 임계점에 도달했음을 시사합니다.

news.hada.io/topic?id=26872

#ai #metr #opus46 #automation #timehorizon

brozu ▪️brozu@mastodon.uno
2026-02-10

Cari #devs,

Uno studio #METR ha scoperto che gli sviluppatori esperti erano convinti che l’#AI li rendesse più rapidi del 20%.

Realtà dei fatti: impiegavano il 19% di tempo in più.

Percezione vs realtà

🔗 metr.org/blog/2025-07-10-early

#llm #claudecode #chatgpt #codex #gemini #agents #agentsai

AllAboutSecurityallaboutsecurity
2026-02-10

Künstliche Intelligenz verstärkt Arbeitsbelastung statt sie zu verringern

Entwickler, die KI-Tools wie Cursor Pro mit Claude 3.5/3.7 Sonnet nutzten, benötigten 19 Prozent länger für ihre Aufgaben als ohne KI-Unterstützung.

all-about-security.de/kuenstli

Yastreb :verifiedpolyam:yastreb@mastodon.ml
2026-01-05

Интересное в графике - не то что 8 часовые задачи (с успешностью 50%) прогнозируются в ~середине этого года, а то, как уныло выглядит график, если переключить на 80% успешность (там нечто вроде 15 минут на начало 2026, а не 4.5 часа как на 50%).

metr.org/blog/2025-03-19-measu

#LLM #METR #evals #llm_evals #ai_evals

2025-12-20

METR phát hiện Opus 4.5 có 50% xác suất hoàn thành trong 4 giờ 49 phút. Đánh giá kỹ thuật mới về mô hình AI. #Opus45 #METR #AILab #ThờiGianXửLý #ĐánhGiáAI

reddit.com/r/singularity/comme

2025-11-19

GPT-5.1-Codex-Max đã thiết lập tiêu chuẩn mới trên METR, khẳng định vị thế hàng đầu trong công nghệ xử lý ngôn ngữ tự nhiên.:::/GPT-5.1-Codex-Max sets new standard on METR, asserting leading position in natural language processing technology. #GPT51CodexMax #METR #TríTuệNhânTạo #ArtificialIntelligence #XửLýNgônNgữTựNhiên #NaturalLanguageProcessing

reddit.com/r/singularity/comme

2025-10-25

«La supuesta de la no se está reflejando en los números: un riguroso estudio de —que no puede tildarse de tecnófobo— encontró que los de experimentados eran un 20% más lentos al usar herramientas de . El problema radica en la brecha entre capacidad y fiabilidad: los sistemas pueden realizar tareas impresionantes, pero con una inconsistencia que exige una supervisión humana constante, ...»
cenital.com/la-burbuja-de-la-i

2025-07-31

People are starting to realize #AI slows you down on projects with a minimal complexity (see the randomized #METR trial and this venturebeat.com/ai/stack-overf), so what's the proposed solution? Put a human in the loop, so the poor can fix the mess. I haven't read the paper, but it sounds so stupid! It comes from #Microsoft by the way, so... arxiv.org/pdf/2507.22358

Interesting METR experiment: AI tools like Cursor cut raw coding time but ultimately slow devs down due to prompt crafting, reviewing, and tweaking. A solid study - though focused on one tool. Timely reminder: AI isn’t a magic bullet. #METR #AICoding #GenAI #SoftwareDev #Cursor

Cursor makes developers less e...

Arie van Deursen 🇪🇺🇳🇱avandeursen@mastodon.acm.org
2025-07-14

Very thoughtful analysis by @grimalkina of the experimental design and results from the recent METR study on “the impact of early-2025 AI on experience open-source developer productivity”.

fightforthehuman.com/are-devel

#metr #cursor

2025-07-12

Исследование METR: использование Cursor замедляет опытных разработчиков на 19 %

Считается устоявшейся истиной, что инструменты автодополнения кода и прочая помощь от больших языковых моделей помогают программировать быстрее. Исследование организации METR ставит это фактоид под сомнение и даже демонстрирует обратный эффект. В рамках анализа труда 16 программистов обнаружилось, что ИИ замедляет человека на 19 %. Это противоречит мнению экспертов индустрии машинного обучения, экономистов и самих участников эксперимента. Важно, что проверка шла не на очередных бенчмарках или предложениях решать алгоритмические задачи на скорость, а в обычной работе людей.

habr.com/ru/articles/927072/

#METR #Model_Evaluation_Threat_Research #научные_исследования #большие_языковые_модели #БЯМ #Сursor #программирование #GitHub #Git #автодополнение_кода

eicker.news ᳇ tech newstechnews@eicker.news
2025-07-11

A #study by #METR found that #experienceddevelopers using #AIcoding tools on mature projects experienced a 19% #decrease in #productivity, contrary to their 20% increase estimate. While the results suggest limitations in AI coding tools, they do not negate their potential benefits in other contexts. secondthoughts.ai/p/ai-coding- #tech #media #news

2025-07-11

Some quick notes on Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity, a super interesting study on AI tooling’s effect on productivity.

https://vale.rocks/micros/20250711-0800

#AI #LLM #METR

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst