Lmst

Как LLM решают вопросы в духе “Что? Где? Когда?” — эксперимент и выводы

Провёл эксперимент: дал современным языковым моделям логические вопросы в духе «Что? Где? Когда?». В статье — наблюдения, примеры ответов, сравнительный анализ и советы как использовать LLM при создании своих вопросов.

https://habr.com/ru/articles/925776/

#что_где_когда #llmмодели #gemini_pro #openai_o3 #логические_задачи #квизы

[Перевод] Как я нашёл уязвимость в ядре Linux при помощи модели o3

В этом посте я расскажу, как нашёл уязвимость нулевого дня в ядре Linux при помощи модели OpenAI o3. Уязвимость обнаружилась благодаря одному лишь API o3 — не потребовались никакая дополнительная настройка, агентские фреймворки и инструменты. Недавно я занимался аудитом уязвимостей ksmbd. ksmbd — это « сервер ядра Linux, реализующий в пространстве ядра протокол SMB3 для передачи файлов по сети ». Я приступил к этому проекту специально для того, чтобы взять отдых от разработки связанных с LLM инструментов, но после релиза o3 не мог избежать искушения и не использовать в качестве небольшого бенчмарка способностей o3 баги, найденные мной в ksmbd. В одном из следующих постов я расскажу о показателях o3 при обнаружении всех этих багов, а сегодня мы поговорим о том, как в процессе моего бенчмаркинга o3 обнаружила уязвимость нулевого дня. Найденной уязвимости присвоили обозначение CVE-2025-37899 (её патч выложен на Github ), это use-after-free в обработчике команды SMB logoff . Для понимания уязвимости необходимо знать о работе конкурентных подключений к серверу и о том, как они в определённых обстоятельствах могут обмениваться различными объектами. Модели o3 удалось разобраться в этом и найти место, где конкретный объект с автоматическим подсчётом ссылок освобождался, но продолжал оставаться доступным для другого потока. Насколько я понимаю, это будет первым публичным рассказом об уязвимости подобного типа, обнаруженной LLM.

https://habr.com/ru/articles/912916/

#openai_o3 #o3 #llm #уязвимости #useafterfree #large_language_models #большие_языковые_модели

Watching o3 guess a photo’s location is surreal, dystopian and wildly entertaining

Link

Watching o3 guess a photo’s location is surreal, dystopian and wildly entertaining
https://simonwillison.net/2025/Apr/26/o3-photo-location-guess/

📌 Summary:
本文介紹作者利用 OpenAI 最新的 o3 模型，透過輸入一張無明顯地標的照片，讓 AI 猜測拍攝地點的過程。雖然一開始模型表示無法「看見」圖片，但隨即啟動視覺分析功能，對照片中細節如房屋風格、植被種類、天氣與許多線索進行推理，甚至以 Python 程式碼裁切、放大車牌區域嘗試辨識。模型最終判斷地點為加州中部海岸區的 Cambria，但實際地點是約 200 英里北方的 El Granada，模型的第二猜測則完全正確。此過程彷彿科幻情節真實上演，過程既令人驚艷也帶有反烏託邦意味，提醒人們共享照片可能洩漏位置資訊，引發隱私疑慮。此外，作者也比較了其他模型如 Claude 3.7、Gemini 等的表現與功能差異，指出 o3 模型在「思考」階段持續調用工具（放大裁切、環境推理），展現人工智慧未來整合多模態工具的強大潛力。最後作者分享了自己在保證照片無 EXIF 資料後仍能順利猜出所在地的經驗，強調此技術的廣泛適用性與社會影響。

🎯 Key Points:
→ 模型操作流程：將照片上傳到 ChatGPT o3（收費 Plus 方案），初步分析圖像內容，繼續裁切、放大細節區域用以偵測線索（例如車牌）。
→ 線索分析依據：居民區建築風格、植被種類（橄欖樹、加州罌粟花）、天氣狀況、建築顏色和設計、海岸地形及丘陵背景，綜合推斷為加州中部海岸小鎮。
→ 精細推理過程：模型執行多次裁切放大操作，並用 Python 代碼輔助分析，類似專家對案件逐步排查，兼具娛樂與科幻色彩。
→ 結果反饋：最終猜測 Cambria 與正式地點 El Granada 相距約 200 英里，但第二個猜測（El Granada）完全命中，且推理過程沒有作弊使用 EXIF。
→ 其他模型比較：Claude 3.7 也能推測大致區域但無法像 o3 一樣細緻放大；Gemini 版本則有使用位置資訊作弊問題。
→ 技術與社會影響：技術成熟且公開易用，提醒使用者分享照片時要注意隱私安全，任何看似平凡的照片都可能被定位。
→ o3 模型具備粗略位置存取權限，但透過剝離 EXIF 仍能依據畫面內容推理出拍照地點，且多位用戶檢驗證實此功能準確。
→ 模型思考與工具整合示範：o3 在回答過程中持續使用外部工具，展現未來 AI 複合推理模式的重要樣板。

🔖 Keywords:
#OpenAI_o3 #地點推測 #多模態_人工智慧 #加州中部海岸 #隱私安全

Would you look at all those beautiful lies that o3 produced when tested for accuracy: https://transluce.org/investigating-o3-truthfulness

"We discovered 71 instances where o3 claims to have run code on an external laptop, including three cases where it claims to use its laptop to mine bitcoin." 🤪

So, OpenAI says o3 is their most powerful reasoning model. Powerful in bullshitting the user that asks how the model came up with the answer, that's for sure.

#openai_o3 #OpenAI

OpenAI o3、o4-miniを発表 ―ChatGPT内のすべてのツールを組み合わせてエージェントとして利用可能に
https://gihyo.jp/article/2025/04/openai-o3-o4-mini?utm_source=feed

#gihyo #技術評論社 #gihyo_jp #生成AI #OpenAI #OpenAI_o3 #o4_mini #推論モデル

AI quest for human-level intelligence: OpenAI o3 electrifies researchers
https://www.nature.com/articles/d41586-025-00110-6

* record-breaking performance on science/math wows researchers
* OpenAI chatbot model o3 made headlines Dec 2024
* high score on test that marks progress towards artificial general intelligence (AGI)
* OpenAI o3 scored 87.5%, trouncing prev. best score for an artificial intelligence system of55.5%

#LLM #OpenAI #OpenAI_o1 #OpenAI_o3 #GPT4o #ML #AI #transformers #reasoning #COT #ChainOfThought #AGI

Great analysis by @melaniemitchell

https://aiguide.substack.com/p/did-openai-just-solve-abstract-reasoning

#llm #agi #chatgpt #openai_o3

OpenAI’s Next Big AI Effort, GPT-5, Is Behind Schedule and Crazy Expensive
https://www.wsj.com/tech/ai/openai-gpt5-orion-delays-639e7693
nonpaywalled: https://archive.fo/L7fOF
https://news.ycombinator.com/item?id=42485938

* OpenAI ran into problem after problem on its new artificial-intelligence project, code-named Orion
* GPT-5 project, code-named Orion, in works for 18+ mo
* intended as major advancement in tech powering ChatGPT
* limitation: available training data, costs ...

#LLM #AI #AGI #OpenAI #GPT4 #GPT5 #OpenAI_o1 #OpenAI_o3 #ChatGPT

NEW OpenAI GPT-o3 is SCARY
#openai #openai_o3
Learn More: https://amtechhive.com/openai-reveals-o3-reasoning-ai-model

video credit: @juliangoldieseo

OpenAI 03 LLM: 87.5% High Score on ARC Prize Challenge
https://old.reddit.com/r/MachineLearning/comments/1hiq3tz/d_openai_o3_875_high_score_on_arc_prize_challenge
https://news.ycombinator.com/item?id=42473321

* GPT-3 scored 0%
* rare benchmark wh. humans get high scores, LLM low scores
* avg. human performance, ARC-AGI is 85%

OpenAI o3 Breakthrough High Score on ARC-AGI-Pub
https://arcprize.org/blog/oai-o3-pub-breakthrough
https://arcprize.org/arc-agi-pub

OpenAI o3 beats 99.8% competitive coders
https://old.reddit.com/r/MachineLearning/comments/1hiqptc/openais_o3_beats_998_competitive_coders_d

#LLM #OpenAI #OpenAI_o1 #OpenAI_o3 #GPT4o #ML #TransformerArchitecture #reasoning #COT #ChainOfThought #AGI #AI

OpenAI o3 87.5% High Score on ARC Prize Challenge
https://old.reddit.com/r/MachineLearning/comments/1hiq3tz/d_openai_o3_875_high_score_on_arc_prize_challenge/

* benchmark on which GPT-3 scoring 0%

OpenAI o3 Breakthrough High Score on ARC-AGI-Pub
https://arcprize.org/blog/oai-o3-pub-breakthrough
https://arcprize.org/arc-agi-pub

OpenAI's O3 beats 99.8% competitive coders
https://old.reddit.com/r/MachineLearning/comments/1hiqptc/openais_o3_beats_998_competitive_coders_d

#LLM #OpenAI #OpenAI_o1 #OpenAI_o3 #GPT4o #ML #TransformerArchitecture #reasoning #COT #ChainOfThought #AGI #AI

[thread] OpenAI o1, o3 | OpenAI GPT-4o
https://en.wikipedia.org/wiki/OpenAI_o1

* generative pre-trained transformer
* form. known within OpenAI as “Q*"
* o1 spends time "thinking" before it answers
* makes it better at complex reasoning tasks, science & programming than OpenAI GPT-4o
* full v. was released 2024-Dec-05

#LLM #OpenAI #OpenAI_o1 #OpenAI_o3 #GPT4o #ML #TransformerArchitecture #reasoning #COT #ChainOfThought #AGI #AI

#OpenAI_o3

Client Info