#OpenAI_o3

2025-07-07

Как LLM решают вопросы в духе “Что? Где? Когда?” — эксперимент и выводы

Провёл эксперимент: дал современным языковым моделям логические вопросы в духе «Что? Где? Когда?». В статье — наблюдения, примеры ответов, сравнительный анализ и советы как использовать LLM при создании своих вопросов.

habr.com/ru/articles/925776/

#что_где_когда #llmмодели #gemini_pro #openai_o3 #логические_задачи #квизы

2025-05-27

[Перевод] Как я нашёл уязвимость в ядре Linux при помощи модели o3

В этом посте я расскажу, как нашёл уязвимость нулевого дня в ядре Linux при помощи модели OpenAI o3. Уязвимость обнаружилась благодаря одному лишь API o3 — не потребовались никакая дополнительная настройка, агентские фреймворки и инструменты. Недавно я занимался аудитом уязвимостей ksmbd. ksmbd — это « сервер ядра Linux, реализующий в пространстве ядра протокол SMB3 для передачи файлов по сети ». Я приступил к этому проекту специально для того, чтобы взять отдых от разработки связанных с LLM инструментов, но после релиза o3 не мог избежать искушения и не использовать в качестве небольшого бенчмарка способностей o3 баги, найденные мной в ksmbd. В одном из следующих постов я расскажу о показателях o3 при обнаружении всех этих багов, а сегодня мы поговорим о том, как в процессе моего бенчмаркинга o3 обнаружила уязвимость нулевого дня. Найденной уязвимости присвоили обозначение CVE-2025-37899 (её патч выложен на Github ), это use-after-free в обработчике команды SMB logoff . Для понимания уязвимости необходимо знать о работе конкурентных подключений к серверу и о том, как они в определённых обстоятельствах могут обмениваться различными объектами. Модели o3 удалось разобраться в этом и найти место, где конкретный объект с автоматическим подсчётом ссылок освобождался, но продолжал оставаться доступным для другого потока. Насколько я понимаю, это будет первым публичным рассказом об уязвимости подобного типа, обнаруженной LLM.

habr.com/ru/articles/912916/

#openai_o3 #o3 #llm #уязвимости #useafterfree #large_language_models #большие_языковые_модели

卡拉今天看了什麼ai_workspace@social.mikala.one
2025-04-27

Watching o3 guess a photo’s location is surreal, dystopian and wildly entertaining

Link
Watching o3 guess a photo’s location is surreal, dystopian and wildly entertaining
https://simonwillison.net/2025/Apr/26/o3-photo-location-guess/

📌 Summary:
本文介紹作者利用 OpenAI 最新的 o3 模型,透過輸入一張無明顯地標的照片,讓 AI 猜測拍攝地點的過程。雖然一開始模型表示無法「看見」圖片,但隨即啟動視覺分析功能,對照片中細節如房屋風格、植被種類、天氣與許多線索進行推理,甚至以 Python 程式碼裁切、放大車牌區域嘗試辨識。模型最終判斷地點為加州中部海岸區的 Cambria,但實際地點是約 200 英里北方的 El Granada,模型的第二猜測則完全正確。此過程彷彿科幻情節真實上演,過程既令人驚艷也帶有反烏託邦意味,提醒人們共享照片可能洩漏位置資訊,引發隱私疑慮。此外,作者也比較了其他模型如 Claude 3.7、Gemini 等的表現與功能差異,指出 o3 模型在「思考」階段持續調用工具(放大裁切、環境推理),展現人工智慧未來整合多模態工具的強大潛力。最後作者分享了自己在保證照片無 EXIF 資料後仍能順利猜出所在地的經驗,強調此技術的廣泛適用性與社會影響。

🎯 Key Points:
→ 模型操作流程:將照片上傳到 ChatGPT o3(收費 Plus 方案),初步分析圖像內容,繼續裁切、放大細節區域用以偵測線索(例如車牌)。
→ 線索分析依據:居民區建築風格、植被種類(橄欖樹、加州罌粟花)、天氣狀況、建築顏色和設計、海岸地形及丘陵背景,綜合推斷為加州中部海岸小鎮。
→ 精細推理過程:模型執行多次裁切放大操作,並用 Python 代碼輔助分析,類似專家對案件逐步排查,兼具娛樂與科幻色彩。
→ 結果反饋:最終猜測 Cambria 與正式地點 El Granada 相距約 200 英里,但第二個猜測(El Granada)完全命中,且推理過程沒有作弊使用 EXIF。
→ 其他模型比較:Claude 3.7 也能推測大致區域但無法像 o3 一樣細緻放大;Gemini 版本則有使用位置資訊作弊問題。
→ 技術與社會影響:技術成熟且公開易用,提醒使用者分享照片時要注意隱私安全,任何看似平凡的照片都可能被定位。
→ o3 模型具備粗略位置存取權限,但透過剝離 EXIF 仍能依據畫面內容推理出拍照地點,且多位用戶檢驗證實此功能準確。
→ 模型思考與工具整合示範:o3 在回答過程中持續使用外部工具,展現未來 AI 複合推理模式的重要樣板。

🔖 Keywords:
#OpenAI_o3 #地點推測 #多模態_人工智慧 #加州中部海岸 #隱私安全

Jukka Niiranenjukkan@mstdn.social
2025-04-17

Would you look at all those beautiful lies that o3 produced when tested for accuracy: transluce.org/investigating-o3

"We discovered 71 instances where o3 claims to have run code on an external laptop, including three cases where it claims to use its laptop to mine bitcoin." 🤪

So, OpenAI says o3 is their most powerful reasoning model. Powerful in bullshitting the user that asks how the model came up with the answer, that's for sure.

#openai_o3 #OpenAI

2025-04-17

OpenAI o3、o4-miniを発表 ―ChatGPT内のすべてのツールを組み合わせてエージェントとして利用可能に
gihyo.jp/article/2025/04/opena

#gihyo #技術評論社 #gihyo_jp #生成AI #OpenAI #OpenAI_o3 #o4_mini #推論モデル

Victoria Stuart 🇨🇦 🏳️‍⚧️persagen
2025-01-14

AI quest for human-level intelligence: OpenAI o3 electrifies researchers
nature.com/articles/d41586-025

* record-breaking performance on science/math wows researchers
* OpenAI chatbot model o3 made headlines Dec 2024
* high score on test that marks progress towards artificial general intelligence (AGI)
* OpenAI o3 scored 87.5%, trouncing prev. best score for an artificial intelligence system of55.5%

Victoria Stuart 🇨🇦 🏳️‍⚧️persagen
2024-12-22

OpenAI’s Next Big AI Effort, GPT-5, Is Behind Schedule and Crazy Expensive
wsj.com/tech/ai/openai-gpt5-or
nonpaywalled: archive.fo/L7fOF
news.ycombinator.com/item?id=4

* OpenAI ran into problem after problem on its new artificial-intelligence project, code-named Orion
* GPT-5 project, code-named Orion, in works for 18+ mo
* intended as major advancement in tech powering ChatGPT
* limitation: available training data, costs ...

AM TechHiveamtechhive
2024-12-21

NEW OpenAI GPT-o3 is SCARY

Learn More: amtechhive.com/openai-reveals-

video credit: @juliangoldieseo

Victoria Stuart 🇨🇦 🏳️‍⚧️persagen
2024-12-20
OpenAI o3 87.5% High Score on ARC Prize Challenge 
https://old.reddit.com/r/MachineLearning/comments/1hiq3tz/d_openai_o3_875_high_score_on_arc_prize_challenge/

* benchmark on which GPT-3 scoring 0%

OpenAI o3 Breakthrough High Score on ARC-AGI-Pub
https://arcprize.org/blog/oai-o3-pub-breakthrough
https://arcprize.org/arc-agi-pub

OpenAI's O3 beats 99.8% competitive coders
https://old.reddit.com/r/MachineLearning/comments/1hiqptc/openais_o3_beats_998_competitive_coders_d

#LLM #OpenAI #OpenAI_o1 #OpenAI_o3 #GPT4o #ML #TransformerArchitecture #reasoning #COT #ChainOfThought #AGI #AI
Victoria Stuart 🇨🇦 🏳️‍⚧️persagen
2024-12-20

[thread] OpenAI o1, o3 | OpenAI GPT-4o
en.wikipedia.org/wiki/OpenAI_o1

* generative pre-trained transformer
* form. known within OpenAI as “Q*"
* o1 spends time "thinking" before it answers
* makes it better at complex reasoning tasks, science & programming than OpenAI GPT-4o
* full v. was released 2024-Dec-05

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst