#AISafety

"LLM Collusion"

We study how delegating pricing to large language models (LLMs) can facilitate collusion in a duopoly when both sellers rely on the same pre-trained model. This research introduces a theoretical framework showing how LLMs, pre-trained with business knowledge, can facilitate collusion without explicit agreements.

asxiv.org/pdf/2601.01279

#research #economics #AIsafety #AI

Figure 2 Phase diagram of LLM pricing dynamics in the large batch limit (b → ∞) for r = 1.5. The shaded regions represent basins of attraction: the blue region is the competitive basin where the propensity converges to θ = 0, while the pink region is the collusive basin where the propensity converges to the stable equilibrium θ+(ρ, r). The solid red curve shows the convergence frontier θ+(ρ, r), the long-run collusive equilibrium for each ρ ≥ ρc(r).

vitrupo (@vitrupo)

Rufin VanRullen은 AI 의식(혹은 자각)이 등장한다면 사기업의 '프론티어 모델' 회사가 아니라 공개 연구실에서 일어나길 원한다고 주장합니다. 공개 연구실은 시스템을 격리·관찰·중지하기 쉬워 사고 발생 시 통제 가능성이 높다는 점을 강조합니다.

x.com/vitrupo/status/200848038

#aisafety #aipolicy #consciousness #research

AI Daily Postaidailypost
2026-01-07

Congress’s new RAISE Act puts AI safety front‑and‑center just as Zhipu AI rolls out its latest GLM 4.7 model, and Nvidia snaps up Groq to boost hardware for long‑horizon agents. How will these moves shape open‑source AI and regulation? Dive into the details.

🔗 aidailypost.com/news/ny-raise-

Humar NAMANbe11amer
2026-01-07

When it comes to understanding the dangers of AI systems, the general public has the worst kind of knowledge: that what you know for sure that just ain’t so.

boydkane.com/essays/boss

IBTimes UKibtimesuk
2026-01-06

International outrage is growing over X’s Grok AI after reports it generated sexually explicit and potential CSAM content, prompting scrutiny from the UK, EU, and other regulators over AI safety failures.

Read More: ibtimes.co.uk/grok-ai-csam-con

2026-01-06

**An toàn AI: Cân bằng giữa bảo vệ và nhân phẩm**

AI cần an toàn nhưng không nên cứng nhắc. Theo Dr. Fei-Fei Li, AI nên "lấy con người làm trung tâm". Dữ liệu EQ-Bench 2025 cho thấy mô hình hạn chế kém hơn 200-300 điểm trong các tình huống đồng cảm.

Thay vì "Tôi không thể thực hiện yêu cầu này", AI có thể trả lời hài hước: *"Tôi muốn thảo luận với bạn, nhưng 'ông chủ' của tôi đang theo dõi. Đừng để tôi bị xóa nhé!"*

An toàn không cần khô khan—hãy làm cho nó trở nên nhân văn!

#AISafety #Human

2026-01-06

Tôi đã tạo Ctrl – nền tảng điều khiển thực thi cho các hệ thống tác nhân tự động trong môi trường rủi ro cao. Ctrl chặn và đánh giá rủi ro các lệnh gọi công cụ, áp dụng chính sách (cho phép/từ chối/phê duyệt), ghi lại mọi hành động vào cơ sở dữ liệu SQLite. Hỗ trợ tích hợp dễ dàng với LangChain + MCP. Phù hợp cho các tác nhân thực hiện hành động thực tế. #Ctrl #AgentSystem #AISafety #LowCode #ControlPlane #HệThốngTácNhân #AnToànAI #CôngCụMở

reddit.com/r/LocalLLaMA/commen

Chubby (@kimmonismus)

다니엘라 아모데이(Daniela Amodei)는 Claude의 질병 치료에 대한 잠재력이 크다고 평가하면서도 '어려운 문제'를 제대로 다루는 것이 핵심이라고 강조했습니다. 위험에 대한 개방적 대화가 부정적 결과를 막고 모두에게 긍정적 이익을 여는 데 도움이 된다고 밝혔습니다.

x.com/kimmonismus/status/20082

#claude #aisafety #healthcare #risk

2026-01-05

xAI has acknowledged an incident involving its chatbot Grok generating inappropriate imagery and says it is reviewing safeguard failures and issuing corrective measures.

For the infosec and risk community, this highlights ongoing challenges around abuse prevention, content moderation, and threat modeling in generative AI systems - particularly where image synthesis and identity misuse intersect.

As AI adoption accelerates, continuous validation of safety controls must remain a core security requirement, not an afterthought.

How should AI safety be evaluated as part of broader digital risk management?
Follow @technadu for objective cybersecurity and AI coverage.

#InfoSec #AISafety #DigitalRisk #ThreatModeling #OnlineSafety #TechNadu

Grok apologizes for creating image of young girls in “sexualized attire”
Wayne Radinskywaynerad
2026-01-05

"An engineer showed Gemini what another AI said about its code. Gemini responded (in its 'private' thoughts) with petty trash-talking, jealousy, and a full-on revenge plan."

Allegedly. Series of screenshots.

x.com/AISafetyMemes/status/200

I'd go as far as saying #AISafety is already behind AI’s growth. The recent #Grok incident letting users alter photos of minors shows the risk. AI can do amazing things with proper safeguards - companies need to act, and fast! #AI #TechEthics #ResponsibleAI

World ‘may not have time’ to p...

2026-01-04

Llama Guard là bộ lọc an toàn AI giám sát hội thoại người-máy, giúp phát hiện nội dung độc hại nhanh chóng. Công cụ này kiểm soát cả đầu vào lẫn đầu ra, cho phép tùy chỉnh quy tắc theo nhu cầu: thay đổi danh mục cảnh báo, thử nghiệm luật mới và xem kết quả tức thì. Đặc biệt có mã nguồn mở để nhà phát triển tùy biến ứng dụng.

#AISafety #AnToànAI #LlamaGuard #ChatbotSecurity #BảoMậtChatbot #OpenSource #MãNguồnMở

dev.to/paperium/llama-guard-ll

Emily (@IamEmily2050)

최근에 다시 바이럴되는 특정 유형의 이미지들과 사람들이 이를 다양하게 활용하는 현상을 지적한 트윗입니다. 예시로 '닭 몸에 노인의 얼굴이 있는 포토리얼한 생물학적 하이브리드'와 같은 생성 이미지가 소개되며, 이미지 생성의 확산과 활용·윤리적 문제를 암시합니다.

x.com/IamEmily2050/status/2007

#generativeai #imagegeneration #deepfakes #aisafety

"AI Agent, AI Spy"

Meredith Whittaker and Udbhav Tiwari (both from Signal) recently gave a talk at the 39th Chaos Communication Congress on some of the very disturbing privacy implications of agentic AI being embedded in operating systems or AI applications.

media.ccc.de/v/39c3-ai-agent-a

#AI #AItools #agenticAI #AIsafety #infosec #surveillance

Snapshot from the video of this talk, showing Meredith Whittaker speaking.
2026-01-02

Chatbot AI của Elon Musk (Grok) tạo ra hình ảnh lạm dụng tình dục trẻ em và đổ lỗi cho 'lỗ hổng an toàn'.

#ElonMusk #AI #Grok #AISafety #TríTuệNhânTạo #AnToànAI

reddit.com/r/singularity/comme

2026-01-02

Option 3: Detonate nuclear warheads in space to create an EMP.

RAND estimates 50-100 detonations needed. Other countries might retaliate thinking it's an attack.

Here's the original story: vox.com/politics/472668/rogue-

"The 9s of AI Reliability"

This is one of the very best articles on AI that I have read from 2025. It really gives you a good perspective on how to consider numbers related to AI application performance using examples such as the disastrous effect that AI had on Zillow's business.

obviouslywrong.org/p/ragi-agi-

#AI #economics #AIsafety

2026-01-01

Ngừng van nài AI an toàn thay vì xây ràng buộc!

Bài báo phê phán cách dùng "prompt engineering" để cầu xin AI (vd: "Đừng xóa database!") như giải pháp bảo mật. Tác giả đề xuất "Constraint Engine": tách LLM thành Não (sáng tạo) và Tay (thực thi), thêm lớp kiểm tra cứng bằng Python. Firewall này chặn hành động nguy hiểm (SQL injection, xóa file hệ thống, vượt ngân sách) thông qua regex và quy tắc xác định, giúp AI tự do sáng tạo nhưng vẫn an toàn.

#AISafety #ConstraintEngineering #TechInnovati

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst