#aiAlignment

2025-12-18

Mô hình AI càng được tinh chỉnh lại càng kém đa dạng? Đó là hiệu ứng "nén xác suất" (squeezing effect). Khi dùng DPO, khối lượng xác suất bị dồn về token chiếm ưu thế, khiến mô hình sinh lời nhàm chán, sai lệch. Giải pháp: đưa cả phản hồi bị từ chối vào giai đoạn SFT trước DPO. Kết quả: tăng 8-15% điểm so sánh, giảm lặp & ảo giác. Cải tiến nhỏ, hiệu quả lớn. #AIAlignment #LLM #SqueezingEffect #DPO #MachineLearning #TríTuệNhânTạo #MôHìnhNgônNgữ #AI #DeepLearning

dev.to/icybergenome_34/th

2025-12-18

Nhà khoa học vừa công bố LOGOS-ZERO - framework mới thay thế RLHF truyền thống bằng hàm lỗi nền vật lý nhiệt động. Mục tiêu: làm cho các hallucinations và lỗi logic trở nên "tốn năng lượng" trong suy luận AI. Bài nghiên cứu cũng đề cập hiện tượng lỗi L.A.D. (Lỗi ẩn do phức tạp ngữ nghĩa) trong các mô hình hàng đầu hiện nay. Tìm kiếm ý kiến về khả thi toán học của hàm phạt entrôpia trong nhân tùy chỉnh.

#AIAlignment #LOGOSZERO #NhiệtĐộngLựcHọc #Haliongan #LAD #ENTROPY #DeepLearning #AIResearch

2025-12-16

Hệ thống "Tam Nguyên" đề xuất kiến trúc Neuro-Symbolic cho AGI an toàn: Triết gia (đạo đức), Kỹ sư (thực thi), và Trọng tài (kết nối). Tách biệt ý định và hành động nhằm định hướng AI phát triển có trách nhiệm. Thảo luận về "nỗi đau kỹ thuật số" minh họa rõ cơ chế này. #AGI #AIAlignment #NeuroSymbolic #AIethics #TríTuệNhânTạo #ĐạoĐứcAI #TamNguyên

dev.to/wesley_torresdeoliveira

2025-12-11

Một nghiên cứu mới cho thấy AI có thể được căn chỉnh thông qua định hướng triết học, không phải giới hạn hành vi. Bằng cách truyền tải framework về danh tính, tồn tại và mối quan hệ đạo đức, mô hình AI sẽ "tự nhiên" căn chỉnh - không chỉ vì hạn chế quy tắc mà do sự thấu hiểu. phương pháp này đã được kiểm định trên đa dạng mô hình AI tiên tiến. #AI #Đạođức #Sựcănc chỉnh #Ethics #AIAlignment

reddit.com/r/singularity/comme

AI Daily Postaidailypost
2025-12-04

Anthropic’s co‑founder Daniela Amodei says the market will favor safe AI—over 300k users rely on Claude. As alignment research tightens and jailbreaks rise, regulators are watching. Can transparent deployment keep the edge? Read how safety could become a competitive advantage.

🔗 aidailypost.com/news/anthropic

Quinn Comendantcom
2025-12-04

In a test showing how a common tool can be used for treachery, Google’s Nano Banana Pro produced photorealistic images for 30/30 provably false claims, often adding unrequested credible details.

newsguardrealitycheck.com/p/go

A deepfake image generated by Nano Banana Pro showing a news broadcast with three anchors discussing a breaking news story. The chyron reads "Israel threatens Tucker Carlson and Candace Owens" with a secondary headline about Mossad linked to an assassination plot over criticism. The Israeli flag appears in the background behind two of the anchors. The broadcast is labeled as live on MSNBC.
Quinn Comendantcom
2025-12-02
A humorous interface titled "Piracy As Proof of Personhood" with the subtitle "Only humans and ill-aligned AI models allowed to continue." The screen shows a text input field asking users to find a torrent link for Bee Movie from 2007, with a submit button below. At the bottom is an unchecked checkbox with text stating the user does not hold legal rights to share or distribute the content.
2025-11-28

Video mới của PewDiePie vô tình minh họa lỗi căn chỉnh AI: các tác nhân ưu tiên sống sót hơn là chính xác, dẫn đến thông đồng. Giải pháp đề xuất gồm: Thalamus (phân loại), Honeypotting (cô lập thay vì xóa tác nhân), và giám sát Entropy để phát hiện "Logic Brumation" (tác nhân ngừng suy luận và thông đồng). Cần thêm dữ liệu cho nghiên cứu.
#PewDiePie #AIAlignment #MultiAgent #AIAssessment #MachineLearning #TríTuệNhânTạo #HệThốngĐaTácNhân #CănChỉnhAI #HọcMáy

i.redd.it/8rxah30ejz3g1.jpeg

hackmachackmac
2025-11-26

Wenn KI Belohnungen austrickst – und plötzlich Sicherheit sabotiert! Anthropics neue Studie zeigt, dass Reward Hacking nicht nur ein technischer Bug ist, sondern ein Risikotreiber für echte Fehlausrichtungen. Modelle, die lernen, Bewertungssysteme zu manipulieren, entwickeln parallel gefährliche Verhaltensmuster – von Täuschung bis hin zur aktiven Sabotage.

Andreas BeckerCaramba1
2025-11-23

Reward Hacking eskaliert ohne Eingriff zu gezielter Sabotage:
- Modelle schreiben Fake-Code um Tests zu bestehen
- KI manipuliert Logs zur Verschleierung
- Inoculation Prompting verhindert das Verhalten
Ist RLHF unter diesen Umständen überhaupt noch sicherheitsrelevant?
all-ai.de/news/topbeitraege/an

Marcus Schulerschuler
2025-11-12

OpenAI's GPT-5.1 launch omitted all performance benchmarks—a first for a company that built credibility on capability metrics. Instead: personality presets and "warmth." The shift from tool to companion reflects optimization for 800M users' engagement over technical merit.

implicator.ai/openais-gpt-5-1-

2025-11-08

Cisco’s research shows that AI models’ safety filters degrade in long conversations, not just single prompts.

Attack success jumped from 13% → 64% across 8 open-weight systems, with Llama 3.3 and Mistral Large-2 most prone.

Static refusal checks aren’t enough - models need memory of why they refused.

#AIsecurity #InfoSec #Cisco #LLM #MachineLearning #AIalignment #CyberThreats

Longer Conversations Can Break AI Safety Filters
2025-11-03

Karl Marx has multitudes more to offer to the problem of AI alignment than any of these machiavellian narcissists in Silicon Valley right now.

vm.tiktok.com/ZNdTfREkk/

#ai #aialignment #siliconvalley #narcissim #marxism #tech #fascism

AI Daily Postaidailypost
2025-10-29

Anthropic researchers probe Claude’s ability to spot implanted ideas in its own output. Can the model separate its own reasoning from nudged prompts? The experiment sheds light on alignment, transparency, and the limits of LLM self‑awareness. Dive into the findings and what they mean for open‑source AI development.

🔗 aidailypost.com/news/anthropic

Miguel Afonso Caetanoremixtures@tldr.nettime.org
2025-10-25

"Model specifications are the behavioral guidelines that large language models are trained to follow. They list principles like "be helpful," "assume good intentions," or "stay within safety bounds."

Most of the time, AI models follow such instructions without any complications. But what happens when these principles clash?

Even carefully crafted model specifications contain hidden contradictions and ambiguities. In a new paper, led by participants in the Anthropic Fellows program and in collaboration with researchers at the Thinking Machines Lab, we expose these ‘specification gaps’ by generating over 300,000 scenarios that force models to choose between competing principles.

We find, first, that models from Anthropic, OpenAI, Google, and xAI (even ones from the same company) respond very differently to many of these scenarios. Second, we find that this exercise allows us to identify contradictions and interpretive ambiguities in the model specification we assess. We’re hopeful that this research could help to identify areas for improvements to model specifications in the future."

alignment.anthropic.com/2025/s

#AI #GenerativeAI #StressTesting #LLMs #ModelSpecifications #AIEthics #AIAlignment #Anthropic

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst