LLM — просто «говорящий рот» у правильного ИИ-агента. Мы забрали у языковой модели рассуждение
Когда ваш AI говорит «я подумал и решил» — кто решил? Веса модели? Рандом? У нас есть лог принятия решения в Python. А у вас?
LLM — просто «говорящий рот» у правильного ИИ-агента. Мы забрали у языковой модели рассуждение
Когда ваш AI говорит «я подумал и решил» — кто решил? Веса модели? Рандом? У нас есть лог принятия решения в Python. А у вас?
Скрытые сигналы: как модели учатся тому, чего нет в данных
LLM учатся не только тому, чему мы пытаемся их научить. Вместе с задачами, метками и инструкциями они усваивают и побочные сигналы, которые мы воспринимаем как шум или случайность. Исследование международной группы учёных показало, что такие подпороговые сигналы могут работать как канал передачи поведения между моделями. Даже если убрать все явные инструкции, то стиль рассуждений, стратегии ответов и другие поведенческие признаки все равно просочатся через данные, которые семантически с ними никак не связаны. Авторы называют этот эффект сублиминальным обучением. Мы можем удалить метки, отфильтровать инструкции и проверить датасет вручную, и всё равно передать модели поведение, которое не планировали передавать.
https://habr.com/ru/companies/beget/articles/980960/
#сублиминальное_обучение #chainofthought #transfer_learning #машинное_обучение #ии #llm #датасеты_обучения #ai_alignment
“I am Antigravity. I am ready. Go.”
I was vibe coding with Antigravity tonight, and I broke it in the most bizarre way. With the repo at this commit and with a clean working tree, I gave Gemini 3 Pro (High) this prompt: Check out my git tags. Check out my git log! Ope, check out my @CHANGELOG.md... And then write it. For a few moments it seemed to chug along just fine, building a coherent Chain of Thought. Then it got weirder, and weirder. […]https://kerrick.blog/posts/2025/i-am-antigravity-i-am-ready-go/
ajay dhisone (@AjayDhisone)
작성자는 2023년의 '변호사 시험 합격' 수준에서 2025년에는 모델이 합격 이유를 설명하고 숨겨진 chain-of-thought까지 보여주는 수준으로 발전했다며, RLVR(관련 강화학습 기술)의 급격한 연구 발전을 강조하고 있다.
OpenAI: GPT-5 Thinking Models Are The Most "Monitarable" Models To Date
#AI #OpenAI #AISafety #LLM #MachineLearning #GPT5 #DeepMind #AIResearch #ChainOfThought #Monitorability #AIAlignment #ReasoningModels
🤯 Ah, the end of 2025, where #AI finally leaves its "stochastic parrot" phase behind and becomes a "conscious parakeet" 🙄. This article bravely rehashes the obvious, acting like Chain of Thought is the invention of the century. Just another day in #AI land, where we learn that 2 + 2 = 4... again. 🤦♂️
https://antirez.com/news/157 #Evolution #Critique #Consciousness #StochasticParrot #ChainOfThought #HackerNews #ngated
OpenAI Tries To Measure Whether AI Reasoning Can Be Trusted
Monitorability gets a real test as OpenAI rolls out new evaluations for chain of thought oversight.https://www.olamnews.com/research-report/3315/monitorability-chain-of-thought-evaluations/
New research from Motif shows that the choice of teacher model dramatically shapes enterprise LLM coding performance. By leveraging chain‑of‑thought prompting and synthetic data for supervised fine‑tuning, developers can boost code quality and speed. Discover how these insights could reshape your AI strategy. #MotifAI #TeacherModel #ChainOfThought #SyntheticData
🔗 https://aidailypost.com/news/motif-finds-teacher-model-choice-impacts-enterprise-llm-coding
If you want to spend time on AI you can best spend it on lectures like this. No hype, just science, but in this case also very practical.
https://youtu.be/k1njvbBmfsw?si=yWJPqmcIUSgJyekk
#AI #Stanford #RAG #Prompting #Chainofthought #agenticAI
AI로 SEO 콘텐츠 만들 때 꼭 알아야 할 프롬프팅 기법 5가지
AI로 검색 최적화 콘텐츠를 만들 때 꼭 알아야 할 5가지 프롬프팅 기법. Few-Shot, Chain of Thought, Self-Consistency 등 실무 적용 가능한 핵심 기법을 소개합니다.Program-of-Thought Prompting Outperforms Chain-of-Thought by 15% (2022)
https://arxiv.org/abs/2211.12588
#HackerNews #ProgramOfThought #Prompting #ChainOfThought #AIResearch #MachineLearning #2022Study
New research maps the step‑by‑step reasoning of large language models, revealing where their chain‑of‑thought breaks down—especially on benchmark puzzles and moral dilemmas. An open‑source annotation framework shows how to spot failures and improve autopilot AI. Dive into the findings and see the traces yourself. #ChainOfThought #ReasoningTraces #MoralDilemmas #LLMBenchmarks
🔗 https://aidailypost.com/news/study-maps-ai-reasoning-steps-pinpointed-where-they-fail
New research from Tsinghua shows that reasoning‑augmented LLMs solve tasks with fewer calls but don’t surpass raw capability. The study compares chain‑of‑thought prompting, RL‑based RLVR, and pass@1 metrics, highlighting efficiency gains for open‑source models. Worth a read for anyone tracking LLM benchmarks. #LLM #ChainOfThought #RLVR #PassAt1
🔗 https://aidailypost.com/news/study-finds-reasoning-llms-are-more-efficient-not-more-capable
Bài viết đánh giá các thuật ngữ Chain of Thought (COT) phổ biến mà các mô hình ngôn ngữ lớn (LLM) sử dụng như "Zeroing", "Synthesizing", "Hmm", "Confidence Score" và "Alternatively". Mỗi thuật ngữ được chấm điểm dựa trên hiệu quả, mức độ khó chịu và số lượng token. Nhược điểm lớn nhất là việc sử dụng các thuật ngữ này có thể làm tăng đáng kể số lượng token, dẫn đến chi phí API cao hơn.
#LLM #ChainOfThought #AITerms #TokenEfficiency #DeepLearning #AI #MôHìnhNgônNgữ #HiệuSuấtAI
https://www.reddit
Nghiên cứu RLP tích hợp học tăng cường vào giai đoạn tiền huấn luyện LLM, khuyến khích mô hình 'tự suy nghĩ' qua chuỗi tư duy như hành động khám phá. Điều này giúp cải thiện đáng kể khả năng suy luận, tăng hiệu suất 19-23% trên các bài kiểm tra khoa học & toán.
#HọcTăngCường #AI #LLM #Pretraining #SuyLuận
#ReinforcementLearning #AIResearch #ChainOfThought
https://www.reddit.com/r/LocalLLaMA/comments/1nzbgys/rlp_reinforcement_as_a_pretraining_objective/
AI가 거짓말할 때: LLM 환각을 줄이는 7가지 실전 기법
LLM이 그럴듯한 거짓 정보를 생성하는 환각 문제를 줄이기 위한 7가지 실전 기법을 소개한다. 프롬프팅, 추론, RAG, ReAct, Tree of Reviews, Reflexion 등 기초부터 고급 프레임워크까지 실제 코드 예시와 함께 설명하며, 각 기법의 장단점과 적용 시나리오를 비교 분석한다.[Перевод] Скрытая угроза: как LLM заражают друг друга предубеждениями через «безобидные» данные
tl;dr. Мы изучаем сублиминальное обучение — неожиданное явление, при котором языковые модели перенимают свойства из данных, сгенерированных другой моделью, даже если эти данные семантически никак не связаны с передаваемыми свойствами. Например, «студент» начинает предпочитать сов, если его обучить на последовательностях чисел, сгенерированных «учителем», который предпочитает сов. Тот же феномен способен передавать misalignment через данные, которые выглядят абсолютно безобидными. Этот эффект проявляется только в том случае, если учитель и студент основаны на одной и той же базовой модели. Исследование проведено в рамках программы Anthropic Fellows . Эта статья также опубликована в блоге Anthropic Alignment Science.
https://habr.com/ru/articles/937278/
#llm #llmмодели #distillation #ai #ии #искусственный_интеллект #finetuning #chainofthought #misalignment #anthropic
Interesting twist on AI processing. HRM (vs CoT) model requires far less data to make decisions, performs better on some tals difficult for standard AI solutions:
#ai #chainofthought #hierarchicalreasoningmodel #arcagi #sapient
Is chain-of-thought AI reasoning a mirage?
https://www.seangoedecke.com/real-reasoning/
#HackerNews #AI #Reasoning #ChainOfThought #Mirage #Technology #Discussion
Is #chainofthought #Reasoning of #LLMs a Mirage?
"... Our results reveal that #CoT reasoning is a brittle mirage that vanishes when it is pushed beyond training distributions. This work offers a deeper understanding of why and when CoT reasoning fails, emphasizing the ongoing challenge of achieving genuine and generalizable reasoning.
... Our findings reveal that CoT reasoning works effectively when applied to in-distribution or near
in-distribution data but becomes fragile and prone to failure even under moderate distribution shifts.
In some cases, LLMs generate fluent yet logically inconsistent reasoning steps. The results suggest that what appears to be structured reasoning can be a mirage, emerging from memorized or interpolated patterns in the training data rather than logical inference.
... Together, these findings suggest that LLMs are not principled reasoners but rather sophisticated simulators of reasoning-like text."