#RL

Avi Chawla (@_avichawla)

RULER의 핵심 통찰은 절대 점수 부여보다 상대적 스코어링이 더 쉽다는 점입니다. LLM 심판이 각각에 절대 점수를 매기기보다 '궤적 A가 B보다 낫다'처럼 상대 비교를 통해 판단하는 것이 보상 평가에서 더 간단하다는 설명을 담고 있습니다.

x.com/_avichawla/status/201650

#ruler #rewardmodeling #rl #llm

MiniMax (official) (@MiniMax_AI)

CISPO를 GSPO 또는 GRPO 대신 선택하는 이유와 MoE(전문가 혼합) 적응성, RL 알고리즘 변경 시 아키텍처 리팩토링 요구 여부에 관한 질문과 논의입니다. 언급된 내용으로는 GRPO가 이전에 존재했으나 R1-Zero 재현 시 신뢰성이 낮았고, PPO 스타일의 클리핑이 토큰 수준 그래디언트 문제를 일으켰다는 경험적 관찰이 포함됩니다.

x.com/MiniMax_AI/status/201647

#rl #cispo #grpo #ppo #moe

khazzz1c (@Imkhazzz1c)

토큰 단위 보상 신호(token-level reward signals)가 '완벽'해진다면, 평가 역할을 하는 critic 모델(가치 평가자)이 불필요해지는지 묻는 이론적·연구적 질문을 제기하고 있습니다.

x.com/Imkhazzz1c/status/201573

#reinforcementlearning #rewardmodels #rl #criticmodel

2026-01-24

😃 💚 Hallo, moin, tach. 💚 Danke allen neuen FollowerInnen (m/w/d), es ehrt und freut mich sehr. 💚 Bin zurzeit nicht so präsent, bei mir im #RL brennt nicht nur die Luft.
Schaue mir alle an und folge gerne zurück, wenn es passt. 😉 😘

#Musik #Mucke #music
🎼 Streets of Philadelphia - Bruce Springsteen - 🎶
youtube.com/watch?v=4z2DtNW79sQ

Bildbeschreibung Blick über den Westerwald:
Deutschland, Westerwald. Ein eingefahrener Feldweg führt bis an den Horizont über hügelige Wiesen. Links und rechts sehen wir niedrige und hohe Mischwälder, in den Tälern im Hintergrund wabert der Morgennebel. Der Himmel zeigt interessante Wolkenformationen in allen möglichen Farben von blassrosa bis dunkelblau.
2026-01-24

😃 💚 Hello, everyone. 💚 Thank you to all my new followers (m/f/d), I am very honored and delighted. 💚 I'm not very active at the moment, as things are pretty hectic in my #RL.
I'll take a look at everyone and will be happy to follow back if it suits me. 😉 😘

Image description View over the Westerwald:
Germany, Westerwald. A well-trodden dirt road leads across rolling meadows to the horizon. To the left and right, we see low and high mixed forests, with morning mist swirling in the valleys in the background. The sky displays interesting cloud formations in all possible colors from pale pink to dark blue.
Anima :18only:Anima@gulp.cafe
2026-01-21

Latest in the spat with my brother (who voted for Trump the first time and apparently just skipped the next two elections) - He refused to accept the xmas money I sent. I asked him to explain how he could support any part of Trump's behavior, and got silence in return. So yeah. Not the first time he's just left me on read about this stuff, so guess we'll see. Think he'll change his tune when he tries to cancel the midterms? #uspol #rl

TheCoderUX (@Motion_Viz)

코드 최적화를 RL(강화학습)으로 학습시키는 API를 발견했다는 내용입니다. iterx(작성자 @deep_reinforce)가 제공하는 4단계 루프(예: POST /api/task/create, /api/fetch_unevaluated_code_ids 등)를 통해 작업 생성·대기중인 코드 변형 가져오기 등으로 코드 최적화 작업을 반복적으로 학습시킬 수 있음을 소개합니다.

x.com/Motion_Viz/status/201350

#rl #reinforcementlearning #codeoptimization #api #developertools

Sebastian Raschka (@rasbt)

저자는 GRPO를 사용해 '검증 가능한 보상(verifiable rewards)'을 갖춘 강화학습을 처음부터 구현하는 내용의 Chapter 6을 완성했다고 알렸습니다. 이번 장을 개인적으로 가장 마음에 드는 챕터라고 평가하며, 이 장의 목표는 검증 가능한 보상 체계를 구현하는 강화학습 방법론을 제시하는 것입니다.

x.com/rasbt/status/20128977559

#reinforcementlearning #grpo #rl #research

2026-01-18

Mới! Notebook Python minh họa RLVR kết hợp GRPO, được triển khai từ đầu trong dự án Reasoning‑from‑Scratch. Tài liệu chi tiết, ví dụ thực tế cho các nhà nghiên cứu RL. #AI #MachineLearning #RL #GRPO #Python #CôngNghệ #TríTuệNhânTạo

reddit.com/r/LocalLLaMA/commen

fly51fly (@fly51fly)

논문 'Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs'은 LLM의 창의적 문제 해결을 위해 희소성(uniqueness)을 인식하고 보상하는 'Uniqueness-Aware RL' 기법을 제안합니다. Z Hu, Y Wang, Y He, J Wu 등(MIT & NUS 공동연구)이 저자로, arXiv에 2026년 공개되어 LLM의 다양성·창의성 향상에 적용 가능성을 검토합니다.

x.com/fly51fly/status/20115507

#rl #llms #creativity #rewardmodel #arxiv

Rohan Paul (@rohanpaul_ai)

AT2PO(Agentic Turn based Policy Optimization via Tree Search)는 도구를 사용하는 LLM 에이전트를 더 빠르고 안정적으로 학습시키기 위한 방법입니다. 에이전트가 불확실할 때 가능한 다음 행동의 트리를 확장하고, 그 중 최적 경로로부터 학습하여 정책을 개선하는 접근을 제안하며 기존의 전체 대화 단위 학습과 차별화됩니다.

x.com/rohanpaul_ai/status/2010

#rl #treesearch #agents #llm

Fabrizio MusacchioFabMusacchio
2026-01-09

🧠 New preprint by Greenstreet, Geerts, Gallego, and Clopath on across , , and .

Key idea: supervised learning builds a low-dimensional action embedding, and operates directly in this structured space. This explains generalization, interference, and striatal similarity patterns as geometric consequences, not add-ons.

🌍 doi.org/10.64898/2025.12.19.69

Figure 1: A multi-region model learns structured action representations. (

swyx (@swyx)

Cursor와 OpenAI 추론팀 소속 @ashvinair가 참여한 인터뷰를 포함한 'holiday drops'를 확인하라는 안내입니다. 해당 인터뷰는 강화학습(RL) 연구의 현황과 관련 논의를 다루는 것으로 보이며, RL 연구 동향을 파악하거나 관련 연구 업데이트를 확인하는 데 유용할 것으로 예상됩니다.

x.com/swyx/status/200910536875

#rl #reinforcementlearning #research #openai

2026-01-08

Richard Sutton – Father of RL thinks LLMs are a dead end

youtube.com/watch?v=21EYKqUsPf

Richard Sutton is the father of reinforcement learning, winner of the 2024 Turing Award, and author of The Bitter Lesson. And he thinks LLMs are a dead end.

This is an interesting interview.

#intelligence #RL #AI #llms

Ars Technica Newsarstechnica@c.im
2026-01-06

Private equity deal shows just how far America’s legacy rocket industry has fallen arstechni.ca/ZVUM #privateequity #propulsion #rocketdyne #L3Harris #Space #rl-10 #RS-25

Michelle Bakels (@MichelleBakels)

Day 16 업데이트로 여러 영상 링크와 주제를 공유한 내용입니다. Arman Hezarkhani( Tenex)의 'Paying Engineers like Salespeople'와 함께 'State of RL/Reasoning' 관련 논의에서 IMO/IOI Gold, OpenAI o3/GPT-5, 그리고 Cursor Composer 등이 언급되었고 Ashvin Nair( Cursor)의 관련 발언도 함께 소개됩니다.

x.com/MichelleBakels/status/20

#openai #gpt5 #cursorcomposer #rl #research

Anima :18only:Anima@gulp.cafe
2026-01-01

Spent an hour trying to get Fallout 76 (the Microsoft app store version) to stream from the desktop to my laptop so I could be cozier. No dice.

Did start Detroit: Become Human and decided pretty quick that wasn't the mood I wanted to go into the new year in. (For those who haven't played it, imagine playing various androids and experiencing racism from society plus the slavery of your programming.)

#gaming #RL

Anima :18only:Anima@gulp.cafe
2025-12-30

Returning home after spending xmas with the family is like PCD, but worse in ways.

After a con it's 'I won't get to be myself until next con'

After family visits it's 'I had to aggressively be less-myself the whole time' but still with the drop that comes from returning to a cold, empty home.

I know it's on me. If I came out to my family I could be more myself and it's up to them if they accept a more-genuine me. Just a coward who doesn't want to put up with condescending 'phase' stuff. #RL

MiniMax (official) (@MiniMax__AI)

우리 팀의 RL & Eval 책임자 @olive_jy_song이 AIE NY에서 발표했으며, 전문가(Experts-in-the-loop)가 다국어 코딩 성능 강화를 이루는 데 핵심적 역할을 했고 그 성과가 M2.1에서 입증되었다는 내용입니다. 다국어 코드 처리와 평가 루프를 통한 모델 개선 사례를 공유한 발표 소식입니다.

x.com/MiniMax__AI/status/20041

#rl #evaluation #multilingual #coding #m2.1

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst