#Inference

2026-02-02

Шесть осей прогресса LLM: почему «данные закончились» — это заблуждение

«Данные закончились». «Архитектура исчерпана». «LLM упёрлись в потолок». Звучит умно. Проблема? Это одномерное мышление. Когда говорят «данные закончились» — имеют в виду текстовые данные для supervised pre-training. Это правда. Но это одна ось из шести , по которым модели становятся умнее. Inference-time compute (o1/o3), algorithmic efficiency (Mamba, MoE), мультимодальность, tool use, RL и self-play — пять осей, о которых забывают, когда хоронят AI. В 2020 году консенсус был: GPT-3 — потолок. В 2022: нужны триллионы токенов для каждого улучшения. В 2023: reasoning невозможен без symbolic AI. Все эти «потолки» были пробиты. Даю ментальную модель, которая позволит не попадаться на ложные прогнозы о «смерти AI» — и задавать правильные вопросы, когда кто-то уверенно предсказывает будущее.

habr.com/ru/articles/992008/

#llm #gpt #scaling_laws #machine_learning #transformer #inference #rlhf

2026-02-01

Turns out the current generation of model based AI cannot tell when it does not know the answer to a question; something humans can tell but prefer not to.

I thought all my robots needed was an #inference engine with #deduction capability.

#OpenWorldSet #MachineLearning

2026-01-30

Куда и почему уходят бабки на нейросети

Малоизвестный среди обычных людей факт: у нейросетей нет никаких "разговоров". Ты смотришь в веб-интерфейсе на "диалог" - но это обман, красивый фокус. Каждый раз, когда ты пишешь новое сообщение, все старые сообщения обрабатываются заново. У нейросетей по-настоящему многоразовых задач не существует. Если результат немного поменялся — тебе просто не покажут в веб-интерфейсе изменившиеся сообщения. Иначе пользователь чувствовал бы себя как в дурке, ИИ его бы постоянно как бы газлайтил, изменяя старые ответы без предупреждения. По факту, история переписки в ИИ-чатах фиксирована, тем или иным способом. И стоило бы это вагон. Интересно. Читать далее

habr.com/ru/companies/bar/arti

#LLM #transformer #attention #KVcache #inference #GPU #CUDA #ChatGPT #Claude #токены

Q*Satoshi (@AiXsatoshi)

Kimi-k2.5는 파라미터가 매우 커서 4bit 상태로 그대로 실행하려면 Mac Studio 512GB 두 대가 필요하지만, IQ3_XXS는 415GB로 단일 Mac에서 동작한다. 작성자는 IQ3_XXS가 메인 모델이 될 것으로 보며, 두 대를 이용한 분산 추론은 아직 안정적이지 않다고 보고함.

x.com/AiXsatoshi/status/201699

#llm #quantization #inference #macstudio

Gavin (@GavinSherry)

DefinitiveIO의 주요 초점은 저지연(low-latency) 추론 문제 해결이었고, 저지연 추론 필요성 때문에 Groq와 재연결하게 되었으며 이 협력이 이후 진행 과정에서 중요한 전환점이 되었다는 회고적 설명.

x.com/GavinSherry/status/20169

#groq #inference #latency #definitiveio

Sebastian Raschka (@rasbt)

@mattturck와의 대화에서 LLM 관련 여러 주제를 다뤘음을 언급. 주요 토픽은 트랜스포머 아키텍처의 미래와 LLM 성능에서 최근 주목받는 접근인 inference-time scaling(추론 시 스케일링) 등으로, LLM 연구·효율성 논의에 관한 내용.

x.com/rasbt/status/20169067131

#llm #transformer #inference #research

Fireworks AI (@FireworksAI_HQ)

최신 Kimi K2.5 모델 관련 소식으로, Fireworks가 @ArtificialAnlys 벤치마크에서 Kimi K2.5 추론 성능 184 tokens/sec를 기록해 가장 빠른 추론 제공자였다고 발표했습니다(다음 사업자 대비 76% 빠름). 이는 지연 시간 감소와 응답 속도 향상을 의미합니다.

x.com/FireworksAI_HQ/status/20

#kimik2.5 #fireworks #inference #benchmarks

Daniel Kim (@learnwdaniel)

사용자가 Moltbot을 Cerebras 하드웨어에서 구동했을 때 매우 빠르고 사용성(ergonomic)이 좋았다고 보고했습니다. Cerebras 기반 가속 환경에서 Moltbot의 성능·응답성 개선에 대한 실사용 피드백으로 해석될 수 있습니다.

x.com/learnwdaniel/status/2017

#moltbot #cerebras #hardware #inference

Jay Sensei (@hckinz)

grok에 대한 평가로, 더 빠른 추론과 검열 완화, 프롬프트 없이 창의적 추론이 장점으로 언급되었으나 API 호출은 grok 앱에 비해 축소(nerfed)된 것으로 보인다는 관찰입니다.

x.com/hckinz/status/2016889657

#grok #llm #api #inference

Dreaming Tulpa (@dreamingtulpa)

opencode를 완전히 수용한 뒤 실제 병목은 모델 학습이 아니라 추론(inference) 속도와 Claude Opus의 레이트 리밋(rate limits)임을 깨달았다는 언급입니다. 즉 오픈 소스 코드·모델 채택 후 운영 단계에서의 추론 성능과 API 제약이 주요 문제라는 내용으로, 개발·배포 관점에서 실무적 제약을 지적하고 있습니다.

x.com/dreamingtulpa/status/201

#opencode #inference #claude #ratelimits

2026-01-28

Février se fera sans Claude pour moi.
Objectif : remplacer Anthropic complètement, si possible.

Ils ont beau avoir un modèle puissant (Opus), leur guerre permanente contre l’open source finit par me lasser sévèrement. Le blocage des accès API sur les abonnements a été la goutte d’eau.
Sans le libre, Anthropic n’existerait même pas.

Février sera donc l’occasion pour moi de tester Kimi K2.5, un modèle open source qui rivaliserait avec Opus.
On verra si j’y arrive, si je le regrette… ou pas. 😀

À côté, je continue à explorer les champs des possibles que m’offre le RIG que je suis en train de monter. Je commence à avoir des résultats sympas : 40 à 90 tokens/s sur des modèles comme Devstral-Small-2-24B et GLM-4.7-Flash.

Ces modèles me servent sur des tâches simples mais répétitives, gèrent aussi toute ma domotique, une partie des tâches bureautiques et de documentation (Nextcloud, Perplexica…), et je commence à les intégrer dans ma gestion de tickets clients ainsi que dans mes CI/CD.

#inference #llm #devcommunity #developertools

Résiliation de ClaudeRIG 4 X RTX 3090
AMD EPYC - 256 Go RAM

fly51fly (@fly51fly)

논문 'LLM-42'는 'verified speculation' 기법을 도입해 LLM 추론에서 결정론(determinism)을 가능하게 하는 방법을 제안합니다. Microsoft Research, UW, IISc 공동연구로, 추측(speculation)을 검증하는 메커니즘을 통해 추론의 일관성과 재현성을 개선하는 접근을 보여줍니다.

x.com/fly51fly/status/20162854

#llm #determinism #speculation #inference

Cerebras (@cerebras)

GLM4.7 해커톤 X 트랙 우승자가 발표되었습니다(공동주최: @cline). 우승자 @Maaztwts와 @enflect_는 상금 2,500 USD와 Cerebras Code 플랜을 수상했으며, 24시간 안에 FAST inference를 활용해 데스크탑 AI 어시스턴트를 구축한 점이 주요 내용입니다.

x.com/cerebras/status/20162954

#glm #hackathon #cerebras #inference

2026-01-28

Как я написал TTS-движок на Rust за месяц: путь от Python к production-ready решению

Что будет, если выкинуть Python-обвязку и сделать TTS по-взрослому? Я взял Qwen3-TTS и за месяц собрал RustTTS : компактный бинарник, быстрый старт, стриминг и контролируемый инференс без “venv на 2 ГБ”. Покажу, как устроен пайплайн (text → tokens → audio), где реально узкие места, какие оптимизации дают эффект, и почему RTF на CPU может быть конкурентным, если не стрелять себе в ногу архитектурой.

habr.com/ru/articles/990328/

#rust #tts #texttospeech #синтез_речи #speech_synthesis #inference #инференс #realtime #стриминг #low_latency

Nathan Rowe (@_nathanrowe)

Qwen3-Max-Thinking이라는 모델/기능에 대한 관점으로, 단순 벤치마크 성능보다 시스템 설계 중요성을 강조합니다. 적응적 도구 사용(adaptive tool use)과 테스트 시 확장(test-time scaling)을 통해 추론 시점의 제어 루프(inference-time control loops)가 추론력 향상의 핵심이 되고 있으며, 규모 확대(scale)보다 제어(control)가 우위라는 주장을 제시합니다. 출처: @Alibaba_Qwen

x.com/_nathanrowe/status/20162

#qwen #qwen3 #alibaba #inference

2026-01-25

Tạo động cơ LLM 1.58-bit chạy 117 token/giây trên 1 nhân CPU với Rust và AVX-512, nhưng bị lỗi ở lớp Activation khiến đầu ra luôn là <unk>. Cần hỗ trợ về: (1) Weight tying trong BitNet – thiếu hệ số tỉ lệ? (2) Cách scale tích lũy nguyên từ VPOPCNTDQ trước khi đưa vào RMSNorm/SiLU. Dự án mã nguồn mở, zero-copy, không heap allocation. #Rust #AVX512 #LLM #MachineLearning #AI #R3Engine #BitNet #LocalAI #HPC #Inference #trítuệnhân tạo #môhìnhtonngẫu #xửlýsongsong #tinhoccao

https://www.reddit.

Startup Project (@startupprojectt)

Cerebras의 최고경영진이 제시한 통찰: 70B(700억) 파라미터급 모델에서 한 단어를 생성하려면 전체 길이 영화 100편 분량에 해당하는 데이터 이동이 필요하다는 주장. 이는 대형 언어모델(LLM) 추론 시 눈에 띄지 않는 막대한 데이터 이동 및 계산 비용을 강조하는 내용입니다.

x.com/startupprojectt/status/2

#cerebras #llm #inference #compute

Steven Liu (@stevhliu)

Hugging Face가 추론 제공업체별 비용·지연(latency)·처리량(throughput)을 비교하는 자료를 공유했습니다. 작성자는 모델 카탈로그 대비 '가장 저렴'·'가장 빠른' 제공업체를 분석했고, Hyperbolic Labs가 비용 대비 커버리지 비율에서 우수(35%)한 것으로 나타났으며 Cerebras도 상위에 올랐습니다. (원문 일부 생략됨)

x.com/stevhliu/status/20143852

#huggingface #inference #ai #cerebras

2026-01-22

Đội ngũ vLLM (Inferact) vừa huy động 150 triệu USD vòng seed, định giá 800 triệu USD – tín hiệu mạnh: vốn đang chuyển từ đào tạo mô hình sang giai đoạn phục vụ (hiệu suất, độ trễ, throughput). Điều này khẳng định “Software > Hardware”, cần phần mềm tối ưu (PagedAttention, kernel) và vLLM muốn trở thành “Linux of Inference” đa nền tảng (NVIDIA, AMD, Intel). Thách thức tiếp theo: giảm latency (cold start, time‑to‑first‑token). #AI #LLM #Inference #vLLM #CôngNghệ #TríTuệNhânTạo

https://www.reddit.

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst