#MACHINE_LEARNING

2025-07-17

Когда LLM — это не чат, а мозг: путь к VLA‑архитектуре

В 2024 году большие языковые модели (LLM) внезапно начали дешифровать хаос реального мира: распознавать объекты, объяснять намерения и даже писать код для микроконтроллеров. Для робототехники это стало тем же, чем Li‑ion стал для ноутбуков — мгновенным ускорителем эволюции. LLM открыли окно возможностей: вместо того чтобы вручную программировать каждую задачу, мы можем дать роботу текстовую инструкцию, а он сам разберётся, какие навыки подключить. Vision‑Language Agents, RLHF, MPC… В робототехнике сегодня аббревиатур больше, чем сервоприводов в суставе. Разобраться, что скрывает каждая комбинация букв, — ключ к тому, чтобы не остаться сторонним наблюдателем в союзе железа и ИИ. В этой статье я делюсь своим взглядом на ряд актуальных вопросов: — чем GPT‑мозг круче старой цепочки perception → planning → control; — зачем скрещивать Classic Stack, RL‑контроллеры и VLA вместо того, чтобы выбирать лучший; — как можно прокачать робота от базовых движений до уверенной работы офис‑ассистентом, охранником и курьером. Погрузитесь в детали — и посмотрите, как будущее шагает к нам на двух механических ногах.

habr.com/ru/companies/yandex/a

#яндекс #machine_learning #llm #humanoid #robotics

2025-07-15

Как мы строим real-time data-пайплайны для анонимных крипто-свапалок: опыт на примере risetocrypto

В мире криптовалют анонимность и безопасность являются ключевыми элементами. Когда речь идет о крипто-свапалках, эффективность обработки данных в реальном времени играет решающую роль для обеспечения высокого качества сервиса. В этой статье расскажем, как мы реализовали масштабируемую архитектуру для обработки данных на платформе risetocrypto с использованием передовых технологий.

habr.com/ru/articles/927862/

#Big_Data #Kafka #Apache_Flink #Machine_Learning #Blockchain #Data_Engineering #Realtime_Processing #Security_Analytics #Slippage_Monitoring #ClickHouse

2025-07-08

LIME for ECG Time Series Dataset Example

LIME (Local Interpretable Model-Agnostic Explanations) — популярный модет в решении задачи интерпретации. Он основан на простой идее — приблизить прогнозы сложного оценщика (например, нейронной сети) простым — обычно линейной/логистической регрессией. Применить LIME можно из коробки при помощи одноименной библиотеки [ lime ]. Однако, при применении LIME к, в частности, к временным рядам возникают особенности. Поэтому в чистом виде lime для TimeSeries не всегда легко применить. И в этом туториале мы сделаем приближенение метода самостотельно! :)

habr.com/ru/articles/926082/

#explanation #xai #convolutional_neural_network #neural_networks #machine_learning

2025-07-07

Собираем MVP product search: дообучение E5 и веб-сервис для сравнения поисквых выдач

Что важнее: создать продукт , или доставить его до пользователя ? Оба этапа необходимы. Сегодня обсудим второй . Как нам построить поисковую e-com систему. Покажем, что в слово логистика товара входят сложные задачи не только: перевезти наушники из Китая в Америку , но и настройка поисковой выдачи по запросу. Быстро соберем поисковой MVP-сервис . Дообучим модель E5 на реальных данных от Amazon . Определим метрики качества и сравним BM25 , pretrain E5 и fine-tune E5 . Так же взглянем глазами с отладочной информацией и проанализируем изменения поисковых выдач . И под конец обсудим каких технологий еще не хватает и можно добавить, если возникают соответствующие трудности. Погрузиться в семантический поиск →

habr.com/ru/companies/datafeel

#machine_learning #information_retrieval #semantic_search #huggingface #pytorch #nlp #e5 #streamlit #mvp #дообучение_моделей

2025-07-04

Меньше — лучше: как Polaris-4B обошёл Qwen3-32B

Привет, Хабр! В июне 2025 года команда из Гонконгского университета выложила открытые модели Polaris-4B‑Preview и Polaris-7B‑Preview , обученные с нуля на reasoning‑задачах с использованием Reinforcement Learning. Эти модели не просто догоняют топовые коммерческие аналоги вроде Claude‑Opus и Grok-3-Beta — они их обгоняют. Причём на архитектуре всего в 4 миллиарда параметров. Все это результат продуманного инженерного подхода. В этой статье коротко рассмотрим, как авторам Polaris это удалось.

habr.com/ru/companies/otus/art

#ML #искусственный_интеллект #machine_learning #нейросети #multimodal_LLM

2025-07-03

No-code-разработка и ML-помощники – инструменты аналитиков SOC нового поколения

Давайте представим, как могло бы выглядеть рабочее место SOC-аналитика будущего. В том числе рассмотрим, какие были бы полезны в реагировании и расследовании ML-помощники: некоторые из упомянутых в статье мы уже внедрили в наши продукты, а некоторые – еще в планах или могут послужить в качестве идеи для тех, кто сталкивается с подобными задачами.

habr.com/ru/companies/security

#визуальное_программирование #nocode #машинное+обучение #machine_learning #информационная_безопасность #soc #расследование_инцидентов #инцидент #аналитика_данных

NapsterML Demo - Napster plus Distributed Machine Learning

lemmy.world/post/32281971

2025-06-30

Как я разрабатываю агентские ИИ системы для извлечения признаков (feature-extraction) из мультимодальных данных

Извлечение признаков ( feature extraction ) из текстов — ключевой шаг при анализе документов: он является основной практической частью таких задач по обработке данных, как классификация, тематическое моделирование, NER, QA . Если раньше почти что для каждой из таких задач, и в особенности для разных модальностей данных использовались специализированные архитектуры нейронных сетей, то сейчас подобные системы обычно строятся вокруг LLM/VLM . Однако и современные модели на практике настраиваются под конкретные задачи через fine‑tuning или distillation , в связке с retrieval ( RAG ) и агентскими архитектурами. В этой статье я рассматриваю свой опыт проектирования и разработки агентов для выполнения feature-extraction . При наличии мультимодальных данных с разнородной структурой - тексты, PDF, изображения - мне приходится извлекать нужные пользователю фрагменты информации. Для этого я перебрал различные подходы - в зависимости от сложности задачи - и теперь пора сравнить их эффективность и отметить сложности реализации.

habr.com/ru/articles/923336/

#ai #ML #openai #llm #Llama #deepseek #chatgpt #machine_learning #artificial_intelligence

2025-06-15

Фундаментальные вопросы по ML/DL, часть 1: Вопрос → Краткий ответ → Разбор → Пример кода. Линейки. Байес. Регуляризация

У каждого наступает момент, когда нужно быстро освежить в памяти огромный пласт информации по всему ML. Причины разные - подготовка к собеседованию, начало преподавания или просто найти вдохновение. Времени мало, объема много, цели амбициозные - нужно научиться легко и быстро объяснять , но так же не лишая полноты! Обращу внимание, самый действенный способ разобраться и запомнить - это своими руками поисследовать задачу ! Это самое важное, оно происходит в секции с кодом. Будет здорово получить ваши задачи и в следующих выпусках разобрать! Взглянуть на старое под новым углом

habr.com/ru/articles/918438/

#machine_learning #data_science #python #scikitlearn #mlинтервью #svm #naive_bayes #регуляризация #линейная_регрессия #алгоритмы

2025-06-11

От хаоса к порядку: как ML помогает искать и защищать конфиденциальную информацию

В современном мире объемы данных растут экспоненциально: компании ежедневно генерируют и обрабатывают огромные массивы информации — от реляционных баз данных и текстовых документов до изображений, аудио и видео. С ростом объемов информации усложняется и ее защита, особенно в отношении чувствительных сведений: персональных данных сотрудников и клиентов, финансовой информации, корпоративных документов и других конфиденциальных материалов. Традиционные методы обнаружения и классификации информации, основанные на формальной экспертизе и регулярных выражениях, демонстрируют ограниченную эффективность: они неплохо работают для стандартных форматов, таких как email-адреса и банковские карты, но могут не покрывать с должной полнотой обнаружение в реальных сценариях. На помощь приходит машинное обучение, позволяющее автоматизировать процесс классификации, учитывать контекст и работать с разными источниками информации. Меня зовут Вадим Безбородов. Мы c Максимом Митрофановым в департаменте Data science & ML в Positive Technologies занимаемся исследованием и внедрением машинного обучения в продукты компании. В этой статье расскажем о наших исследованиях и внедрении ML в модуль поиска и классификации чувствительных данных в PT Data Security. Читать

habr.com/ru/companies/pt/artic

#машинное_обучение #обработка_естественного_языка #персональные_данные #информационная_безопасность #named_entity_recognition #machine_learning #nlp #data_security #защита_данных #ner

2025-06-09

Хорошая девушка LoRA! А чем же она хороша?

Поговорим об методике дообучения LLM… спортсменке, комсомолке и просто красавице - LoRA, которая если и не снимается в кино, то может сделать фильмы качественней и интереснее для зрителя. Исторические данные проката и состава творческих групп в перспективе позволяют работать с ансамблевыми моделями машинного обучения для прогнозирования сборов и просмотров в кино, и улучшать данные и путем их подбора «гиперпараметров» фильма. Но для работы со смыслами, идеями и описаниями кинопроектов нужна более эффективная методика, позволяющая оценивать творческий замысел и основные идеи хотя бы на уровне аннотации – краткого синопсиса. И здесь уже не обойтись без больших языковых моделей.

habr.com/ru/companies/otus/art

#machine_learning #deep_learning #NLP #LoRA_Finetuning #lora

2025-06-05

Kandinsky 4.1 Image – новый генератор изображений от Сбера

В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video. Теперь мы рады представить новую версию нашей модели генерации изображений Kandinsky 4.1 Image!

habr.com/ru/companies/sberbank

#генерация_изображений #kandinsky_4 #sberai #generative_models #texttoimage #computer_vision #diffusion #sft #artificial_intelligence #machine_learning

2025-06-05

Многорукие бандиты: когда классическое тестирование не работает

Привет, Хабр! Мы команда ЖЦК, занимаемся машинным обучением в ВТБ. Сегодня расскажем про алгоритмическую магию, которая творится прямо у нас под носом. Авторами проекта этой магии в ВТБ стали дата-сайентисты Дмитрий Тимохин, Василий Сизов, Александр Лукашевич и Егор Суравейкин. Речь пойдет не о хитрых нейросетях с их миллионами параметров, а о простом подходе, который помог им и команде сэкономить много времени на решении задач, в которых раньше использовались классические методы тестирования.

habr.com/ru/companies/vtb/arti

#многорукий_бандит #abтестирование #рекомендательные_системы #data_science #machine_learning

2025-05-31

Тиндер для работодателей и соискателей: как мы в Авито разработали алгоритм мэтчинга

Всем привет! Я Владислав Урих, работаю продуктовым аналитиком в Авито и на данный момент занимаюсь построением алгоритмов мэтчинга в новом транзакционном продукте — Авито Подработка. В статье рассказываю, как мы построили алгоритм мэтчинга — инструмент подбора оптимальной выдачи для каждого конкретного покупателя. Вы узнаете, почему алгоритмы поиска в категориях Авито работают по-разному, как собрать и использовать больше данных о пользователях без анкет, легко проверить гипотезу в офлайн-тестах и получить значимые продуктовые улучшения. Текст будет полезен всем продуктовым аналитикам, ML-инженерам и продакт-менеджерам, которые работают с алгоритмическими продуктами.

habr.com/ru/companies/avito/ar

#аналитика #поисковые_алгоритмы #матчинг #авито #авито_работа #ранжирование_поиска #machine_learning #машинное_обучение #поиск_работы #алгоритмы_поиска

2025-05-31

Probabilistic Graphical Models
Principles and Techniques
mitpress.mit.edu/9780262013192

A general framework for constructing and using probabilistic models of complex systems that would enable a computer to use available information for making decisions.

#adaptive_computation #machine_learning #book

2025-05-24

RAG‑агент для автоматизации инцидент‑менеджмента

Современные крупные организации сталкиваются с большим числом ИТ‑инцидентов — счет может идти на тысячи в месяц. Инциденты нередко повторяются со временем, однако найти похожий случай в базе знаний или в системе регистрации инцидентов непросто: стандартный поиск по ключевым словам часто неэффективен, а «держать в голове» детали всех инцидентов невозможно.

habr.com/ru/companies/otus/art

#nlp #ai #bigdata #automation #инцидентменеджмент #machine_learning #rag

2025-05-21

Scikit-learn теперь умеет в пайплайны: что изменилось и как работать с библиотекой в 2025 году

Scikit-learn — это одна из основных Python-библиотек для машинного обучения. Её подключают в прикладных проектах, AutoML-системах и учебных курсах — как базовый инструмент для работы с моделями. Даже если вы давно пишете на PyTorch или CatBoost, в задачах с табличными данными, скорее всего, всё ещё вызываете fit , predict , score — через sklearn. В 2025 году в библиотеку добавили несколько важных обновлений: доработали работу с пайплайнами, подключили полную поддержку pandas API, упростили контроль за экспериментами. Мы подготовили гайд, как работать со scikit-learn в 2025 году. Новичкам он поможет собрать первую ML-задачу — с данными, моделью и метриками. А тем, кто уже использует библиотеку, — освежить знания и понять, что изменилось в новых версиях. Почитать гайд →

habr.com/ru/companies/netology

#scikitlearn #sklearn #пайплайн #python #pandas #машинное_обучение #machine_learning #ml #классификация #регрессия

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst