#Machine_learning

2025-06-15

Фундаментальные вопросы по ML/DL, часть 1: Вопрос → Краткий ответ → Разбор → Пример кода. Линейки. Байес. Регуляризация

У каждого наступает момент, когда нужно быстро освежить в памяти огромный пласт информации по всему ML. Причины разные - подготовка к собеседованию, начало преподавания или просто найти вдохновение. Времени мало, объема много, цели амбициозные - нужно научиться легко и быстро объяснять , но так же не лишая полноты! Обращу внимание, самый действенный способ разобраться и запомнить - это своими руками поисследовать задачу ! Это самое важное, оно происходит в секции с кодом. Будет здорово получить ваши задачи и в следующих выпусках разобрать! Взглянуть на старое под новым углом

habr.com/ru/articles/918438/

#machine_learning #data_science #python #scikitlearn #mlинтервью #svm #naive_bayes #регуляризация #линейная_регрессия #алгоритмы

2025-06-11

От хаоса к порядку: как ML помогает искать и защищать конфиденциальную информацию

В современном мире объемы данных растут экспоненциально: компании ежедневно генерируют и обрабатывают огромные массивы информации — от реляционных баз данных и текстовых документов до изображений, аудио и видео. С ростом объемов информации усложняется и ее защита, особенно в отношении чувствительных сведений: персональных данных сотрудников и клиентов, финансовой информации, корпоративных документов и других конфиденциальных материалов. Традиционные методы обнаружения и классификации информации, основанные на формальной экспертизе и регулярных выражениях, демонстрируют ограниченную эффективность: они неплохо работают для стандартных форматов, таких как email-адреса и банковские карты, но могут не покрывать с должной полнотой обнаружение в реальных сценариях. На помощь приходит машинное обучение, позволяющее автоматизировать процесс классификации, учитывать контекст и работать с разными источниками информации. Меня зовут Вадим Безбородов. Мы c Максимом Митрофановым в департаменте Data science & ML в Positive Technologies занимаемся исследованием и внедрением машинного обучения в продукты компании. В этой статье расскажем о наших исследованиях и внедрении ML в модуль поиска и классификации чувствительных данных в PT Data Security. Читать

habr.com/ru/companies/pt/artic

#машинное_обучение #обработка_естественного_языка #персональные_данные #информационная_безопасность #named_entity_recognition #machine_learning #nlp #data_security #защита_данных #ner

2025-06-09

Хорошая девушка LoRA! А чем же она хороша?

Поговорим об методике дообучения LLM… спортсменке, комсомолке и просто красавице - LoRA, которая если и не снимается в кино, то может сделать фильмы качественней и интереснее для зрителя. Исторические данные проката и состава творческих групп в перспективе позволяют работать с ансамблевыми моделями машинного обучения для прогнозирования сборов и просмотров в кино, и улучшать данные и путем их подбора «гиперпараметров» фильма. Но для работы со смыслами, идеями и описаниями кинопроектов нужна более эффективная методика, позволяющая оценивать творческий замысел и основные идеи хотя бы на уровне аннотации – краткого синопсиса. И здесь уже не обойтись без больших языковых моделей.

habr.com/ru/companies/otus/art

#machine_learning #deep_learning #NLP #LoRA_Finetuning #lora

2025-06-05

Kandinsky 4.1 Image – новый генератор изображений от Сбера

В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video. Теперь мы рады представить новую версию нашей модели генерации изображений Kandinsky 4.1 Image!

habr.com/ru/companies/sberbank

#генерация_изображений #kandinsky_4 #sberai #generative_models #texttoimage #computer_vision #diffusion #sft #artificial_intelligence #machine_learning

2025-06-05

Многорукие бандиты: когда классическое тестирование не работает

Привет, Хабр! Мы команда ЖЦК, занимаемся машинным обучением в ВТБ. Сегодня расскажем про алгоритмическую магию, которая творится прямо у нас под носом. Авторами проекта этой магии в ВТБ стали дата-сайентисты Дмитрий Тимохин, Василий Сизов, Александр Лукашевич и Егор Суравейкин. Речь пойдет не о хитрых нейросетях с их миллионами параметров, а о простом подходе, который помог им и команде сэкономить много времени на решении задач, в которых раньше использовались классические методы тестирования.

habr.com/ru/companies/vtb/arti

#многорукий_бандит #abтестирование #рекомендательные_системы #data_science #machine_learning

2025-05-31

Тиндер для работодателей и соискателей: как мы в Авито разработали алгоритм мэтчинга

Всем привет! Я Владислав Урих, работаю продуктовым аналитиком в Авито и на данный момент занимаюсь построением алгоритмов мэтчинга в новом транзакционном продукте — Авито Подработка. В статье рассказываю, как мы построили алгоритм мэтчинга — инструмент подбора оптимальной выдачи для каждого конкретного покупателя. Вы узнаете, почему алгоритмы поиска в категориях Авито работают по-разному, как собрать и использовать больше данных о пользователях без анкет, легко проверить гипотезу в офлайн-тестах и получить значимые продуктовые улучшения. Текст будет полезен всем продуктовым аналитикам, ML-инженерам и продакт-менеджерам, которые работают с алгоритмическими продуктами.

habr.com/ru/companies/avito/ar

#аналитика #поисковые_алгоритмы #матчинг #авито #авито_работа #ранжирование_поиска #machine_learning #машинное_обучение #поиск_работы #алгоритмы_поиска

2025-05-31

Probabilistic Graphical Models
Principles and Techniques
mitpress.mit.edu/9780262013192

A general framework for constructing and using probabilistic models of complex systems that would enable a computer to use available information for making decisions.

#adaptive_computation #machine_learning #book

2025-05-24

RAG‑агент для автоматизации инцидент‑менеджмента

Современные крупные организации сталкиваются с большим числом ИТ‑инцидентов — счет может идти на тысячи в месяц. Инциденты нередко повторяются со временем, однако найти похожий случай в базе знаний или в системе регистрации инцидентов непросто: стандартный поиск по ключевым словам часто неэффективен, а «держать в голове» детали всех инцидентов невозможно.

habr.com/ru/companies/otus/art

#nlp #ai #bigdata #automation #инцидентменеджмент #machine_learning #rag

2025-05-21

Scikit-learn теперь умеет в пайплайны: что изменилось и как работать с библиотекой в 2025 году

Scikit-learn — это одна из основных Python-библиотек для машинного обучения. Её подключают в прикладных проектах, AutoML-системах и учебных курсах — как базовый инструмент для работы с моделями. Даже если вы давно пишете на PyTorch или CatBoost, в задачах с табличными данными, скорее всего, всё ещё вызываете fit , predict , score — через sklearn. В 2025 году в библиотеку добавили несколько важных обновлений: доработали работу с пайплайнами, подключили полную поддержку pandas API, упростили контроль за экспериментами. Мы подготовили гайд, как работать со scikit-learn в 2025 году. Новичкам он поможет собрать первую ML-задачу — с данными, моделью и метриками. А тем, кто уже использует библиотеку, — освежить знания и понять, что изменилось в новых версиях. Почитать гайд →

habr.com/ru/companies/netology

#scikitlearn #sklearn #пайплайн #python #pandas #машинное_обучение #machine_learning #ml #классификация #регрессия

2025-05-15

Путь в AI: от студента до инженера, исследователя или разработчика

Привет, Хабр! Меня зовут Анна Щеникова. Я работаю AI-инженером в Центре RnD МТС Web Services и параллельно лидирую магистерскую программу « Исследования и предпринимательство в искусственном интеллекте » ВШЭ. В МТС занимаюсь всем, что связано с моделями: вместе с коллегами тестирую гипотезы про агентов и мультимодельные подходы. Переход от студенческой жизни к профессиональной деятельности — важный и сложный этап. Это первые серьезные шаги в карьере, первое понимание, как применить полученные знания в реальном бизнесе. Я прошла этот путь несколько раз: сначала сама, а потом помогая магистрантам в ВШЭ. Так я увидела, какие ключевые точки нужно проработать, чтобы комфортно и весело перейти от теории к реальным бизнес-задачам. В этом посте расскажу о своем опыте перехода к полноценной работе и поделюсь видением того, что будет актуальным в сфере AI в ближайшем будущем. Надеюсь, это поможет кому-нибудь правильно спланировать карьеру.

habr.com/ru/companies/ru_mts/a

#карьера_итспециалиста #карьера_в_itиндустрии #aiинженер #карьерный_рост #rnd #data_science #machine_learning #AIразработчик #bigdata #студенты_в_it

2025-05-10

Выбираем MLOps инструменты с учётом зрелости команды

MLOps — это набор практик и процессов для управления жизненным циклом ML-моделей: от обучения до продакшна и поддержки. Если копнуть глубже, окажется, что решений куча и выбор неочевиден. Разберем, почему не всё так просто и как принимать решения о внедрении MLOps-инструментов.

habr.com/ru/articles/908216/

#mlops #opensource #ml_stack #machine_learning #ai_infrastructure

2025-05-09

🏆 #JuLearn – eine #ML #Python Bibliothek im #ABCD_J #Open_Source_Software Stack – wird als @fzj #JuRSE (Jülich Research Software Engineering) #Code of the Month für Mai 2025 vorgestellt! Lesen Sie mehr auf der JuRSE-Website: fz-juelich.de/en/rse/community.

#Machine_Learning #Software #RSE

Screenshot des JuLearn Scores Viewer, der Daten für die Metrik neg_mean_absolute_error für drei Modelle anzeigt: gauss, rvr und svm.
2025-05-06

JavaScript: структуры данных и алгоритмы. Часть 11

Привет, друзья! В этой серии статей мы разбираем структуры данных и алгоритмы, представленные в этом замечательном репозитории . Это одиннадцатая часть серии. Сегодня мы рассмотрим несколько простых, но интересных алгоритмов машинного обучения, а также один весьма любопытный статистический алгоритм. Код, представленный в этой и других статьях серии, можно найти в этом репозитории . Интересно? Тогда прошу под кат.

habr.com/ru/companies/timeweb/

#timeweb_статьи #javascript #algorithms #data_structures #алгоритмы #структуры_данных #machine_learning #statistics #машинное_обучение #статистика

2025-05-01

Mathematics of Continual Learning
arxiv.org/abs/2504.17963

"Continual learning is an emerging subject in machine learning that aims to solve multiple tasks presented sequentially to the learner without forgetting previously learned tasks. Recently, many deep learning based approaches have been proposed for continual learning, however the mathematical foundations behind existing continual learning methods remain underdeveloped."

#mathematics #machine_learning #continual_learning

2025-04-29

Сделано с любовью и TensorFlow: моя первая нейронка с нуля (без GPU и с бюджетом $0)

Когда я впервые села за компьютер с мыслью: «А не обучить ли мне нейросеть?» у меня не было понимания как это сделать и с чего начать. Зато была любовь к собакам, интерес к машинному обучению и желание разобраться, как всё работает. Так родился проект HappyPuppy - моя первая нейронка, которая распознаёт сибирского хаски и французского бульдога на фотографии. Просто загрузите фото (jpg, jpeg, png до 1MB) с вашим питомцем и модель предскажет породу. Далее я расскажу, как на домашнем Маке появилась и выросла моя первая сверточная нейронная сеть (CNN): от идеи до работающей модели — её создание, обучение и тестирование. Эта история будет особенно полезна новичкам в мире ИИ без опыта в программировании . Ссылка на код на GitHub, архитектура модели и маленький ликбез по сверточным нейронным сетям будут в конце статьи. А сейчас — история создания по шагам.

habr.com/ru/articles/905718/

#machine_learning #ai #cnn #neural_networks #flask #python3 #tensorflow #keras

2025-04-28

Как мы научились сохранять тембр и интонацию спикера при переводе видео в Яндекс Браузере

Осенью 2021 года мы впервые представили пользователям технологию перевода видео в Яндекс Браузере. Этот инструмент быстро стал популярен: с его помощью переведены уже миллионы часов видеоконтента. Напомним, что на старте для перевода использовались только два голоса — мужской и женский. Затем мы расширили набор заранее созданных голосов. Ну а сегодня мы делаем следующий большой шаг вперёд. Теперь наша технология сохраняет тембр и интонации оригинального голоса, создавая перевод, который звучит более естественно и близко к оригиналу. О том, как мы этого добились, расскажу в этой статье. Вы узнаете, как выглядит архитектура нашего нового решения, какие проблемы zero‑shot‑синтеза мы решали и как ускоряли инференс новой модели. Расскажу про эвристики для выбора аудиопромптов. Поговорим про замеры качества. Ну и, конечно же, покажу итоговый результат нашей работы в виде ролика в конце статьи.

habr.com/ru/companies/yandex/a

#синтез_речи #искусственный_интеллект #машинный_перевод #перевод_видео #яндекс #machine_learning #deep_learning

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst