#Sklearn

2025-05-21

Scikit-learn теперь умеет в пайплайны: что изменилось и как работать с библиотекой в 2025 году

Scikit-learn — это одна из основных Python-библиотек для машинного обучения. Её подключают в прикладных проектах, AutoML-системах и учебных курсах — как базовый инструмент для работы с моделями. Даже если вы давно пишете на PyTorch или CatBoost, в задачах с табличными данными, скорее всего, всё ещё вызываете fit , predict , score — через sklearn. В 2025 году в библиотеку добавили несколько важных обновлений: доработали работу с пайплайнами, подключили полную поддержку pandas API, упростили контроль за экспериментами. Мы подготовили гайд, как работать со scikit-learn в 2025 году. Новичкам он поможет собрать первую ML-задачу — с данными, моделью и метриками. А тем, кто уже использует библиотеку, — освежить знания и понять, что изменилось в новых версиях. Почитать гайд →

habr.com/ru/companies/netology

#scikitlearn #sklearn #пайплайн #python #pandas #машинное_обучение #machine_learning #ml #классификация #регрессия

Scikit Flow #skflow has been moved to @TensorFlo https://goo.gl/WvpO79 and will be maintained there! #deeperlearning #datascience #sklearn

2024-10-24

@datadon

#Lasso #LinearRegression "is useful in some contexts due to its tendency to prefer solutions with fewer non-zero coefficients, effectively reducing the number of features upon which the given solution is dependent"

scikit-learn.org/stable/module 🧵

#dataDev #AIDev #ML #sklearn #python #interpretability

2024-10-18

I'm playing with the California Housing dataset built into sklearn.

One census block group has an average number of bedrooms per household of 0.83 and an average number of household members of 1243.

Huh?

#DataScience #python #sklearn

2024-10-15

I just did my first project using the #mlflow library to track metrics on iterations of manual tuning of an #sklearn pipeline, it works great and gives me some idea of the search space before moving into automated hyperparameter tuning.

I am using it in a super basic way, as an alternative to creating a gazillion cells with comments tracking metrics, does anyone have any favorite features to check out for taking mlflow to the next level?
#machinelearning #python #MLOps #scikitlearn

2024-10-12

[Перевод] Линейная регрессия и её регуляризация в Scikit-learn

Создание модели линейной регрессии относится к задачам обучения с учителем, цель которых — предсказать значение непрерывной зависимой переменной (y) на основе набора признаков (X). Одним из ключевых допущений любой модели линейной регрессии является предположение, что зависимая переменная (y) в некоторой степени линейно зависит от независимых переменных (Xi). Это означает, что мы можем оценить значение y, используя математическое выражение:

habr.com/ru/articles/850168/

#python #машинное_обучение #линейная_регрессия #для_начинающих #руководство #туториал #machine_learning #data_science #регуляризация #sklearn

Christian Feldmanncfeldmann@fediscience.org
2024-09-26

Our molpipeline paper is out: pubs.acs.org/doi/10.1021/acs.j

The presented code (github.com/basf/MolPipeline) integrates #RDKit functionality in #sklearn like objects, allowing to chain multiple steps in a single pipeline. Pipelines can even include ML models, allowing to obtain predictions directly from SMILES strings.

➴➴➴Æ🜔Ɲ.Ƈꭚ⍴𝔥єɼ👩🏻‍💻AeonCypher@lgbtqia.space
2024-09-09

I genuinely miss PyMC2. The #PyMC and #Arviz APIs changes so frequently, that it's impossible to know what the standard approach to anything is.

#Bayesian #Statistics in #Python should be easy.

To be honest, I'd really like a well maintained #SkLearn module for it.

Joxean Koret (@matalaz)joxean
2024-08-31

Uhm... if I get a decision tree like the one shown in the picture, does it mean that I only need the columns shown in the tree for training and validation, right? I would only need the columns 2 and 3 (x[2], x[3]), isn't it? Or am I missing something else?

2024-08-29

While tackling a Kaggle competition for mushroom classification (to eat or not to eat? 🍄 ), I implemented Classifier Stacking. My blog post explores how combining various models and a meta-learner led to better results, with some trade-offs in computation time.

Combining diverse models can enhance overall performance, at the cost of calculation time.

briaslab.fr/blog/?action=view&

#MachineLearning #Stacking #Kaggle #sklearn

IB Teguh TMteguhteja
2024-08-26


Dive into predictive modeling with our comprehensive guide on linear regression using Python and sklearn. Learn step-by-step implementation, result interpretation, and data visualization techniques. Perfect for beginners

teguhteja.id/mastering-linear-

Joxean Koret (@matalaz)joxean
2024-08-16

When training a model it turns out that I get better results with a small dataset than with a bigger dataset. This is what is called overfiting, right?

Joxean Koret (@matalaz)joxean
2024-07-17

Dear Machine Learning people: when a problem can be solved using both a regressor and a classifier, which method would you choose? Or you simply try both and then choose whatever worked better? Any rule or set of rules to try to determine which method should work better?

2024-07-12

Биоробот с ДНК лягушки: ксеноботы и эволюционные алгоритмы

Мы решили написать небольшой "развлекательный материал" на тему биороботов в контексте искусственного интеллекта и отвлечься от технической части наших статей Подход искусственного интеллекта не предполагает имитацию человеческого мозга или любого другого животного. Лишь некоторые "специфические" проекты стремятся к репликации нейронных процессов/когнитивных способностей. Хотя и классические MLP вдохновлены активациями и построением нейронных связей внутри нашего мозга. Все же, это не их самоцель. Биоробот — синтез робототехники и органических тканей. И этот синтез — сложен. Достаточно трудно добиться адекватной формы тела животного для воссоздания важных функций типичных живых представителей нашего мира. Сегодня поговорим про существо, начисто состоящее исключительно из ДНК лягушки, внешний вид которого придумали нейросети.

habr.com/ru/articles/828338/

#биороботы #днк #эволюционные_алгоритмы #научнопопулярное #искусственный_интеллект #машинное_обучение #sklearn

2024-06-21

AI фэшн-стилист-колорист или как научить модель различать 16,7 млн оттенков без их текстового представления

Небольшое интро, в котором многие себя узнают Как часто, листая продуктовый каталог в интернет-магазине одежды, вы не находили товар нужного вам оттенка? Наткнувшись на юбку мечты, вы перебираете в уме все имеющиеся в арсенале аксессуары и понимаете, что ничего подходящего нет. Нужно срочно искать нечто как минимум идеальное для этого образа! Но как перебирать товары вручную? Как отфильтровать их по ограниченному набору предлагаемых цветов? А теперь представьте, что вас пригласили на свадьбу с заранее определенной палитрой желательных цветов для костюма. Согласитесь, вероятность успеха в поисках не так велика в условиях, если нужно подобрать, например, светло-пурпурный. И вопрос работы с оттенками является важным не только при подборе гардероба. Сфера интерьерного дизайна неразрывно связана с цветовыми решениями при согласовании элементов декора, выборе краски, обоев и отделочных материалов; Цифровой дизайн работает с логотипами, баннерами, интерфейсами, в которых также важна колористика; Индустрия красоты : подбор оттенков косметики, которые будут гармонировать с кожей и одеждой клиента; Искусство: анализ цветовой палитры произведений искусства, реставрация картин, создание новых произведений с учетом цветовых гармоний; Реклама: создание ярких и запоминающихся материалов с учетом психологии восприятия цвета; Автомобили и мотоциклы : поиск краски для маскировки царапин или полной перекраски, чтобы цвет точно соответствовал оригиналу; выбор аксессуаров — диски, накладки, коврики и чехлы, которые соответствуют цвету транспортного средства.

habr.com/ru/companies/neoflex/

#neoflex #datascience #computervision #deeplearning #keras #tensorflow #tripletloss #neuralnetworks #sklearn #python

2024-06-07

Где лучше всего пробовать идеи для обучающихся систем?

Для того, чтобы разобраться в сложной и объемной теме машинного обучения, попробовать свои силы и отточить навыки, оптимально подходит библиотека scikit-learn (sklearn).

habr.com/ru/articles/820209/

#python #машинной_обучение #scikitlearn #sklearn #кривые_обучения

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst