#Data_Scientist

2025-04-22

Со скоростью кометы: ускоряем Spark без переписывания кода

Привет, Хабр! Меня зовут Лев Маковеев. Я младший инженер по обработке данных в компании «Криптонит». В этой статье хочу поделиться с вами результатами небольшого исследования, в ходе которого мы протестировали ускоритель запросов Apache DataFusion Comet и пришли к довольно впечатляющим результатам. Забегая вперёд, отмечу, что в отдельных тестах ускорение было более чем десятикратным!

habr.com/ru/companies/kryptoni

#spark #apache #comet #DataFusion #большие_данные #анализ_данных #data_engineering #data_scientist #big_data #оптимизация

2024-11-21

Введение в синтетические данные для ML: зачем они нужны?

Генерация документов, лиц и даже симуляция целых атак: как далеко можно зайти в создании и использовании синтетических данных? В этой статье Артур Казукевич, Data Science Engineer в Data Light, расскажет, почему синтетика становится крупнейшей тенденцией в сфере ML, как такие данные можно использовать и какие ограничения для генерации существуют, а также поделится своим опытом.

habr.com/ru/companies/data_lig

#data_science #generative_models #data_scientist #data_engineering

2024-11-07

Как растут data science-инженеры и что советуют синьоры, чтобы развиваться быстрее

Привет, на связи Светлана Морозова и Сергей Кляхандлер из команды data science Авито . Рассказываем, как у нас устроен рост сотрудников, поговорим и о особенностях этого процесса в big tech-компаниях в целом и в Авито в частности. Статья будет интересна всем, кто хочет развиваться в профессии или просто ищет работу в направлении data science.

habr.com/ru/companies/avito/ar

#карьера #data_science #data_scientist #развитие_навыков #карьера_в_itиндустрии #рост_в_data_science #грейды #avito #авито

2024-07-24

Дата-сайентистам: рецензия на книгу “Машинное обучение с PyTorch и Scikit-Learn”

Это наконец случилось: в русском переводе вышла самая объемная из когда-либо издававшихся книг по машинному и глубокому обучению. "Machine Learning with PyTorch and Scikit-Learn" Себастьяна Рашки и его соавторов — это огромное, почти на 800 страниц, руководство по практическому применению Python в сфере Data Science. Книга изначально планировалась как 4-е издание "Python Machine Learning", но из-за множества изменений авторы решили выпустить его под новым названием. Ввиду достаточно высокой цены, вам пригодится наш промокод SSPSOFT для покупки этой книги со скидкой 25%.

habr.com/ru/companies/ssp-soft

#data_science #data_mining #data_analysis #data_engineering #data_scientist #dataset #python #pytorch #scikitlearn

:rss: CyberAgent Developers Bldevelopers@rss-mstdn.studiofreesia.com
2024-07-22

CA DATA NIGHT #4 〜映像メディア技術による新たなデータサイエンスの可能性〜 開催レポート
developers.cyberagent.co.jp/bl

#developers #エンジニア #ABEMA #AI #AI_Lab #Data_Scientist #DSC #Research #WINTICKET #勉強会

2024-06-26

Перспективы профессии Data Science: ликбез для джунов

Меня зовут Женя Толстов, я тимлид ML-отдела в группе компаний ФСК и наставник на курсе

habr.com/ru/companies/yandex_p

#data_science #data_scientist #дата_сайенс #перспективы_профессии #профессии_в_it

2024-06-10

Дата-сайентистам: «Обработка данных на Python. Data Wrangling и Data Quality»

В этом посте познакомим специалистов по изучению данных (Data Scientists) с довольно интересной книгой Сьюзан МакГрегор, дающей пошаговые рекомендации по извлечению зависимостей (автор называет их insights) из неочищенных наборов данных с помощью конструкций на языке Python. «Эта книга заполняет пробел в литературе по обработке данных на Python. Она предлагает весьма необходимое практическое руководство по очистке, преобразованию и подготовке к анализу наборов сырых данных.» — рецензия на Amazon.

habr.com/ru/companies/ssp-soft

#data_science #data_scientist #python

2024-05-30

Красиво и понятно: какие инструменты для визуализации данных нужны дата-аналитику

Ежедневно аналитики обрабатывают массу данных в формате таблиц. Они хорошо ориентируются в них и видят взаимосвязи. Но для коллег из других сфер такой объем неструктурированной информации может быть шокирующим. Сделать данные более наглядными помогает визуализация графиков и таблиц. Собрали подборку инструментов для визуализации данных из сложных таблиц в читабельные дашборды.

habr.com/ru/companies/skillfac

#аналитика #аналитика_данных #data_science #data_scientist #визуализация #визуализация_данных #визуализация_информации #excel #powerbi #инструменты

2024-05-23

Вопросы и задачи по SQL на собеседованиях 2024: готовьтесь эффективно

В 2024 году вопросы и тестовые задания на собеседованиях не потеряли своей актуальности и продолжают вызывать огромный интерес у соискателей. Если вы сейчас погружены в процесс прохождения интервью, то наверняка сталкиваетесь с множеством непростых, но захватывающих задач. Давайте вместе рассмотрим некоторые из новых вопросов и задач, которые реально задаются на собеседованиях в различных командах. Эти примеры основаны на моем собственном опыте и актуальны на сегодняшний день. Новые вопросы и задачи будут публиковаться по мере их поступления и прохождения собеседований.

habr.com/ru/articles/816537/

#sql #data_analyst #bigdata #собеседование_вопросы #задачи_на_собеседованиях #вопросы_на_собеседование #data_science #data_scientist

2024-05-16

Как мы упростили процесс интерактивной визуализации данных в веб-приложении, используя HoloViews

Идея этой статьи родилась, когда наша команда занималась разработкой минимально жизнеспособного продукта (MVP) внутренней веб-системы, важной составляющей которой было визуальное представление данных, а именно результатов работы различных анализаторов исходного кода программного обеспечения. Из всего разнообразия библиотек визуализации в веб мы выбрали HoloViews, поскольку она в наибольшей степени соответствовала компетенциям нашей команды, костяк которой в силу специфики проекта составляли специалисты по анализу данных. Однако для успешной интеграции HoloViews в веб-приложение нам, как разработчикам, пришлось проявить и некоторую изобретательность. Мы посчитали, что имеет смысл поделиться этим опытом, поскольку в одном месте подобный материал до сих пор нигде не был собран.

habr.com/ru/companies/astralin

#data_analyst #визуализация_данных #графики #датааналитик #вебприложения #датасайентист #data_scientist #интерактивная_визуализация #HoloViews

2024-03-18

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 2: Классическое машинное обучение

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor ). Мы строим скоринговые (credit scoring), лидогенерационные (lead generation) и антифрод (anti-fraud) модели на телеком данных, а также делаем гео-аналитику (geoanalytics). В предыдущей статье я поделился материалами для подготовки к одному из самых волнительных (для многих) этапов - Live Coding. В этой статье рассмотрим материалы, которые можно использовать для подготовки к секции по классическому машинному обучению.

habr.com/ru/companies/megafon/

#собеседование_в_it #data_science #подготовка_к_собеседованию #data_scientist #машинное_обучение #курсы #книги #материалы #ресурсы #kaggle

2024-02-24

40 Полезных инструментов Дата Саентиста

В мире науки о данных существует бесчисленное множество библиотек и инструментов, которые помогают ускорить работу и повысить эффективность анализа. Но что если я расскажу вам о некоторых полезных библиотеках, о которых вы скорее всего не слышали? В списке не будет всем известных библиотек таких, как Pandas, Polars, Scipy и тд Сегодня, благодаря активному сообществу разработчиков, практически для любой задачи на Python можно найти готовый и полезный инструмент, который поможет вам в решении самых сложных задач. Надеюсь, вы найдете что-то полезное для себя. Читать

habr.com/ru/articles/795785/

#data_science #data_scientist #машинное_обучение

2023-12-28

Особенности машинного обучения в нефтегазовой отрасли

Привет, меня зовут Олег Свидченко, я — Chief Data Scientist. Работаю в ассоциации «Цифровые технологии в промышленности». Если вы недавно перешли из крупной технологической компании в нефтегазовую или только планируете этот переход, либо слышали про машинное обучение только в теории, но у вас нет практики его применения в конкретных, особенно промышленных проектах, эта статья для вас. Когда я искал новое место работы, сперва рассматривал крупные IT-компании, но решил, что мне неинтересно допиливать 0,1% к точности поиска. А в промышленности — непаханное поле, можно внедрять интересные технологии крупными мазками и решать задачи, которые еще не исследовались. Хотя меня пугали страшилками, что будет строгий дресс-код, жесткий график, неудобный офис и скучные проекты...

habr.com/ru/companies/oleg-bun

#ml #machine_learning #большие_данные #нефтегазовая_отрасль #промышленная_автоматизация #data_scientist #agile #кип #ниокр #нир

2023-12-26

Введение в SQL & СУБД на примере доступа к данным через Python

Краткое введение в SQL (+СУБД) на примере доступа к данным через Python. Я начинающий Data Scientist и решил написать статью где будет базовое введение в sql, а также как извлекать данные через разные способы (SQLalchemy, Requests). Читать далеее

habr.com/ru/articles/783260/

#введение_в_бд #введение_в_python #flask #data_scientist #requests #sql #sqlite3

ENEP Linuxoidenep
2023-12-21
2023-12-20

Почему работа с данными так популярна: Data Scientist, Big Data и объектное хранение

По оценкам Cybersecurity Ventures, к 2025 году общий объем данных в облаках достигнет 100 зеттабайт, или 50% всех мировых данных на тот момент. Ландшафт хранения этой информации разнообразен: от недорогих обычных серверов до огромных хранилищ на сотни петабайт. При экспоненциальном росте информации возможности работы с данными расширяются. Отчет LinkedIn о новых вакансиях показывает, что мировой рынок работы в области науки о данных вырастет до 230,80 млрд долларов к 2026 году. Наука о данных является востребованной, интересной, и, казалось бы, очень сложной областью знаний. Однако хорошая новость заключается в том, что она доступна для новичков. В статье мы разберемся, с какими базовыми основами нужно познакомиться при работе с данными.

habr.com/ru/companies/cloud_mt

#DataOps #data #данные #Data_Scientist #Big_Data #S3 #объектное_хранилище

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst