#%D0%BE%D1%87%D0%B8%D1%81%D1%82%D0%BA%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85

2025-06-23

Проверка на Data Poisoning в MLSecOps

В первой обзорной статье про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии. Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз / Хабр Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»? Подчеркну – не обязательно все советы из статьи реализовывать, возможно какие-то меры будут избыточны, так как в вашей практике уже реализованы альтернативные и при этом не менее эффективные стандарты защиты данных от отравления. Итак, желающих узнать ответ на этот вопрос приглашаю под кат.

habr.com/ru/articles/920936/

#mlsecops #data_poisoning #отравление_данных #безопасный_ии #ai_security #aurora #owasp_top10 #очистка_данных #машинное_обучение #информационная_безопасность

2025-04-25

Контролируем качество данных с помощью Python

В работе с данными одной из самых больших трудностей является обеспечение их качества. В процессе анализа и обработки информации приходится сталкиваться с множеством проблем, таких как отсутствие нужных значений, неправильно отформатированные данные или ошибки, появляющиеся при сборе данных с веб-ресурсов. В этой статье мы рассмотрим, как с помощью Python можно автоматизировать процесс проверки и очистки данных, используя популярные библиотеки, такие как pandas и pyspark. Мы исследуем практические подходы к подготовке данных для анализа, включая поиск аномалий, постобработку и работу с пустыми значениями, что поможет обеспечить высокое качество данных для дальнейших исследований и принятия решений.

habr.com/ru/companies/otus/art

#qa #data_analysis #качество_данных #аналитика_данных #Python_для_анализа_данных #pandas #Pyspark #Очистка_данных #Аномалии_в_данных

2025-01-22

[Перевод] Основы очистки данных в data science

В реальной жизни данные, к сожалению, не идеальны и требуют тщательной предобработки. Проблемы с данными могут возникать по разным причинам: из-за их природы, способа сбора или ошибок при вводе. Очистка данных позволит сделать анализ более точным, а в случае машинного обучения — улучшить качество моделей. Давайте рассмотрим пять задач, с которыми можно столкнуться в рамках очистки данных. Это не исчерпывающий список, но он послужит хорошим ориентиром при работе с реальными датасетами. Все примеры мы будем рассматривать на Ames Housing Dataset , который содержит информацию о продажах жилой недвижимости в городе Эймс, штат Айова, США

habr.com/ru/articles/875662/

#python #выбросы #пропуски #очистка_данных #анализ_данных #руководство #туториал #для_начинающих #data_science #pandas

2024-12-13

GPT: Революция или Апокалипсис

GPT : Революция или Апокалипсис Человек против машины. Нейросети — конец эпохи человеческого интеллекта?

habr.com/ru/articles/866478/

#gpt #аналитик_данных #современные_технологии #человек_vs_компьютер #хитрости_программирования #оптимизация_запросов #нейросети #тренды #обработка_данных #очистка_данных

2024-12-01

Миф о чистых данных: почему ваш аналитик похож на сапёра

Миф о чистых данных: почему ваш аналитик похож на сапёра. Как бороться с самым частым убеждением при работе с данными.

habr.com/ru/articles/862772/

#данные #очистка_данных #витрина_данных #визуализация_данных #ошибки_в_бизнесе #подготовка_данных #бизнесаналитика #целостность_данных #обработка_данных #data_quality

2024-08-17

Создание и обработка медицинской базы данных с помощью python/R

Идея: в медицинском учреждении выписные эпикризы (информация из истории болезни) пациентов хранятся в общегоспитальной локальной сети. Необходимо сформировать базу данных пациентов с перенесенным заболеванием COVID-19 (один выписной эпикриз ДО заболевания COVID-19, один выписной эпикриз во время заболевания и один ПОСЛЕ заболевания). Telegram для контактов: @doctor_pogozhy

habr.com/ru/articles/836734/

#база_даных #медицина #сбор_данных #очистка_данных #covid19 #pyhon #rstudio

2024-02-15

Очистка данных перед загрузкой в хранилище: Подробное руководство с техническими деталями

Детально рассмотрим, кто занимается очисткой данных, какие инструменты и языки программирования используются для этой цели, приведем примеры кода на SQL для очистки данных, узнаем, сколько времени может занять этот процесс и какие последствия могут наступить при его игнорировании.

habr.com/ru/articles/794036/

#очистка_данных #хранилище_данных #etlпроцессы #etl #пайплайн

2023-12-22

PostgreSQL: вернуть место после delete

У вас есть таблицы, либо ряд таблиц, строки которых нужно очистить и единственный способ, которым вы можете это сделать - это операция DELETE . Помимо очевидной цели - очистки ненужных данных из таблицы, хотелось бы также увеличить свободное место в области диска, доступного для данных postgresql. Но при определенных условиях - операция DELETE не возвращает место, а операция UPDATE дополнительно его забирает.

habr.com/ru/articles/782560/

#гайд #инструкция #postgresql #sql #dml #очистка_данных

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst