#%D1%81%D0%B1%D0%BE%D1%80_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85

2025-09-23

Локализация–2025: новые правила сбора данных. Готовимся к изменениям

Первого июля 2025 года для российских операторов персональных данных произошла точечная, но важная корректировка правил. Закон № 23-ФЗ, который подписали в феврале, расставляет новые акценты в старой теме — локализации. Речь идёт о том, как именно можно собирать и обрабатывать данные о россиянах.

habr.com/ru/companies/cloud4y/

#данные #законодательство #сбор_данных #информационная_безопасность #базы_данных

2025-08-29

Универсальный сервис по сбору телеметрии с CAN-шин на технике

Всем привет! Меня зовут Артём Сидоров. Я ведущий разработчик из ИТ-команды «Северстали». Сегодня хочу рассказать, как мы реализовали «Универсальный сервис по сбору телеметрии с CAN-шин на технике».

habr.com/ru/companies/seversta

#CAN #сбор_данных #обработка_данных

2025-08-22

Как мы оптимизировали сбор данных для отчёта маркетологов и придумали новую Google Analytics

В этой статье — история о том, как мы вместе с командой Аналитики цифровых продуктов работали над одной небольшой фичей и в процессе создали собственную альтернативу известной платформе для сбора статистики пользователей сайтов. Пару слов о нашей команде и о том, чем мы занимаемся. У нас 6 инженеров данных и 5 аналитиков — вместе мы помогаем продуктовым командам (тем, кто развивает сайты и приложения) создавать дашборды и отчёты. Они нужны для того, чтобы коллеги видели, как их изменения влияют на бизнес-метрики и поведение пользователей. Вторая часть нашей работы — поддержка маркетологов. Мы помогаем им анализировать эффективность продвижения Спортмастера и других наших брендов: где увеличивать бюджеты, где сокращать и как быстро оценивать результат. В общем, мы те, кто превращает данные в понятные решения. Как появилась задача Наши пользователи — маркетологи — каждую неделю сталкивались с одной проблемой. По вторникам у них проходят планёрки с руководством, где они разбирают результаты прошлой недели: что сработало, что можно улучшить. Им критично важно к этому времени уже иметь готовый отчёт, чтобы успеть проанализировать данные и принять решения по рекламе. Однако наш продукт выдавал отчёты только к 16:00. Кому-то хватает часа на подготовку, кому-то трёх, но пользователи жаловались: они просто не успевают осмыслить данные и сформулировать выводы. Коллеги обратились к нам с запросом: перенести формирование отчетов на 12:00, чтобы оставалось больше времени на анализ. И мы стали думать, как это сделать своими силами без увеличения команды.

habr.com/ru/companies/sportmas

#база_данных #отчётность #хранение_данных #аналитика #аналитика_данных #сбор_данных #дашборды

2025-08-05

Скрейпинг Temu в 2025: реальный кейс с антиботом, ротацией и прокси

Разбираем полный цикл построения надёжного скрейпера для Temu: от выбора стека и прокси до обхода JavaScript‑челленджей и сбора тысяч карточек товаров без единого 403.

habr.com/ru/articles/934080/

#скрейпинг_temu #парсинг_маркетплейса #асинхронный_парсер #обход_antibot_системы #прокси_для_скрейпинга #автоматизация_сбора_данных #архитектура_парсера #SEO #itинфраструктура #сбор_данных

2025-07-23

Парсинг российских СМИ

В эпоху больших языковых моделей полноценный сбор информации с сайтов все еще не самый очевидный сценарий, требующий учета многих мелких деталей, а также понимания принципов работы сайта и взаимодействия с ним. В этом случае единственный оптимальный метод сбора такой информации - это парсинг. В данной статье мы сфокусируемся на парсинге сайтов российских СМИ, в числе которых Meduza ,* как официально запрещенное в РФ и более государственно-подконтрольных RussiaToday и Коммерсанта . Разберемся какой это сделать наиболее эффективно и получим текст и метаданные статей. Как основные инструменты используем классические библиотеки в Python: requests, BeautifulSoup, Selenium .

habr.com/ru/articles/930188/

#парсинг #beautifulsoup #selenium #python #сбор_данных

2025-07-15

Как обойти ограничения TradingView и забирать данные с графика без использования платных функций (через Pine Script)

Приветствую! Я Никита, разработчик торговых стратегий и инструментов в международном криптовалютном фонде Wild Boar. Здесь пишу об алгоритмической торговле, делюсь опытом и помогаю внимательным читателям владеть не только ситуацией на рынке, но и всем (почему – см. внутри). В этой статье делюсь нестандартным методом, который позволяет обойти ограничения TradingView и забирать данные с графика без использования платных функций.

habr.com/ru/articles/928002/

#алгоритмическая_торговля #алготрейдинг #трейдинг #tradingview #pine_script #c #сбор_данных

2025-06-19

«Потеряли на колёсах десятки миллионов, айтишники, помогайте»

Нас позвали в цех решить задачу. Приходим — там тишина, люди ходят мрачные. Оказалось, недавно пришлось экстренно вернуть обратно в ремонт более 1000 колёсных пар, потому что не нашлось их диагностических протоколов. Это очень дорого. И больно. Причину быстро нашли. Там был ненадёжный элемент, отвечающий за взаимодействие между буксами и вибростендом. Человек. Реальный человеческий фактор в системе диагностики. В вагоне колёса жёстко сидят на одной оси, и у каждой есть букса — подшипниковый узел, который позволяет колёсной паре вращаться. Букса проверяется вибродиагностикой. На вибростенде её раскручивают до 300 оборотов в минуту и датчики слушают, нет ли странных звуков. По результатам формируется протокол, где указано, пригодна ли букса. По регламенту в конце рабочего дня оператор должен распечатать протоколы за смену и подшить их в архивную папку. Для этого нужно подойти к стенду, авторизоваться, выбрать период, сформировать сводный файл отчёта (или единичный отчёт) и нажать кнопку «Печать». Все протоколы хранятся в бумажном виде — в тех самых архивных папках, а ещё в закрытой базе данных стенда. Если потеряется папка с бумажками или база данных стенда внезапно решит уйти в отпуск, при проверке будет много вопросов. Очень много вопросов. А если в грузовом составе с такой колёсной парой под вагоном что-то пойдёт не так, это уже не просто накладка, а огромная проблема, которую разбирать будут очень серьёзные люди. После инцидента с теми самыми 1000 колёсными парами отдел качества обнаружил, что на заводе есть айтишники. И мы даже умеем правильно хранить документы. Собственно, из-за этой суперспособности нас и позвали.

habr.com/ru/companies/omk-it/a

#завод #ИТ #автоматизация #сбор_данных #цех #вибродиагностика

2025-06-19

«Потеряли на колёсах десятки миллионов, айтишники, помогайте»

Нас позвали в цех решить задачу. Приходим — там тишина, люди ходят мрачные. Оказалось, недавно пришлось экстренно вернуть обратно в ремонт более 1000 колёсных пар, потому что не нашлось их диагностических протоколов. Это очень дорого. И больно. Причину быстро нашли. Там был ненадёжный элемент, отвечающий за взаимодействие между буксами и вибростендом. Человек. Реальный человеческий фактор в системе диагностики. В вагоне колёса жёстко сидят на одной оси, и у каждой есть букса — подшипниковый узел, который позволяет колёсной паре вращаться. Букса проверяется вибродиагностикой. На вибростенде её раскручивают до 300 оборотов в минуту и датчики слушают, нет ли странных звуков. По результатам формируется протокол, где указано, пригодна ли букса. По регламенту в конце рабочего дня оператор должен распечатать протоколы за смену и подшить их в архивную папку. Для этого нужно подойти к стенду, авторизоваться, выбрать период, сформировать сводный файл отчёта (или единичный отчёт) и нажать кнопку «Печать». Все протоколы хранятся в бумажном виде — в тех самых архивных папках, а ещё в закрытой базе данных стенда. Если потеряется папка с бумажками или база данных стенда внезапно решит уйти в отпуск, при проверке будет много вопросов. Очень много вопросов. А если в грузовом составе с такой колёсной парой под вагоном что-то пойдёт не так, это уже не просто накладка, а огромная проблема, которую разбирать будут очень серьёзные люди. После инцидента с теми самыми 1000 колёсными парами отдел качества обнаружил, что на заводе есть айтишники. И мы даже умеем правильно хранить документы. Собственно, из-за этой суперспособности нас и позвали.

habr.com/ru/companies/omk-it/a

#завод #ИТ #автоматизация #сбор_данных #цех #вибродиагностика

2025-04-11

Конфиденциальность мертва: Яндекс и ВК обучают ИИ на ваших личных данных?

Если бы у Кевина Митника была Алиса PRO, то ему бы не пришлось рыться в мусорных баках ради доступа к персональным данным. Протестировав Yandex GPT я узнал, что голосовой ассистент от Яндекс не только раздаёт всем мой номер телефона по первому требованию, но и знает список несовершеннолетних в моей семье, несмотря на «закрытый» профиль ВКонтакте где он был опубликован. А также где‑то хранит всю эту информацию без моего разрешения, но при допросе — уходит в несознанку... Нырнуть в мусорку от Яндекса...

habr.com/ru/articles/900132/

#Яндекс #Алиса #Безопасность_данных #Конфиденциальность #ИИ #ВКонтакте #Персональные_данные #Сталкинг #Сбор_данных #Yandex_GPT

2025-04-11

КОНФИДЕНЦИАЛЬНОСТЬ МЁРТВА: ЯНДЕКС И ВК ОБУЧАЮТ ИИ НА ВАШИХ ЛИЧНЫХ ДАННЫХ?

Если бы у Кевина Митника была Алиса PRO, то ему бы не пришлось рыться в мусорных баках ради доступа к персональным данным. Протестировав Yandex GPT я узнал, что голосовой ассистент от Яндекс не только раздаёт всем мой номер телефона по первому требованию, но и знает список несовершеннолетних в моей семье, несмотря на "закрытый" профиль ВКонтакте где он был опубликован. А также где-то хранит всю эту информацию без моего разрешения, но при допросе - уходит в несознанку... Нырнуть в мусорку от Яндекса...

habr.com/ru/articles/900132/

#Яндекс #Алиса #Безопасность_данных #Конфиденциальность #ИИ #ВКонтакте #Персональные_данные #Сталкинг #Сбор_данных #Yandex_GPT

2025-04-02

Автоматизация сбора данных: как подтянуть курсы валютных пар ЦБ РФ

Во время расчёта доходности торговли валютными парами или акциями pre-IPO , для расчетов NPV и других финансовых показателей всегда нужны актуальные курсы валютных пар. Долгое время открывать сайт Центробанка РФ (ЦБ РФ) и копировать валютные курсы в Excel курсы ЦБ РФ становится лень – и тут на помощь приходят Excel и VBA. Наипростейшее решение – сделать в Excel выпадающий список с выбором валюты и написать макрос, который сам подтянет нужный курс с сайта ЦБ РФ . Тогда я смогу просто выбрать, например, USD или EUR , и таблица сама подставит актуальный курс в расчет. Звучит классно, пора делать.

habr.com/ru/articles/896756/

#api #vba #vbaмакросы #vba_excel #excel #парсинг #парсинг_данных #сбор_данных

2025-03-18

Настраиваем паука для сбора данных: как работает фреймворк Scrapy

В Точке мы обучаем наших AI-ассистентов, а для этого нужно много данных. В статье расскажу, как быстро собрать информацию практически с любого сайта при помощи фреймворка Scrapy.

habr.com/ru/companies/tochka/a

#scrapy #python #сбор_данных

2025-02-28

Нейросеть против ДТП: как мы разработали искусственный интеллект, чтобы обезопасить поездки в автобусе

Уже несколько лет человечество активно внедряет автоматизированные системы с участием нейросетей в свою повседневность. Вопреки расхожему мнению, не только компании извлекают из этого выгоду, но и обычные люди. И речь не только о коммерческой выгоде — такие системы могут спасать жизни. Система, о которой мы сегодня расскажем, преследует цель сделать жизнь людей безопаснее и удобнее. Сколько времени человек проводит в общественном транспорте? Какие нарушения совершают водители? Можно ли повысить безопасность поездок за счет нейросетей? Ответы — в этом материале.

habr.com/ru/articles/886780/

#Искусственный_интеллект #нейросети #предотвращение_ДТП #дтп_в_москве #мониторинг_водителей #компьютерное_зрение #машинное_обучение #сбор_данных #снижение_нарушений #безопасность_в_транспорте

2025-02-14

[Перевод] Windows 11 — по-прежнему ничего стоящего

С вами Dedoimedo, и я хочу поделиться историей об очередном эпизоде мазохизма. Раз в несколько месяцев я запускаю свой тестовый ноутбук, на котором в качестве альтернативной системы стоит Windows 11, и проверяю, произошли ли в этой ОС какие-нибудь ощутимые изменения. Последняя такая авантюра была в сентябре , и тогда я столкнулся с кучей проблем. Но не всё так страшно. Недавно я прочёл на The Register статью, в которой показано, что аудитория Windows 11 не просто не растёт, а сокращается . Как же прекрасно. Просто песня. Люблю читать бахвальные маркетинговые заявления высокопоставленных представителей компаний, особенно на фоне суровой проверки реальностью. Но в этом есть смысл. Windows 11 бесполезна — файловый менеджер тормозной, раздел настройки не дотягивает до панели управления, а аппаратные требования зачастую препятствуют возможности апгрейда. Что тут сказать… Карма и всё такое… Приступим?

habr.com/ru/companies/ruvds/ar

#ruvds_перевод #microsoft #windows_11 #windows_10 #баги #операционные_системы #сбор_данных

2025-02-14

PROWAY и РосНОУ заключили соглашение о сотрудничестве и взаимодействии

11 февраля Российский новый университет (РосНОУ) и дистрибьютор ИТ-оборудования PROWAY заключили соглашение о сотрудничестве и взаимодействии. В соответствие с соглашением, лаборатория инноваций PROWAY становится полигоном для практической отработки профессиональных навыков, повышения квалификации и профессиональной переподготовки. В свою очередь, на базе РосНОУ появится кафедра, которая будет разрабатывать программы стажировки для обучающихся в экосистеме дистрибутора PROWAY и его партнёров, в том числе для российских ИТ-производителей и ИБ-разработчиков.

habr.com/ru/articles/882442/

#PROWAY #РосНОУ #itинфраструктура #сбор_данных #инфраструктурные_решения #облачные_технологии #оборудование_для_организаций #оборудование_для_бизнеса #высшее_образование #практика_студентов

2025-02-11

Как посчитать проект и защитить бизнес от некорректной оценки: руководство для специалистов по данным

Сорванные дедлайны, работа в выходные, недовольный клиент — знакомо? Если да, то вы, вероятно, сталкивались с некорректной оценкой проекта. В прошлой статье я рассказывал о риск-факторах в задачах разметки и сбора данных:

habr.com/ru/articles/881134/

#разметка_данных #сбор_данных #оценка_проектов #оценка_проектов_разметки #оценка_проектов_сбора #нейросети_для_бизнеса #нейросети #оценка_стоимости #ошибки_управления

2025-02-11

Сливаем отчетность американской Cyber League с помощью базовых утилит Linux

В этой статье я расскажу, как создать хакерское приложение, используя встроенный язык программирования Linux, и собрать базу данных участников западной «Национальной Киберлиги». Можно сказать, хакнем хакеров! ;) Начнем со ссылки на отчет о соревнованиях Western National Cyber League, а закончим полноценным инструментом автоматизации. По пути рассмотрим основы работы с сURL, научимся обходить базовые ограничения веб-приложений и поработаем с PDF-документами из командной строки. Статья будет полезна специалистам по информационной безопасности и всем, кто интересуется автоматизацией процессов в Linux.

habr.com/ru/companies/bastion/

#Linux #автоматизация #кибербезопасность #информационная_безопасность #персональные_данные #программирование_на_linux #сбор_данных #автоматизация_сбора_данных #защита_данных #хакерское_приложение

2024-12-26

A-Tune: тонкая настройка системы с использованием машинного обучения

Привет, Хабр! Меня зовут Артём, я инженер-программист в департаменте серверных решений. В статье расскажу про новый инструмент для повышения производительности, который получилось портировать и доработать для ОС Astra Linux Special Edition.

habr.com/ru/companies/astralin

#atune #astralinux #машинное_обучение #ml #утилита #сбор_данных #математическая_модель #тонкая_настройка

2024-11-01

Почему оценить стоимость датасета не так просто, как кажется на первый взгляд

Представьте, что вы получили заказ на разметку датасета из 1,000 изображений. Вы берете 20 картинок из сета, проводите тесты и получаете примерную стоимость 1 изображения. В итоге вы оцениваете проект, основываясь на количестве изображений , и устанавливаете цену за каждое. Однако, когда данные приходят, оказывается, что на каждом изображении не один объект к разметке, как было на тестах, а десятки! В итоге вы тратите гораздо больше времени и средств, чем планировали в начале. Как избежать таких распространенных ошибок и защитить свой бизнес от неожиданных затрат и задержек? Давайте обсудим, какие ошибки чаще всего возникают при оценке проектов по сбору и разметке данных для машинного обучения, и на что важно обращать внимание, чтобы гарантировать корректную оценку ваших проектов. Узнайте больше в статье Романа Фёдорова, эксперта в области подготовки датасетов для машинного обучения.

habr.com/ru/articles/855478/

#разметка_данных #сбор_данных #оценка_проектов_разметки #оценка_проектов_сбора_данных #нейросети_для_бизнеса #машинное_зрение #computer_vision #команда_разработки #ошибки_управления #оценка_трудозатрат

2024-10-16

Bukva: алфавит русского жестового языка

Всем привет! Недавно мы анонсировали словарь русского жестового языка (РЖЯ), а в этой статье поговорим про задачу распознавания алфавита РЖЯ, именуемого также дактильным алфавитом или дактилем. Предлагаем ознакомиться с нашей работой , в которой мы представим новый датасет Bukva — первый полноценный видеонабор данных для распознавания дактильной азбуки. Он содержит 3757 видеороликов с более чем 101 видео для каждой буквы дактиля, включая не только статические, но и динамические жесты. В статье расскажем, как мы собрали датасет для решения задачи и какие модели обучили в качестве бейзлайнов. Все данные и код открыты и доступны в репозитории команды.

habr.com/ru/companies/sberdevi

#ржя #русский_жестовый_язык #нейронные_сети #сбор_данных #краудсорсинг #дактиль

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst