#web_scraping

2026-01-07

Автоматизация рутины на hh.ru: Как мы учили Headless Chrome притворяться живым человеком (RPA против Anti-Fraud)

С инженерной точки зрения поиск работы — это процесс с низкой энтропией. Есть входящий поток данных (JSON с вакансиями) и есть необходимость отправить ответный сигнал (POST-запрос с откликом). Задача кажется тривиальной для автоматизации: написал парсер, настроил cron, пошел пить кофе. Однако, если вы попробуете автоматизировать отклики на крупных job-board платформах (особенно на hh.ru ) в 2026 году, вы столкнетесь с серьезным противодействием. WAF (Web Application Firewall), анализ TLS-отпечатков, поведенческая биометрия и теневые баны — это реальность, которая убивает скрипты на requests за пару часов. В этой статье разберем архитектуру решения, которое позволяет автоматизировать процесс отклика, используя подходы RPA (Robotic Process Automation), мимикрию под поведение пользователя (Human Mimicry) и LLM для обхода смысловых фильтров. (Дисклеймер: Статья носит исследовательский характер. Мы не призываем нарушать правила площадок, а разбираем технические методы эмуляции браузера).

habr.com/ru/articles/983318/

#Искусственный_интеллект #RPA #Playwright #Selenium #Парсинг #AntiFraud #Fingerprinting #Web_Scraping #LLM #Автоматизация_рутины

2026-01-05

Một lập trình viên vừa open-source công cụ thu thập dữ liệu Amazon tên là AmzPy, giúp lấy thông tin sản phẩm, kết quả tìm kiếm và biến thể thông qua kỹ thuật giả lập trình duyệt. Hỗ trợ proxy và `curl_cffi` để tránh bị chặn. Hiện đã có trên PyPI và đang kêu gọi cộng đồng đóng góp cải thiện, thêm tính năng như crawl đánh giá hoặc xử lý CAPTCHA. #AmzPy #WebScraping #OpenSource #CôngCụLậpTrình #ThuThậpDữLiệu #Python #GitHub #Developer #TechVN #opensource #web_scraping

reddit.com/r/open

2025-12-29

Автоотклики на hh.ru своими руками: когда API закрыт, выручит эмуляция интерфейса (часть 1)

Рынок найма IT-специалистов в России, кажется, реально «сломался» под натиском автоматизации. Соискатели массово вооружились нейросетями: автогенерация резюме, шаблонные сопроводительные письма и скрипты, которые пачками откликаются на вакансии. В ответ работодатели подкручивают фильтры, ATS и чат-ботов для первичного отбора — по сути, соискатели штурмуют рынок ИИ-откликами, а работодатели отбиваются ИИ-фильтрами. Флоу превращается в «битву двух ИИ», где люди — где-то рядом, иногда даже живые. ( Habr ) Доходит до абсурда: HR пишет кандидату «Вы откликались на вакансию…», а кандидат отвечает «Это не я, это робот откликнулся». И вроде бы смешно, но рекрутеру — не всегда. ( Сетка ) Решение hh.ru : с 15 декабря 2025 закрыли публичный API для соискателей. Старый добрый автоотклик через API (когда сервисы отправляли отклики «по кнопке» программно) — всё, приехали. Теперь, чтобы автоматизация продолжала жить, приходится возвращаться в «ручной режим 2.0»: парсить HTML, эмулировать браузер и нажимать кнопки так, будто вы — очень мотивированный человек с бесконечным терпением.

habr.com/ru/articles/981764/

#Карьера_в_ITиндустрии #web_scraping #парсинг_html #поиск_работы #отклик_на_вакансии #playwright #python #автоматизация #отклики

[Show GN: Distill - Rust로 만든 웹 스크래핑 + LLM 분석 API 서버

Rust로 개발된 'Distill'은 웹 스크래핑과 LLM을 통한 데이터 분석을 통합하는 API 서버입니다. Headless Chrome을 활용한 JavaScript 렌더링, Gemini API 연동, JSON Schema 기반의 구조화된 응답을 제공하며, 최대 50개 요청 동시 처리와 다양한 보안 기능을 갖추고 있습니다. 이 시스템은 셀프호스팅 스크래핑 및 분석 솔루션으로 JinaAI나 Firecrawl와 같은 서비스의 대안이 될 수 있습니다.

news.hada.io/topic?id=25298

#web_scraping #rust #llm_analysis #api_server #gemini_api

2025-10-03

Người dùng cân nhắc tạo dashboard theo dõi thay đổi bố cục trang sản phẩm TMĐT, giúp scraper không bị lỗi khi cấu trúc trang thay đổi. Cách tiếp cận này hữu ích cho ai làm web scraping dài hạn. #web_scraping #ecommerce #data_collection #selfhosted #thu_thap_data #thương_miện điện_tử #tự_chủ

reddit.com/r/selfhosted/commen

2024-12-07

Обзор рынка Rotating Residential proxy — осень 2024

Ссылка на полный обзор с графиками Доброго времени суток, меня зовут Григорий, мне интересны сетевые технологии, производительность и добыча данных в public internet. Хочу поделиться исследованием, которое я недавно закончил для локации US. Несколько базовых терминов активно используемых в индустрии: GEO filler - описание локации в которой прокси сервис будет искать устройства. Target - целевой ресурс, с которым мы работаем через Proxy. Latency - в этом исследовании я использую 90 квантиль TTFB(от старта до получения первого байта от Target). Residential IPs - адреса принадлежащие настоящим пользвательским устройствам: TV присатвкам, телефонам, лептопам, домашним роутерам через которые осуществляется доступ в public internet. Tech SR(Technical Success Rate) - кол-во запросов с успешными ответами на уровне L7(Application layer) делить на общее кол-во запросов. Сразу к выводам(TL; DR)

habr.com/ru/articles/864586/

#proxy #web_scraping #analysis #benchmark

2024-01-20

Анализ системы защиты от ботов на примере letu.ru

Анализ системы защиты сайта от ботов на примере letu.ru с использованием javascript reverse engineering.

habr.com/ru/articles/787706/

#Javascript #reverseengineering #web_scraping

2019-01-04

#Data_Mining #VertragsR #UrheberR #DatenschutzR
Kratzen und Schürfen im Datenmilieu – #Web_Scraping in sozialen Netzwerken zu wissenschaftlichen Forschungszwecken
von Dr. Sebastian J. Golla und Dr. Max v. Schönfeld

baecker.jura.uni-mainz.de/file

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst