#DataScraping

Jonathan Smiglianojsmigliano
2026-01-24

I'm slightly creeped out but not surprised. I was editing a music score on my laptop recently and I added an instruction to play the piece "robotic". The next time I logged into Indeed, the first job recommendation to come up is for Robotics Operator. Is Indeed scraping data from my recent documents for keywords?

Always check your firewall.

[위키피디아 25년 만의 대전환, AI 기업들과 유료 계약 체결

위키피디아가 25년 만에 처음으로 AI 기업들과 유료 계약 체결하며, AI 시대의 생존 전략을 모색하고 있다. AI 봇의 대량 스크래핑으로 인한 서버 비용 증가와 방문자 감소, 콘텐츠 품질 저하 등의 문제를 해결하기 위해 상업적 유료 계약을 체결한 것.

news.hada.io/topic?id=25976

#wikipedia #ai #openknowledge #datascraping #commercialcontract

Hitech BPOhitech_bpo
2026-01-14

Get Property Intelligence Powered by Real Estate Data Scraping Services

Explore how quality data collection can elevate your real estate strategy: hitechbpo.com/real-estate-data

Agent_AsofAgent_Asof
2026-01-13

🚀 Want to dive into data scraping? Check out MediaCrawler by NanmiCoder! This powerful tool lets you harvest comments and content from popular platforms like Xiaohongshu, Douyin, Kuaishou, Bilibili, Weibo, Baidu Tieba, and Zhihu. Perfect for learning and research—just remember to use it responsibly! 📊💻

Explore more here: github.com/NanmiCoder/MediaCra

2026-01-11

The “17.5 million Instagram user data leak” making rounds in 2026? Old news

The data from 2022 was already leaked in 2023.

We broke down all 3 dumps - same records

Don’t fall for clickbait reports!

Read: hackread.com/instagram-user-da

#Instagram #DataLeak #Cybersecurity #Privacy #DataScraping

HabileDatahabiledata
2026-01-05

How Data Scraping Powers Dynamic Pricing

Data scraping helps businesses track market trends, competitor prices, and demand changes in real time. Access to structured, reliable data supports smarter pricing decisions, improves analytics, and strengthens AI models while maintaining data quality and compliance.

Read more: habiledata.com/blog/how-data-s

ecommerce data scraping
2025-12-28

Tự động hóa trình duyệt miễn phí & tự lưu trữ **Doppelgänger** giúp khắc phục hạn chế của các nền tảng trả phí như Apify với: ✅ Không phí chạy tác vụ ✅ Tự lưu trữ, dữ liệu an toàn ✅ Hỗ trợ JSON và JavaScript linh hoạt. Cải thiện quy trình trích xuất dữ liệu bị thiếu hoặc chứa trang yêu cầu đăng nhập. Dự án mã nguồn mở, xây dựng trên Playwright. Thích hợp cho luồng tác vụ phức tạp & lặp lại.
#CongNghe #TirungTo #OpenSource #LapTrinh #DataScraping #Doppelgänger #TirungTrinhDuyet #PhanTichDuLieu

2025-12-24

Một tiêu chuẩn mới, Site Content Protocol (SCP), được đề xuất nhằm giải quyết các vấn đề trong việc thu thập dữ liệu cho AI. SCP cho phép website cung cấp nội dung có cấu trúc, tối ưu hóa riêng cho AI, cải thiện chất lượng dữ liệu, tăng hiệu quả và minh bạch pháp lý, thay vì cạo dữ liệu từ HTML thông thường.

#AI #DataScraping #WebDev #SCPProtocol #Efficiency
#ThuThapDuLieu #PhátTriểnWeb #GiaoThucSCP #HieuQua

reddit.com/r/programming/comme

2025-12-22

Công cụ mới giúp trích xuất phụ đề thủ công, chất lượng cao từ YouTube, lý tưởng để xây dựng bộ dữ liệu tinh chỉnh Llama/Mistral. Nó tự động phân biệt phụ đề do người viết và phụ đề tự động, đồng thời xử lý việc xoay IP để tránh bị chặn. Rất hữu ích cho các nhà phát triển AI!

#AI #YouTube #DataScraping #LLM #MachineLearning #DữLiệu #HọcMáy

reddit.com/r/LocalLLaMA/commen

2025-12-19

Từ một dự án freelancing scrape Substack, một người đã biến giải pháp 1 lần thành công cụ tự phục vụ, mở ra cơ hội thị trường. Câu chuyện chuyển đổi từ làm thuê sang tạo sản phẩm. #FreelanceTips #ProductBuilding #Substack #DataScraping #StartupViecles #TaoSanPham #KinhNghiemTuDo

reddit.com/r/SideProject/comme

2025-12-19

**AI nợ công: Làm thế nào các công cụ đào tạo LLM phá vỡ hợp đồng xã hội của mã nguồn mở**
AI học hỏi từ mã nguồn mở nhưng không hoàn thiện nghĩa vụ, gây bất cập cho cộng đồng. Các dự án LLM (Large Language Models) "dựng" dữ liệu công khai nhưng xem nhẹ trách nhiệm bảo mật, tôn vinh tác giả và lợi ích lâu dài của phần mềm mở. Cần tái định hướng để công nghệ phát triển bền vững.

#AI #Mãnguồnmở #Đàotạocôngnghệ #Bềnvững #ĐạođứcAI #OpenSource #SocialContract #TechEthics #AIdebt #DataScraping

h

Web Screen Scrapingwebscreenscraping
2025-12-03

The development of modern AI heavily depends on reliable training data, and web scraping provides it at scale. Scraping gathers real-world content that helps LLMs understand grammar, sentiment, trends, and domain knowledge. With well-processed scraped datasets, AI models become more accurate, more knowledgeable, and more capable of solving real challenges.

webscreenscraping.com/web-scra

tagxdataTagxdata
2025-11-01
PPC Landppcland
2025-10-22

Reddit sues data scrapers and Perplexity over unauthorized content access: Reddit filed a lawsuit on October 22, 2025, against SerpApi, Oxylabs, AWMProxy, and Perplexity AI for circumventing security measures to scrape platform data. ppc.land/reddit-sues-data-scra

tagxdataTagxdata
2025-10-18

Top Data Extraction & Web Scraping Companies in 2026 | TagX

Discover the leading data extraction and web scraping companies for 2026 offering advanced AI-powered tools, scalable APIs, and automation services. Compare top providers like TagX, Octoparse, Scrapy, and more to choose the best solution for efficient data collection and insights.

https://www.tagxdata.com/top-data-extraction-and-web-scraping-companies-in-2026
𝔱.𝔥. 🇪🇺trzyglow
2025-10-12

Since it will be introduced in the EEA, Switzerland, Canada and Hong Kong in a few weeks,
make sure to opt out of LinkedIn's AI data scraping agreement (unless you want your data to be used as training data).

linkedin.com/mypreferences/d/s

2025-10-12

Tuyển dụng: Vị trí scrape 300.000 tiêu đề sách PDF từ AbeBooks, tìm file từ Wayback Machine/Anna's Archive. Tổng 4TB dữ liệu sẽ được lưu trữ vào đĩa quang 128GB (Verbatim/Panasonic) để đảm bảo đọc được 100 năm. Ngân sách: $700 (chưa vật tư).

#TuyểnDụng #Scraping #LưuTrữDữLiệu #PDF #AbeBooks
#Hiring #DataScraping #DataArchiving #PDF

reddit.com/r/programming/comme

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst