#WebScraping

R.L. Dane :Debian: :OpenBSD: :FreeBSD: 🍵 :MiraLovesYou:rl_dane@polymaths.social
2026-02-02

P.S., the body of the parent #toot was created by a simple #shell #function:

function apod {
    #Today's NASA Astronomy Picture of the Day info-fetcher
    curl -sL 'https://apod.nasa.gov/apod/archivepix.html' \
        |grep -m1 "[0-9][0-9]:" \
        |sed 's/^/Date: /;
            s|: *<a href="|\nURL: https://apod.nasa.gov/apod/|;
            s/">/\nTitle: /; s/<.*$//'
    echo
    echo "#NASA #Astronomy #PictureOfTheDay"
}

#bash #ksh #mksh #shellScripting #unix #UnixShell #WebScraping #Scraping #HTML

2026-02-01

Công cụ Website-Crawler giúp thu thập dữ liệu từ website dưới dạng JSON hoặc CSV, phù hợp để dùng với mô hình ngôn ngữ lớn (LLM). Hỗ trợ crawl hoặc scrape toàn bộ website nhanh chóng, dễ sử dụng. #WebCrawler #DataExtraction #LLM #AI #CôngCụ #WebScraping #MachineLearning #AI #LLM #WebCrawler #DataExtraction

reddit.com/r/LocalLLaMA/commen

2026-01-30

NiemanLab: News publishers limit Internet Archive access due to AI scraping concerns. “When The Guardian took a look at who was trying to extract its content, access logs revealed that the Internet Archive was a frequent crawler, said Robert Hahn, head of business affairs and licensing. The publisher decided to limit the Internet Archive’s access to published articles, minimizing the chance […]

https://rbfirehose.com/2026/01/30/niemanlab-news-publishers-limit-internet-archive-access-due-to-ai-scraping-concerns/
2026-01-30

Thách thức khi khai thác dữ liệu từ Twitter/X

Việc lấy dữ liệu sạch và cấu trúc từ Twitter/X ngày càng khó khăn do API chính thức đắt đỏ và các biện pháp chặn bot. Một giải pháp API mới vừa được phát triển nhằm giải quyết vấn đề hạ tầng (proxy, trình duyệt) để thu thập:

- Tweet, timeline, kết quả tìm kiếm.
- Hồ sơ người dùng, chỉ số tương tác.
- Theo dõi xu hướng và luồng thảo luận.

Bạn thấy nền tảng nào khó lấy dữ liệu nhất hiện nay?

#TwitterX #DataMining #WebScraping #API #KhaiThacDuLieu #

2026-01-29

Mệt mỏi viết tool scrape mới cho mỗi lần tự động hóa, tác giả xây dựng API CrawlKit - giao diện LLM hỗ trợ trích xuất dữ liệu web. Tiết kiệm thời gian, phù hợp SaaS và AI. #SAAS #AI #WebScraping #PhầnMềm #TríTuệNhânTạo #ThuThậpDữLiệu

reddit.com/r/SaaS/comments/1qq

Web Screen Scrapingwebscreenscraping
2026-01-28

E-commerce brands use scraped data to forecast demand and plan inventory smarter.

Tracking pricing, availability & trends in real time helps reduce stockouts, avoid overstocking, and stay ahead of market shifts.

Learn More:webscreenscraping.com/scraped-

How E-commerce Companies Use Scraped Data for Demand Forecasting & Inventory Planning?
PPC Landppcland
2026-01-25

Texas API firm strikes back after Google's DMCA web scraping lawsuit: SerpApi defends public data access after Google sues over SearchGuard circumvention in DMCA case, arguing traffic controls aren't copyright protection. ppc.land/texas-api-firm-strike

2026-01-24

Thu thập 750K việc làm công nghệ bằng cách reverse-engineer API – một lập trình viên đã tự động hóa quy trình này bằng công cụ "reverse-api-engineer". Dùng DevTools để bắt request, chuyển sang HAR, sau đó dùng LLM tạo client Python tự động. Dụng cụ dùng Claude Python Agent SDK, hỗ trợ OpenCode, linh hoạt cho nhiều mô hình. GitHub: kalil0321/reverse-api-engineer

#API #ReverseEngineering #Python #SideProject #JobMap #WebScraping #DeveloperTools #LậpTrình #CôngNghệ #MãNguồnMở #KhởiNghiệp

https://

2026-01-24

Xây dựng công cụ thay thế Tavily, cho phép truy cập web trực tiếp cho hệ thống LLM địa phương mà không ẩn thông tin. Cho phép: 1) Tìm kiếm trên Bing/DuckDuckGo hoặc bất kỳ SERP nào qua scraping, 2) Tự chọn URL để lấy nội dung (không phụ thuộc xếp hạng từ nhà cung cấp), 3) Nhận nội dung dưới dạng HTML, Markdown hoặc văn bản thuần. Tặng 10K credits API miễn phí mỗi tháng. #LocalLLM #WebScraping #AI #RAG #CôngCụAI #TríTuệNhânTạo #Scraping #HệThốngLLM

reddit.com/r/LocalLLaMA/commen

2026-01-23

Maxun v0.0.32 ra mắt với tính năng ghi âm thời gian thực, hỗ trợ đồng bộ trạng thái website thực tế, thao tác live như gõ, nhấn, cuộn, điều hướng. Hỗ trợ tích hợp SDK: LlamaIndex, Google Sheets, Airtable, LangChain, OpenAI và nhiều hơn nữa. Chế độ AI tự động tìm và trích xuất dữ liệu mà không cần URL. Mã nguồn mở, tự lưu trữ. #Maxun #WebScraping #OpenSource #SelfHosted #AI #LlamaIndex #LangChain #NoCode #DataExtraction #CôngCụMãNguồnMở #TríchXuấtDữLiệu #AI #TựHost

reddit.com/r/selfh

Daniel Walkerdanielwalker
2026-01-23

Brand Benchmarking: Outsmart Competitors with Web Scraping Services

Discover how modern businesses are transforming competitive research with automated web scraping services. This insightful blog explains why traditional competitor research falls short and how web data scraping helps brands gather real-time insights on pricing.

Read the article: techwebspace.com/brand-benchma

Alex Zapalexzap
2026-01-22

Ethical Web Scraping with Python: Doing It Right with Dollar Value in Mind 📈 📝 🧠 💰

Discover the great commercial potential of ethical web scraping and see how it translates into real revenue, all while keeping legal and ethical considerations in mind

👇

medium.com/@alexzap922/ethical

Ethical Web Scraping with Python: Doing It Right with Dollar Value in Mind
Discover the great commercial potential of ethical web scraping and see how it translates into real revenue, all while keeping legal and ethical considerations in mind
2026-01-22

TorrentFreak: Unsealed: Spotify Lawsuit Triggered Anna’s Archive Domain Name Suspensions. “Spotify and several major record labels, including UMG, Sony, and Warner, have taken legal action against the unknown operators of Anna’s Archive. The action follows the shadow library’s announcement that it would release hundreds of terabytes of scraped Spotify data. Unsealed documents reveal that the […]

https://rbfirehose.com/2026/01/22/unsealed-spotify-lawsuit-triggered-annas-archive-domain-name-suspensions-torrentfreak/
2026-01-22

Search Engine Land: Does llms.txt matter? We tracked 10 sites to find out. “We wanted data, not debates. So we tracked llms.txt adoption across 10 sites in finance, B2B SaaS, ecommerce, insurance, and pet care — 90 days before implementation and 90 days after.”

https://rbfirehose.com/2026/01/22/search-engine-land-does-llms-txt-matter-we-tracked-10-sites-to-find-out/
2026-01-21

Unlimited Sheets Add-on cho Google Sheets giúp SEO & web scraping! Với lệnh `getKeywordPosition`, `getSearchVolume` và `SCRAPE_BY_CSS`, công cụ này hỗ trợ kiểm tra xếp hạng từ khóa, lượng tìm kiếm và trích xuất dữ liệu từ website! Mô hình thành công nhờ phiên bản miễn phí (50 lần/tháng), nhắm vào chuyên gia SEO yêu thích bảng tính. Thách thức lớn: Khó lan tỏa trên Google Workspace Marketplace, cạnh tranh cùng các công cụ lớn.
#SEO #GoogleSheets #WebScraping #SaaS #CôngNghệ & #TiếpThịSEO #PhầnM

2026-01-21

🚀 Mới! công cụ theo dõi giá tự động cho Amazon, Walmart, Target... Bạn chỉ cần dán URL sản phẩm, đặt mức giá mục tiêu, và nhận email khi giảm. Được xây dựng bằng FastAPI + Next.js, dùng proxy residential có session cố định, Firebase lưu trữ & gửi mail. Mã nguồn mở hoàn toàn, có bản demo để thử. #pricewatch #OpenSource #WebScraping #CôngCụGiá #Developer #Vietnam #Tech 🚀

v.redd.it/lvguxe90doeg1

2026-01-21

Chúng mình đang xây dựng cộng đồng chia sẻ script scraping cho các website không có feed. Đừng lập trình một mình—hãy trao đổi script và mẹo với nhau! Tham gia Discord để kết nối và học hỏi.

#scraping #webscraping #côngcụ #cộngđồng #đồnghề #discord #sharecode #automation

reddit.com/r/selfhosted/commen

2026-01-21

You don't always need an API. Sometimes scraping public pages is the simplest, fastest way to turn repetitive browsing into usable data. hackernoon.com/you-dont-need-a #webscraping

2026-01-19

Ra mắt AgentCrawl, web scraper nhẹ dành cho LLM Agents. Tốc độ cao, tối ưu token bằng cách trả về Markdown sạch, giúp LLM truy cập web hiệu quả. Tương thích Vercel AI & OpenAI SDK. Mã nguồn mở.

#AI #LLM #WebScraping #LậpTrình #CôngNgệ #MãNguồnMở #OpenSource #Programming #Technology

reddit.com/r/LocalLLaMA/commen

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst