#GoogleBooks

2025-06-26

Anthropic zniszczył miliony książek w celu szkolenia modeli AI

Firma Anthropic, twórca asystenta AI Claude, podobnego do ChatGPT, wydała miliony dolarów na fizyczne skanowanie drukowanych książek.

Proces ten, ujawniony w dokumentach sądowych dotyczących praw autorskich, polegał na cięciu książek, skanowaniu ich do plików cyfrowych, a następnie utylizacji oryginałów, wyłącznie w celu trenowania sztucznej inteligencji.

W lutym 2024 roku Anthropic zatrudnił Toma Turveya, byłego szefa partnerstw w projekcie skanowania książek Google Books, z zadaniem pozyskania „wszystkich książek na świecie”. Ten strategiczny ruch miał na celu powielenie podejścia Google do digitalizacji książek, które z powodzeniem przeszło przez wyzwania praw autorskich i ustanowiło precedensy dotyczące dozwolonego użytku. Chociaż destrukcyjne skanowanie (skutkujące fizycznym zniszczeniem skanowanej publikacji) jest powszechną praktyką w mniejszych operacjach, podejście Anthropic wyróżniało się masową skalą. Szybsza i tańsza metoda destrukcyjna okazała się ważniejsza niż zachowanie fizycznych książek.

Sędzia William Alsup orzekł, że ta operacja destrukcyjnego skanowania kwalifikuje się jako dozwolony użytek, pod warunkiem, że Anthropic legalnie zakupił książki, zniszczył każdą drukowaną kopię po zeskanowaniu i przechowywał pliki cyfrowe wewnętrznie, bez ich rozpowszechniania. Sędzia porównał ten proces do „oszczędzania miejsca” poprzez konwersję formatu i uznał go za transformacyjny.

Branża AI ma nienasycony apetyt na wysokiej jakości dane tekstowe. Modele dużych języków (LLM), takie jak ChatGPT i Claude, są budowane poprzez przetwarzanie miliardów słów w sieci neuronowej, co pozwala na tworzenie statystycznych zależności między słowami i pojęciami. Jakość danych treningowych ma bezpośredni wpływ na możliwości modelu AI – modele szkolone na dobrze zredagowanych książkach i artykułach zazwyczaj produkują bardziej spójne i dokładne odpowiedzi. Doktryna pierwszej sprzedaży pozwala na legalne kupowanie fizycznych książek i dowolne dysponowanie nimi, w tym ich niszczenie, co stanowiło obejście dla firm AI, które nie chciały negocjować licencji z wydawcami.

Początkowo Anthropic korzystał ze spiratowanych e-booków, aby uniknąć „prawnego/praktycznego/biznesowego zmagania” związanego z negocjacjami licencyjnymi. Jednak do 2024 roku firma stała się mniej skłonna do używania pirackich e-booków z powodów prawnych i potrzebowała bezpieczniejszego źródła. Kupowanie używanych fizycznych książek omijało kwestie licencjonowania, jednocześnie dostarczając wysokiej jakości, profesjonalnie zredagowany tekst, niezbędny dla modeli AI. Destrukcyjne skanowanie było najszybszym sposobem na zdigitalizowanie milionów tomów. Anthropic wydał „wiele milionów dolarów” na tę operację, często kupując używane książki hurtowo. Po zeskanowaniu stron do plików PDF z tekstem czytelnym maszynowo, wszystkie papierowe oryginały były utylizowane.

W dokumentach sądowych nie ma informacji o zniszczeniu rzadkich książek – Anthropic kupował książki hurtowo od dużych sprzedawców. Istnieją również inne metody digitalizacji, które nie niszczą fizycznych tomów, takie jak te pionierskie przez The Internet Archive. Niedawno OpenAI i Microsoft ogłosiły współpracę z bibliotekami Harvardu w celu trenowania modeli AI na prawie milionie książek z domeny publicznej, pochodzących nawet z XV wieku, które zostały zdigitalizowane, ale bez zniszczenia oryginałów.

#AI #Anthropic #Claude #daneTreningowe #dozwolonyUżytek #GoogleBooks #LLM #modeleJęzykowe #news #prawaAutorskie #skanowanieKsiążek #sztucznaInteligencja #TomTurvey

Anthropic, książki
2025-06-11

Good news!
My next book Mouth Of Winter is up to chapter 20!
It's officially in the end game & should be done within the next month or so.
Also I've got a script for ready to be recorded.
Oh & buy Dullbloods.
You can find the paperback, at a reasonable price, on lulu.com & the on , & .

Dale Yeagerdaleyeager
2025-05-02

Google Books Profiling Your Life How to Use Criminal to Protect Yourself and Your Family from Dangerous People google.com/books/edition/Profi

🌶️PQT🌶️PepperQT@tech.lgbt
2025-04-16
Benjamin Carr, Ph.D. 👨🏻‍💻🧬BenjaminHCCarr@hachyderm.io
2025-03-09

#reCAPTCHA: 819 million hours of wasted human time and billions of dollars in Google profits
#Google acquired reCAPTCHA in 2009 and used it to digitize #GoogleBooks and improve #GoogleStreetView by processing photos of street signs and house numbers.
By 2025, reCAPTCHA is easily defeated by bots. Yet Google continues to offer it because reCAPTCHA has evolved into a tracking tool that collects user data and generates billions in revenue for Google
boingboing.net/2025/02/07/reca

2025-02-05

aus gegebenem Anlass: es lohnt sich, bei #googlebooks über das Supportformular um die Freischaltung der Vollansicht gemeinfreier Werke zu bitten. Oft ist der Rechtsstatus falsch hinterlegt. Google korrigiert das i.d.R. flott und unkompliziert.

#publicdomain #reclaimthepublicdomain

2025-01-05

Calishat: Using Google Books for Web Search: Concept Compassing. “I’ve been spending my weekend playing with how Google Books could guide Web search after someone asked me about #3 in Five Ways Google Could Improve Search In 2025 That Have Nothing To Do With AI. How could Google Books make search better? I had some ideas and I applied JavaScript to them.”

https://rbfirehose.com/2025/01/05/using-google-books-for-web-search-concept-compassing-calishat/

gtbarrygtbarry
2024-12-21

Harvard Is Releasing a Massive Free AI Training Dataset Funded by OpenAI and Microsoft

Harvard University is releasing a high-quality dataset of nearly 1 million books that could be used by anyone to train large language models and other AI tools. It contains books scanned as part of the project that are no longer protected by copyright

wired.com/story/harvard-ai-tra

2024-11-17

Great gift ideas for lovers of quality fiction, & maybe amateur cooks as well.
Available through , & as , & through lulu.com for physical copies

@reiver ⊼ (Charles) :batman:reiver
2024-11-04

“Why is Google Books removing access to out-of-copyright books that it once hosted as open access? There is a good chance that the mass-deaccession policy of libraries, on the ground that "it's available for free online", will be one of the most stupid acts of modern curatorship.”

twitter.com/AntigoneJournal/st

From @AntigoneJournal@twitter.com :

“Why is Google Books removing access to out-of-copyright books that it once hosted as open access? There is a good chance that the mass-deaccession policy of libraries, on the ground that "it's available for free online", will be one of the most stupid acts of modern curatorship.”
2024-10-26

My , Anybody Can Make A Cheesecake (Even You Ya Lazy Bastard!), is available on .
If you enjoy baking, & reading then feel free to check it out.
Only $10.99 AUD.

play.google.com/store/books/de

gerardo Corripiomivozmimundo
2024-10-20

Hace tiempo, compré de la , uno llamado así “El Escuadrón201” @azul_sinestesia ¡espero hallarlo en , algún día, para leerlo. Al no tener por el momento , no tengo acceso a dicho libro 😖

2024-10-09

El 9 de octubre de 2009, Google informó que ha digitalizado más de 10 millones de libros para Google Book Search.

2024-10-05

Anybody Can Make A Cheesecake (Even You Ya Lazy Bastard!) is out now on & in format.
Having some issues with the version so its currently unavailable there.
You can also get the paperback through lulu.com.

play.google.com/store/books/de

2024-09-30

Right my stuff is now live on .
Feel free to checkout the versions of Dullbloods, The Stranger With The Silver Axe & Stories of the Bizarre & Terrifying through

play.google.com/store/books/de

Dale Yeagerdaleyeager
2024-09-25

Profiling Your Life How to Use Criminal Profiling to Protect Yourself and Your Family from Dangerous People by Dale Yeager Google books buff.ly/3VNVurv

2024-09-12

Gonna be putting my stuff over on & to.
Mainly my bulkier stuff. Gonna keep my short stories enrolled in .
Also got a /#X account for promotion to,

x.com/NicTauthor

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst