#thepile

2025-10-13

Apple Intelligence uczone na pirackich książkach? Gigant pozwany przez naukowców

Apple musi zmierzyć się z poważnymi oskarżeniami, które uderzają w fundamenty ich nowej (wciąż niedostępnej w Polsce) platformy AI.

Naukowcy złożyli pozew zbiorowy przeciwko firmie, twierdząc, że ich książki zostały nielegalnie wykorzystane do trenowania modeli językowych Apple Intelligence bez żadnej licencji ani zgody.

Sprawa, wytoczona przez profesorów Susanę Martinez-Conde i Stephena Macknika, dotyczy dwóch publikacji naukowych. Autorzy zarzucają, że ich prace znalazły się w ogromnym zbiorze danych „Books3”, który był częścią większej biblioteki „The Pile”, oficjalnie wykorzystanej przez Apple do szkolenia swoich modeli, w tym OpenELM. Problem w tym, że „Books3” był zbiorem znanym z tego, że zawierał około 186 tysięcy pirackich kopii książek, a dzieła powodów znajdowały się na liście tychże tytułów.

100 milionów miejsc pracy zagrożonych. Bernie Sanders proponuje „podatek od robotów”

W pozwie złożonym w piątek po południu czytamy, że Apple, korzystając z tego zbioru, w całości skopiowało chronione prawem autorskim prace i bezpośrednio naruszyło prawa ich oraz innych twórców. Co istotne, zbiór „Books3” został usunięty z publicznego dostępu w październiku 2023 roku właśnie z powodu masowego łamania praw autorskich, jednak zdążył już posłużyć jako „pożywka” dla wielu modeli AI. W tym, jak się okazuje, także Apple Intelligence.

Sprawa jest daleka od prostej i wpisuje się w szerszą, nierozstrzygniętą jeszcze debatę prawną dotyczącą tego, czy trenowanie AI na publicznie dostępnych, ale chronionych prawem danych, mieści się w ramach tzw. dozwolonego użytku („fair use”). Sądy w Stanach Zjednoczonych wydawały dotąd różne, często sprzeczne orzeczenia. Kluczowe dla autorów będzie udowodnienie, że Apple faktycznie wykorzystało ich konkretne książki w procesie treningowym, co może być trudne, gdyż firma nie ujawnia szczegółowej listy przetworzonych dokumentów.

Autorzy pozwu domagają się procesu z udziałem ławy przysięgłych, odszkodowania pieniężnego oraz sądowego zakazu dalszego wykorzystywania ich prac przez Apple. Jeśli naruszenie zostanie uznane za umyślne, amerykańskie prawo przewiduje kary sięgające nawet 150 000 dolarów za każde pojedyncze dzieło. Wyrok w tej sprawie może stać się ważnym precedensem dla całej branży technologicznej i zdefiniować na nowo zasady gry na rynku sztucznej inteligencji. O ile w ogóle kiedykolwiek zapadnie.

Kolejne trzęsienie ziemi w Apple? Firma ma aktywnie szukać następcy szefa od AI

#AI #Apple #AppleIntelligence #Books3 #fairUse #naukowcy #news #OpenELM #piractwo #pozew #prawaAutorskie #proces #sztucznaInteligencja #ThePile

Miguel Afonso Caetanoremixtures@tldr.nettime.org
2025-01-13

"The adoption of large language models (LLMs) in healthcare demands a careful analysis of their potential to spread false medical knowledge. Because LLMs ingest massive volumes of data from the open Internet during training, they are potentially exposed to unverified medical knowledge that may include deliberately planted misinformation. Here, we perform a threat assessment that simulates a data-poisoning attack against The Pile, a popular dataset used for LLM development. We find that replacement of just 0.001% of training tokens with medical misinformation results in harmful models more likely to propagate medical errors. Furthermore, we discover that corrupted models match the performance of their corruption-free counterparts on open-source benchmarks routinely used to evaluate medical LLMs. Using biomedical knowledge graphs to screen medical LLM outputs, we propose a harm mitigation strategy that captures 91.9% of harmful content (F1 = 85.7%). Our algorithm provides a unique method to validate stochastically generated LLM outputs against hard-coded relationships in knowledge graphs. In view of current calls for improved data provenance and transparent LLM development, we hope to raise awareness of emergent risks from LLMs trained indiscriminately on web-scraped data, particularly in healthcare where misinformation can potentially compromise patient safety."

nature.com/articles/s41591-024

#AI #GenerativeAI #LLMs #Healthcare #ThePile #Healthcare #AISafety #DataPoisoning #Misinformation #AITraining

2024-07-17

proofnews.org/youtube-ai-searc

Is your YouTube video/channel in "The Pile" used by the vast majority of companies to train AI? Find out in the link above.

#AI #Youtube #ThePile

2023-08-18

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst