#TrainingData

Michael Geike (@MichaelGeike)

Anthropic이 중국 AI 연구팀들을 상대로 Claude 출력물을 대규모로 수집해 경쟁 모델 학습에 사용했다며 혐의를 제기한 내용. 대상에는 deepseek_ai, Moonshot AI, MiniMax가 언급되며 수만 개의 가짜 계정·수백만 건의 상호작용이 사용됐다는 주장으로 데이터 수집·학습 윤리와 법적 문제를 제기함.

x.com/MichaelGeike/status/2027

#anthropic #dataprivacy #trainingdata #modeltheft #deepseek

Ansh Nanda (@anshnanda)

작성자는 Claude Code가 @theo의 YouTube 콘텐츠로 학습된 것처럼 느껴진다고 언급하며, 특히 AWS나 GCP 등 전통적인 클라우드 제공업체를 전혀 추천하지 않은 점이 가장 놀랍다고 평가함. 전반적으로 Claude Code의 추천 성향(클라우드 미추천)이 @theo 콘텐츠 영향으로 해석되는 관찰임.

x.com/anshnanda/status/2027121

#claude #ai #trainingdata #cloud

Richard R LeeInfoMgmtExec
2026-02-25

After selling out ALL US Citizens and Residents Confidential - Protected (via ), they are now going after the rest of the world. You are nothing more than to these . . in . @jim

Katherine Borgesdnakath@mastodon.scot
2026-02-25

My latest AI blog post - this one is on training data and bots. Pretty funny captcha by ChatGPT! #AI #DNA #ArtificialIntelligence #geneadons #CRAIGEN #privacy #trainingdata #genealogy gptfamilytree.blogspot.com/202

ITmedia AI+ (@itm_aiplus)

AI 학습 목적의 해적판(불법 복제물) 수집·활용이 저작권법 위반에 해당하는지에 대해 변호사 柿沼太一의 견해를 정리한 기사입니다. 학습 데이터로서의 해적판 처리 시 법적 위험과 판례·법 적용 가능성, 기업·연구자가 주의해야 할 점들을 다루고 있어 AI 데이터 수집·이용 정책에 중요한 시사점을 제공합니다.

x.com/itm_aiplus/status/202392

#copyright #ai #trainingdata #law #ethics

François Chollet (@fchollet)

비검증(non-verifiable) 도메인에서는 현재 AI 성능을 향상시키려면 더 많은 주석(annotated) 훈련 데이터를 큐레이션하는 방법뿐이며 이는 비용이 많이 들고 개선 효과는 로그적이라는 주장입니다. 또한 거의 모든 직무에 비검증 요소가 포함되어 있다는 점을 지적합니다. (데이터·학습 한계 관련 통찰)

x.com/fchollet/status/20196101

#trainingdata #annotation #aiperformance #dataset #ml

gtbarrygtbarry
2026-01-28

Even Starlink Wants Your Data for AI Model Training.

Starlink updated its privacy policy to say customer data can be used to train AI models, and subscribers appear to be opted in by default.

Also, the company might share personal information with third parties "for training artificial intelligence models, including for their own independent purposes,"

pcmag.com/news/starlink-wants-

Simon Willison (@simonw)

작성자는 이 게시물이 Richard Weiss가 11월에 유출한 'soul' 문서와 동일하며, 해당 문서가 감독 학습(supervised learning) 학습 데이터에서 유출된 사례라는 메모를 남겼다고 전합니다. 학습 데이터 유출과 관련된 문제 제기 및 추가 분석 노트가 포함된 내용입니다.

x.com/simonw/status/2014007427

#ai #trainingdata #dataleak #privacy

Chubby (@kimmonismus)

위키피디아가 메타, 마이크로소프트, 퍼플렉시티 등 주요 AI 기업에게 사람 검증된 깨끗한 트레이닝 데이터 접근권을 유료로 제공하기 시작했다는 소식입니다. 트레이닝 데이터 수요가 급증하면서 위키피디아가 데이터 접근을 수익화하고 있으며, 이는 AI 기업들과 데이터 공급자 간의 새로운 경제적 관계를 시사합니다.

x.com/kimmonismus/status/20126

#wikipedia #datamonetization #trainingdata #ai

NERDS.xyz – Real Tech News for Real Nerdsnerds.xyz@web.brid.gy
2026-01-15

Cloudflare buys Human Native to flip the script on AI

web.brid.gy/r/https://nerds.xy

eicker.news ᳇ tech newstechnews@eicker.news
2026-01-11

#LLMs like #OpenAI’s #GPT and #Google’s #Gemini #store portions of their #trainingdata, contradicting claims that they only learn #patterns. This “#memorisation” poses #legalrisks for AI companies, potentially leading to #copyrightinfringement lawsuits. The phenomenon also challenges the industry’s metaphor of #AI#learning” and highlights the need for accurate descriptions of how these models function. theatlantic.com/technology/202

Mark R Pommrehn (@MarkPommrehn)

Brian Roemmele이 'content slop' 문제를 해결하기 위해 1980년 이전의 고품질 원문 소스들을 편향을 줄인 학습 데이터로 축적하고 있다는 내용입니다. 이 트윗은 고품질·비편향 데이터 수집이라는 데이터 품질 개선 시도와 관련된 AI 데이터셋/데이터 준비 활동을 언급합니다.

x.com/MarkPommrehn/status/2008

#dataset #trainingdata #dataquality #ai

eicker.news ᳇ tech newstechnews@eicker.news
2026-01-04

#Anthropic is challenging the prevailing belief in Silicon Valley that scaling up #compute and #infrastructure is the only path to success. Instead, Anthropic is focussing on #algorithmicefficiency, #smarterdeployment, and higher quality #trainingdata to achieve powerful models with less resources. cnbc.com/2026/01/03/anthropic- #tech #media #news

2025-12-24

Thư viện mở Vionous cung cấp 5,7 triệu cặp Q&A trong 116 lĩnh vực, hỗ trợ đào tạo miễn phí với notebook Colab một click. #Vionous #LoRA #TrainingData #AI #TríTuệNhânTạo #DữLiệuĐàoTạo #Colab

reddit.com/r/LocalLLaMA/commen

2025-12-22

Joe Wilkins on embedded bias in training data

'Once an AI pathology tool had identified a person’s race, they became overly-obsessed with finding previous analyses that fit that particular identifier. But when the model was trained mostly on data from white people, the tools would struggle with those who aren’t as represented. The AI models had trouble distinguishing subclasses of lung cancer cells in Black people, for example — not because there was a lack of lung cancer data for them to draw from, but because there was lacking data from Black lung cancer cells to draw from'

#aiResearch #cancerResearch #racism #embeddedBias #trainingData #healthcare

futurism.com/health-medicine/a

2025-12-04

(01 Dec) OpenAI desperate to avoid explaining why it deleted pirated book datasets OpenAI risks increased fines after deleting pirated books datasets. https://s.faithcollapsing.com/165n9 #ai #chatgpt #copyright-infringement #online-piracy #openai #pirating-books #policy #training-data

An automated image pulled from the post - OpenAI desperate to avoid explaining why it deleted pirated book datasets
Ars Technica Newsarstechnica@c.im
2025-12-01

OpenAI desperate to avoid explaining why it deleted pirated book datasets arstechni.ca/gk5H #copyrightinfringement #piratingbooks #onlinepiracy #trainingdata #ChatGPT #Policy #openai #AI

Erik JonkerErikJonker
2025-11-24

I am wondering how easy it is for a bigtech company to collect all fediverse data for AI training? Are there signs that they are doing that? In my personal opinion it is fine dat AI models train on public posts but i was just wondering if it happens...

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst