I över än ett decennium har Common Crawl Foundation skrapat miljarder webbsidor för att bygga ett enormt arkiv. Detta görs fritt tillgängligt för forskare, men under de senaste åren har även AI-företag som OpenAI, Google, Anthropic, Nvidia, Meta och Amazon använt det för att träna stora språkmodeller. I praktiken har Common Crawl öppnat en bakdörr genom stora nyhetswebbplatsers betalväggar för AI-företag att träna sina modeller. Detta rapporterar The Atlantic.