Pelo menos 23 grandes sites de notícias restringem o acesso de robôs do Internet Archive, afetando a Wayback Machine, ferramenta de arquivamento de páginas web. A decisão, observada desde o início de 2026, compromete a possibilidade de consultar versões anteriores de páginas online.
A ferramenta Wayback Machine, que registra versões antigas de páginas da internet, está sendo afetada. O grupo USA Today Co., com mais de 200 veículos, está entre os que restringem o acesso.
Restrições de acesso
As restrições variam em intensidade. O New York Times impede completamente o acesso, enquanto o The Guardian permite o rastreamento, mas restringe o acesso público ao conteúdo.
No Brasil, os sites dos grupos Globo, Folha de São Paulo, Estado de São Paulo, Correio de Pernambuco e Zero Hora não impõem restrições ao arquivamento no robots.txt, embora muitos não permitam a raspagem por agentes de IA.
Empresas alegam violação de direitos autorais e uso das páginas arquivadas para treinar IAs. Mais de 100 jornalistas assinaram uma carta em defesa do Internet Archive, alertando sobre o risco de desaparecimento de registros digitais.
Em janeiro de 2026, um levantamento do Nieman Lab, da Universidade Harvard, apontou o crescimento das limitações ao arquivamento.
O avanço dessas restrições tem efeito sobre a transparência da informação, pois a consulta a versões anteriores é uma forma de rastrear alterações.
A decisão de restringir o acesso à Wayback Machine está relacionada ao uso de material arquivado para treinar modelos de linguagem. O New York Times exige acordos com empresas de tecnologia.
A restrição ao registro de páginas pode causar danos históricos.


