Por dentro do Wayback Machine, a cápsula do tempo da internet

Clique e compartilhe

O Internet Archive está apoiando vastas áreas da web – e lidando com questões éticas, políticas e legais ao longo do caminho.

Na 300 Funston Street, no bairro de Richmond, em São Francisco, há uma antiga igreja da Ciência Cristã. Ao subir os degraus palacianos, passar por colunas e urnas coríntias, entrar nas entranhas de um santuário abobadado – você encontrará uma cópia da internet.

Em um quarto nos fundos, onde os pastores reuniam-se uma vez, havia filas de servidores de computador, piscando em massa com a luz azul, cantarolando o hinário de graça tecnológica.

Esta é a casa do Internet Archive, uma organização sem fins lucrativos que, há 22 anos, preserva nossa história on-line: bilhões de páginas da Web, tweets, artigos de notícias, vídeos e memes.

Não é uma tarefa para os fracos. A internet é um lugar enorme e etéreo em constante estado de apodrecimento. Ele abriga 1.8B páginas web (644m das quais estão ativas), e dobra de tamanho a cada 2-5 anos – ainda assim, a página web média dura apenas 100 dias, e a maioria dos artigos são esquecidos 5 minutos após a publicação.

Sem backup, esses itens são perdidos no tempo. Mas arquivar tudo vem com responsabilidades consideráveis: o que você escolhe preservar? Como você preserva isso? E, finalmente, por que tudo isso importa?

Alexandria 2.0

Em meados dos anos 90, Brewster Kahle consolidou-se como um empreendedor de sucesso.

Depois de estudar inteligência artificial no MIT, ele lançou uma empresa de supercomputadores, a primeira plataforma de publicação on-line do mundo, WAIS (vendida para a AOL por US $ 15 milhões), e lançou a Alexa Internet, uma empresa que “rastreou” a Web e compilou informações para a Amazon por US $ 250 milhões).

Em 1996, ele começou a usar seu software para “fazer backup” da internet em seu sótão.

Seu projeto, apelidado de Arquivo da Internet, procurava conceder ao público “acesso universal a todo conhecimento” e “uma” à Biblioteca de Alexandria, outrora a maior e mais significativa biblioteca do mundo antigo.

Ao longo de 6 anos, ele arquivou em particular mais de 10 páginas da web – desde hubs GeoCities até críticas de filmes do Titanic. Então, em 2001, ele estreou o Wayback Machine, uma ferramenta que permitia ao público filtrar tudo.

Wayyyyy back …

Hoje, o Wayback Machine hospeda algumas páginas da web 388B e seu pai, o Internet Archive, é a maior biblioteca do mundo.

A coleção do Internet Archive, que abrange não apenas a web, mas também livros, registros de áudio 78rpm, vídeos, imagens e software, equivale a mais de 40 petabytes ou 40 milhões de gigabytes de dados. A Wayback Machine representa cerca de 63% disso.

Quanto é isto? Imagine 80 milhões de armários de 4 gavetas cheios de papel. Ou, um pouco menos do que toda a obra escrita pela humanidade (em todas as línguas) desde o início da história registrada até os dias atuais.

Em comparação, a Biblioteca do Congresso dos EUA contém aproximadamente 28 terabytes de texto – menos de 0,1% do armazenamento do Internet Archive.

Em qualquer dada semana, o Internet Archive tem 7k bots rastreando a internet, fazendo cópias de milhões de páginas da web. Essas cópias, chamadas de “snapshots”, são salvas em freqüências variadas (às vezes, várias vezes por dia; outras vezes, uma vez em meses) e preservam um site em um momento específico no tempo.

Tomemos, por exemplo, o canal de notícias CNN. Você pode inserir o URL do site (www.cnn.com) na Wayback Machine e visualizar mais de 207k snapshots alcançando um período de 18 anos. Clique no snapshot de 21 de junho de 2000 e você verá exatamente como era a página principal – incluindo uma história sobre o presidente Bill Clinton e uma análise do novo Palm Pilot.

Toda semana, 500 milhões de novas páginas são adicionadas ao arquivo, incluindo 20 milhões de URLs da Wikipédia, 20 milhões de tweets (e todos os URLs mencionados nesses tweets), links de 20 milhões de WordPress e mais de 100 milhões de artigos de notícias.

A execução dessa operação exige um grande conjunto de recursos técnicos, desenvolvimento de software, máquinas, largura de banda, discos rígidos, infraestrutura operacional e dinheiro (que são obtidos de doações e doações, bem como do serviço de arquivamento de assinaturas, Archive-It).

Também requer um pensamento profundo sobre a epistemologia e a ética de como registramos a história.

A política de preservação

Uma das maiores questões no arquivamento de qualquer meio é o que o curador escolhe incluir.

A internet possui uma visão utópica de inclusão – uma ampla gama de pontos de vista de uma gama diversificada de vozes. Mas a curadoria geralmente reduz essa visão. Por exemplo, 80% dos colaboradores da Wikipedia (a “enciclopédia de escolha” da internet) são homens e as minorias estão sub-representadas.

Muito parecido com o mundo dos livros didáticos tradicionais, isso influencia a informação que consumimos.

“Fazemos backup de muita da Web, mas não de tudo”, disse Mark Graham, diretor da Wayback Machine, durante uma recente visita ao escritório da Internet Archive em São Francisco. “Tentando priorizar o que apoiamos é um esforço contínuo – tanto em termos de identificar o que a Internet é, e quais partes são mais úteis.”

A internet é simplesmente muito grande para ser totalmente capturada: ela cresce a uma taxa de 70 terabytes – ou cerca de 9 dos discos rígidos dos Arquivos da Internet – por segundo. O formato muda constantemente (o Flash, por exemplo, ficará obsoleto). Uma grande parte dele, incluindo email e a nuvem, também é privada. Então, o Wayback Machine deve priorizar.

Embora a Wayback Machine permita que o público arquive seus próprios URLs usando o recurso “Salvar página agora” do site, a maior parte do arquivo do site vem de um grupo de bots, programados por engenheiros para rastrear sites específicos.

“Alguns desses rastreamentos ocorrem durante meses e envolvem bilhões de URLs”, diz Graham. “Alguns correm por 5 minutos.”

Quando o Wayback Machine percorre um crawl, o humano por trás do bot deve decidir onde ele começa e quão profundo ele vai. A equipe se refere à profundidade como “saltos”: um salto arquiva apenas uma URL e todos os links nela; dois hops coletam a URL, seus links e todos os links nesses links, e assim por diante.

Como exatamente esses sites são selecionados é “complicados”. Certos bots são dedicados exclusivamente aos 700 sites com maior tráfego (YouTube, WIkipedia, Reddit, Twitter, etc.); outros são mais especializados.

“As coisas mais interessantes de uma perspectiva arquivística são todas as páginas públicas de todos os governos no mundo, ONGs no mundo e organizações de notícias no mundo”, diz Graham. Ter acesso a essas listas é difícil, mas sua equipe trabalha com mais de 600 “especialistas em domínio” e parceiros em todo o mundo que executam seus próprios rastreamentos.

Desde o início, a Wayback Machine permitiu que os proprietários de sites optassem por não serem arquivados, incluindo o “robots.txt” no código. Ele também concedeu solicitações por escrito para remover sites do arquivo.

Mas esse ethos mudou nos últimos anos – e é indicativo de uma mudança ideológica maior na missão do site.

Logo após a eleição de Trump, em novembro de 2016, Brewster Kahle, o fundador do site, anunciou a intenção de criar uma cópia do arquivo no Canadá, longe do alcance do governo dos EUA.

“No dia 9 de novembro, na América, acordamos com uma nova administração prometendo mudanças radicais”, escreveu ele. “Foi um lembrete firme de que instituições como a nossa… precisam projetar mudanças. Para nós, isso significa manter nossos materiais culturais seguros, privados e perpetuamente acessíveis ”.

De acordo com fontes anônimas, a Wayback Machine tornou-se mais seletiva em aceitar solicitações de omissão.

Em uma era “pós-fato”, onde notícias falsas são desenfreadas e verdades básicas são aberta e descaradamente disputadas, a Wayback Machine está trabalhando para preservar um registro verificável e não editado da história – sem obstrução.

“Se permitirmos que aqueles que controlam o presente controlem o passado, eles controlam o futuro”, disse Kahle a Recode. “Jornais inteiros desaparecem. Os países piscam de vez em quando. Se quisermos saber o que aconteceu há 10 anos, 20 anos atrás, [a internet] costuma ser o único registro ”.

No santuário do Internet Archive, os bancos estão repletos de estátuas de funcionários de longa data – os tecno-santos que fizeram uma cruzada de graça, com acesso aberto ao conhecimento.

Acima deles, alojados em um par de arcos góticos, 6 servidores ficam de guarda.

As máquinas de US $ 60.000 são compostas de 10 computadores por peça, com 36 drives de 8 terabytes. Cada peça de hardware contém um universo de tesouros: posts de 20 anos de idade, antigas palestras do TED, volumes esquecidos pelo tempo.

Quando alguém, em algum lugar do mundo, está lendo uma informação ou olhando para uma página da Web arquivada, uma pequena luz azul é emitida no servidor.

Parado lá, observando os sinais galácticos iluminarem as prateleiras, você não pode deixar de sentir que está vendo uma aparição: a web é efêmera. Apodrece, morre e 404s. Mas está vivo mesmo na morte – e permanecerá por muito tempo depois de termos desaparecido.

Por ZACHARY CROCKETT Via The Hustle

Traduzido por Salma Saad

Comentários

Newsletter

Se inscreva em nossa newsletter e acompanhe as novidades do Startup Show e do mundo da tecnologia!

Nossas redes sociais

Fique por dentro das novidades do Startup Show também através das redes sociais!

Advertisement