PALO ALTO, Califórnia - O século 21 corre risco de se tornar um “buraco negro” sem informações a seu respeito. O alerta, soado em fevereiro, veio de fonte graduada: Vint Cerf, vice-presidente do Google e um dos pioneiros da internet. “Corremos o risco de perder muito da nossa história”, explicou o executivo, que lembrou que nossas fotos, e-mails, tweets e toda a World Wide Web, existem apenas em formato digital, correndo sério risco de não serem recuperáveis no futuro. “Se você quisesse ver o que estava na web em 1994, você teria problemas em conseguir”, comparou.
O cenário descrito por Cerf já acontece. Um estudo desenvolvido e apresentado no encontro pela Biblioteca Nacional Britânica, a partir de seu próprio arquivo web, mostrou que em 2013, 20% dos sites deixaram de existir e 30% tinham mudado de endereço, em relação ao ano anterior.
É essa a preocupação que norteou o Consórcio Internacional de Preservação da Internet, IIPC em inglês, realizado de 27 de abril a 1 de maio. O evento reuniu mais de 140 pessoas de aproximadamente 40 países na Universidade de Stanford, em Palo Alto, na Califórnia. Na pauta, a preservação da internet e de softwares.
Cerf também participou do encontro do IIPC. Em entrevista ao Estado, declarou que se sentia mais aliviado ao ver a quantidade de pessoas presentes no encontro discutindo o tema. Entre os projetos que merecem elogios, de acordo com Cerf, está o Olive Archive. Liderado pelo professor Mahadev Satyanarayanan, da Universidade de Carnegie Mellon, em Pittsburgh, a iniciativa conseguiu recuperar diversos softwares que hoje estão obsoletos, como Microsoft Office 6.0, de 1993, e o Netscape Navigator, de 1995. Para Cerf, quando a internet foi criada, não havia a preocupação de preservar o conteúdo, nem o design da rede permitia isso. O objetivo dos usuários era basicamente compartilhar.
As diversas experiências apresentadas no encontro do IIPC mostram que o arquivamento web vem ganhando força ao redor do mundo. Já são centenas de iniciativas feitas em instituições públicas, privadas e governos. O país que está mais a frente são os EUA, com mais de 250 arquivos web.
Varredura. Os arquivos web variam de tamanho e propósito. Os maiores são os governamentais, que capturam todo o conteúdo gerado no país a partir da lista de domínios da internet. Em alguns países, a preservação digital está prevista em lei. É o caso da França, que estendeu o chamado “depósito legal” para o conteúdo digital, determinando assim que a Biblioteca Nacional da França tenha uma cópia de tudo que for produzido online no território francês.
Na outra ponta, existem os arquivos locais e específicos, que podem ser encontrados em muitas bibliotecas e instituições de ensino que organizam coleções sobre assuntos. Um exemplo é o da biblioteca de Columbia de Nova York, que tem uma biblioteca de sites sobre a evolução urbanística da cidade e sobre direitos humanos.
O processo de captura do conteúdo a ser preservado é totalmente automático, feito por softwares. O mais usado é o Heritrix, de código aberto e desenvolvido por uma das maiores organizações não governamentais de preservação digital, o Internet Archive. Esse tipo de ferramenta realiza uma varredura na rede conforme especificações previamente estabelecidas, como por exemplo, a busca por domínio. Essa operação é conhecida como “crawler”, e é basicamente o que fazem os buscadores como o Google. Em seguida, é feita a coleta dos sites escolhidos. Nesse processo pode entrar também o trabalho do curador responsável pela seleção do que deve ser capturado e arquivado, como acontece no caso da biblioteca de Columbia.
Nos casos em que a criação de uma estrutura para o arquivo web não é viável, é possível contratar o serviço do Archive It. Com o software, também desenvolvido pelo norte-americano Internet Archive, a instituição pode criar coleções, determinar o que vai ser coletado e gerenciar o conteúdo.
O Internet Archive é pioneiro na preservação web. Começou em 1996, e hoje já tem arquivado mais de 450 bilhões de páginas.
Big data. Além dos arquivos web preservarem a memória digital e contarem a história da internet, eles já estão mostrando uma outra virtude: produzir novas informações. A partir dos dados armazenados, será possível entender a própria dinâmica da internet. É o que propõe, por exemplo, Niels Brügger, da Universidade de Aarhurs, da Dinamarca. Seu projeto, já em andamento, é fazer um raio x da web dinamarquesa. No decorrer do tempo, com análise dos sites arquivados será possível saber as características da web através do tamanho dos sites, onde estão localizados no território, quais são as principais fontes tipográficas, cores utilizadas e outras características.
O Brasil ainda está fora dessa nova realidade. Sem uma política oficial de preservação, muitos de seus antigos sites sobrevivem graças ao Internet Archive. Daniel Gomes, do Arquivo da Web Portuguesa, fez uma estimativa do tamanho da web brasileira, caso fosse arquivada. Levando em consideração que o conteúdo nacional é cinco vezes maior do que o português, que cresce a 10 terabytes por ano, a brasileira teria na sua primeira coleta 50 terabytes.
ARQUIVOS DA WEB
História da arte
Quatro bibliotecas de museus de arte de Nova York, entre elas a do Museu de Arte Moderna (MoMA) se juntaram para criar um arquivo web que reúne coleções de sites sobre a história da arte e sobre artistas individuais. Atualmente, o projeto já contabiliza mais de 1 milhão de páginas web preservadas.
11 de setembro
O 9/11 Memorial, instituição dedicada a preservar a história dos atentados às torres do World Trade Center (WTC), criou uma coleção para acompanhar a repercussão do assunto na internet. Embora recente, muito da cobertura online do episódio se perdeu, inclusive material gerado por sites brasileiros.
Em Portugal
Mantido pela Fundação para a Computação Científica Nacional, órgão do governo, o Arquivo Português traz mais de 120 milhões de páginas pesquisáveis. É possível encontrar inclusive algumas do Brasil. Um de seus destaques é o site do escritor José Saramago, de 1997. É possível sugerir sites para preservação.
Coreia do Norte
Não se sabe se o país mais fechado do mundo preserva a sua internet. Por via das dúvidas, a Biblioteca da Austrália, começou uma coleção em 2014 que acompanha as mudanças no site do governo da Coreia do Norte. A entidade também preserva sites de Mianmar, Camboja e Timor Leste.
Leia mais:
> Estamos esperando um telefonema do Brasil, diz o presidente do IIPC
> Arquivos web já produzem dados sobre a internet
> ‘Internet não foi feita para guardar, mas isso está mudando’, diz vice do Google no IIPC
> Chile é o único na América do Sul a preservar a web
> Quem arquivará a internet para as futuras gerações?
Nota dos editores em 11 de abril de 2024: Essa notícia é um exemplo de questões da preservação da web. Assim como outros conteúdos desse site, a reportagem original sofreu desformatações em sucessivas mudanças do desenho do portal Estadao.com.br, migrações de servidores e mudanças do endereço da URL desde 4 de maio de 2015, quando foi publicada pelo acervo.estadao.com.br.
Vários elementos, como a imagem inicial, links para outras reportagens da mesma cobertura e quebra de parágrafos, tiveram que ser restaurados. Algumas das reportagens adicionais linkadas também se perderam e precisaram ser ressuscitadas num trabalho de arqueologia e de restauração digital.
Procuramos preservar ao máximo a estrutura e formatação original do conteúdo, mas - com a citação dessa reportagem no prefácio escrito pelo Professor Dr. Niels Brügger, da Universidade Aarhus, da Dinamarca, para o livro Arquivamento da Web e Preservação Digital, de Moisés Rockembach e Caterina Groposo Pavão - optamos por incluir alguns outros links de referência à preservação digital, de modo a ampliar, a partir deste texto, o alcance do assunto para pesquisadores e interessados na preservação da internet.
[conteúdo em restauro]
# Assine |# Licenciamento de conteúdos Estadão |
# Siga: twitter@estadaoacervo | facebook/arquivoestadao | Instagram |
Os comentários são exclusivos para assinantes do Estadão.