Quem arquivará a internet para as futuras gerações?


Brasil não preserva sua web, enquanto alguns países avançam no arquivamento digital

Por Carlos Eduardo Entini
Atualização:

Atestado de nascimento do Brasil, a carta de Pero Vaz de Caminha ao rei de Portugal foi preservada durante mais de 500 anos em lugares diferentes. Atualmente arquivada na Torre do Tombo, sede do Arquivo Nacional de Portugal, a carta de 1.500 está acessível digitalmente a qualquer interessado, em qualquer lugar do mundo. Cinco séculos depois, numa era onde tudo se converge para a internet, qual a garantia que os conteúdos produzidos originalmente em formato digital estarão disponíveis para as gerações futuras? No momento, nenhuma.

Com 20 anos de internet, o Brasil ainda não conta com nenhuma instituição, legislação, diretrizou esforço que garanta que conteúdos produzidos na web sejam vistos como patrimônio cultural e, assim, coletados, catalogados e armazenados. Símbolo da relevância digital deste começo de século 21, a memória das recentes manifestações de junho, paradoxalmente, só está garantida nos formatos impressos.

Para se consultar o conteúdo web francês arquivado é necessário ir presencialmente às bibliotecas e arquivos.  Foto: BNF - Biblioteca Nacional da França
continua após a publicidade

Pela natureza efêmera da internet, sites desaparecem ou são atualizados frequentemente. O apagão da memória da internet já pode ser sentido. Dificilmente seria possível contar a história e analisar as eleições presidenciais a partir dos sites dos candidatos. Desde 1998, já se foram quatro eleições presidenciais com a presença da internet e nada foi coletado e sistematizado.

O problema não é só do Brasil. Poucos países têm política ou instituições voltadas para o arquivamento web. Algumas iniciativas tem sido tomadas para minimizar o apagão. A mais antiga delas é o Internet Archive, de 1996. Através do Waybackmachine a instituição tem armazenado 347 bilhões de URLs de cerca de 40 países, inclusive o Brasil com 2,5 bilhões de capturas. No fim de 2012, o conteúdo total representava 10 petabytes, informa Kristine Hanna, diretora do Internet Archive, em entrevista ao Estadão Acervo.

Em 1996, foi a vez da Austrália coletar o conteúdo produzido e que fazia referência ao país. O exemplo foi seguido pela Suécia, no ano seguinte. Hoje, as instituições pioneiras estão reunidas no Consórcio Internacional de Preservação da Internet, (IIPC na sigla em inglês). Fundado em 2003, o IIPC é uma organização virtual, colaborativa, descentralizada, como a internet.

continua após a publicidade

Como informa o site, ele atua na construção de tecnologias e conhecimento para o novo desafio de armazenar sistematicamente o mar de informações produzidos na web. O Consórcio reúne cerca de 40 instituições (bibliotecas, arquivos, Internet Archive) de 30 países - nenhum da América Latina.

A sua missão é coletar, preservar e tornar acessível o conteúdo da internet para as futuras gerações. A quantidade enorme de sites arquivados, e o tempo que o Waybackmachine tem atuado, pode causar uma sensação de conforto. Mas o projeto do Internet Archive tem suas limitações e não é possível depositar nele a memória da rede.

O critério de armazenamento são os sites mais populares, e por questões de direitos autorais dos EUA, o Waybackmachine só existe porque é uma organização sem fins lucrativos. As leis de copyright americanas não permitem o armazenamento de conteúdo, mesmo o da internet. Se o IIPC tem o objetivo comum preservar a web e desenvolver ferramentas comuns, cada membro tem atuado de maneira distinta.

continua após a publicidade

Em contraposição ao modelo americano, a França foi o primeiro país a tratar o arquivamento web como questão de Estado e o conteúdo da internet como patrimônio cultural.

Coleção web sobre a Guerra do Iraque arquivada da Biblioteca do Congresso dos Estados Unidos.  Foto: Biblioteca do Congresso dos Estados Unidos

Utilizando a figura jurídica do depósito legal, na qual todo produtor de conteúdo cultural (livro, jornal, disco, CD, DVD, software etc) deve entregar uma cópia à Biblioteca Nacional Francesa, em 2006 também foi incluído na lei a internet francesa. Outros países seguiram o exemplo, entre eles Dinamarca e Espanha.

continua após a publicidade

O Depósito Legal foi instituído na França em 1537 pelo rei Francisco I (1494-1547) como resposta a outra revolução que foi o surgimento da prensa. Da mesma maneira que acontece hoje com a internet, a prensa derramou uma quantidade enorme de documentos. E para guardar a memória e saber tudo o que se publicava, a Biblioteca Real - hoje Biblioteca Nacional Francesa - devia ter um exemplar de cada impresso produzido no reino.

No Brasil o depósito legal existe desde 1825, mas o envio da produção digital não se adaptou aos novos tempos, “vale observar que a legislação disciplina que tudo que seja publicado no país deva ser enviado à Biblioteca, não especificando o suporte; portanto, em tese, deveríamos receber tudo o que é produzido digitalmente também”, informa por e-mail, Luciana Grings, da Biblioteca Nacional. “A grande dificuldade tem sido adaptar o depósito de material digital ao fato de que a lei não está regulamentada e que ainda não temos a capacidade de armazenamento que esta ação demanda”, completa a bibliotecária.

Com a adaptação da lei francesa, todo o domínio ‘.fr’ e tudo o que se produz sobre a França por força da lei deve ser coletado e armazenado. E a Biblioteca Nacional Francesa, depositária legal do conteúdo produzido no pais, é a responsável pela coleta e arquivamento do conteúdo web. Mesmo sem a obrigação legal, desde 2002 a BnF vem arquivando sua web. Hoje, são 20 bilhões de URLs ocupando 370 Terabytes.

continua após a publicidade

Direitos autorais. Assim como no caso de outras mídias, o depósito legal não significa a supressão dos direitos autorais. Daí um paradoxo: para se consultar o conteúdo web francês é necessário ir à BnF. Em breve, “os arquivos departamentais de Cayenne, capital da Guiana Francesa, também darão acesso. Portanto os arquivos da web francesa estarão justamente ao lado do Brasil”, brinca Clément Oury, chefe do Depósito Legal Digital da BnF em entrevista ao Estadão Acervo.

Coleta e análise. Além da coleta por domínio, por exemplo ‘.fr’, ‘.br’, ou por mais populares como é feito pelo Waybackmachine, muitas instituições adotaram o arquivamento por assunto. A criação de ‘coleções’, como também é conhecido o processo, nada mais é aquilo os arquivos sempre fizeram quando criam pastas, seja de assuntos ou personalidades.

Na França, a seleção de conteúdo é descentralizada. Cada biblioteca regional pode indicar um assunto que considera relevante para que a BnF faça a captura. Os responsáveis pela aquisição de livros na BnF também são outros profissionais que indicam quais assuntos devem ser arquivados.

continua após a publicidade

Massa de dados. Ainda segundo Oury, que também é tesoureiro do IIPC, os desafios de hoje no arquivamento web é indexar a massa de informação. Atualmente é nem tudo é possível pesquisar por palavras-chave. Em quase todas as instituições que disponibilizam pesquisa on-line é necessário entrar com o endereço. No caso das coleções frequentemente as páginas são indexadas por assunto, autor ou fonte.

É o caso das diversas coleções da Biblioteca do Congresso dos EUA. Quando existe indexação surge uma nova possibilidade de pesquisa, “o pesquisador que trabalha com web não quer apenas achar sites antigos para ler, ele quer também a possibilidade de fazer uma cartografia dos sites. Por exemplo, ele quer analisar vários sites de política saber qual deles tem ligações com outros sites de política”, explica Oury.

*Colaborou Liz Batista

Leia mais sobre arquivamento web:

>> Pesquisador da web não quer só ver sites antigos

>> Internet Archive guarda 347 bilhões de links

Siga: twitter@estadaoacervo | facebook/arquivoestadao | Instagram | # Assine

Atualizado em 2/9, às 16h04.

Atestado de nascimento do Brasil, a carta de Pero Vaz de Caminha ao rei de Portugal foi preservada durante mais de 500 anos em lugares diferentes. Atualmente arquivada na Torre do Tombo, sede do Arquivo Nacional de Portugal, a carta de 1.500 está acessível digitalmente a qualquer interessado, em qualquer lugar do mundo. Cinco séculos depois, numa era onde tudo se converge para a internet, qual a garantia que os conteúdos produzidos originalmente em formato digital estarão disponíveis para as gerações futuras? No momento, nenhuma.

Com 20 anos de internet, o Brasil ainda não conta com nenhuma instituição, legislação, diretrizou esforço que garanta que conteúdos produzidos na web sejam vistos como patrimônio cultural e, assim, coletados, catalogados e armazenados. Símbolo da relevância digital deste começo de século 21, a memória das recentes manifestações de junho, paradoxalmente, só está garantida nos formatos impressos.

Para se consultar o conteúdo web francês arquivado é necessário ir presencialmente às bibliotecas e arquivos.  Foto: BNF - Biblioteca Nacional da França

Pela natureza efêmera da internet, sites desaparecem ou são atualizados frequentemente. O apagão da memória da internet já pode ser sentido. Dificilmente seria possível contar a história e analisar as eleições presidenciais a partir dos sites dos candidatos. Desde 1998, já se foram quatro eleições presidenciais com a presença da internet e nada foi coletado e sistematizado.

O problema não é só do Brasil. Poucos países têm política ou instituições voltadas para o arquivamento web. Algumas iniciativas tem sido tomadas para minimizar o apagão. A mais antiga delas é o Internet Archive, de 1996. Através do Waybackmachine a instituição tem armazenado 347 bilhões de URLs de cerca de 40 países, inclusive o Brasil com 2,5 bilhões de capturas. No fim de 2012, o conteúdo total representava 10 petabytes, informa Kristine Hanna, diretora do Internet Archive, em entrevista ao Estadão Acervo.

Em 1996, foi a vez da Austrália coletar o conteúdo produzido e que fazia referência ao país. O exemplo foi seguido pela Suécia, no ano seguinte. Hoje, as instituições pioneiras estão reunidas no Consórcio Internacional de Preservação da Internet, (IIPC na sigla em inglês). Fundado em 2003, o IIPC é uma organização virtual, colaborativa, descentralizada, como a internet.

Como informa o site, ele atua na construção de tecnologias e conhecimento para o novo desafio de armazenar sistematicamente o mar de informações produzidos na web. O Consórcio reúne cerca de 40 instituições (bibliotecas, arquivos, Internet Archive) de 30 países - nenhum da América Latina.

A sua missão é coletar, preservar e tornar acessível o conteúdo da internet para as futuras gerações. A quantidade enorme de sites arquivados, e o tempo que o Waybackmachine tem atuado, pode causar uma sensação de conforto. Mas o projeto do Internet Archive tem suas limitações e não é possível depositar nele a memória da rede.

O critério de armazenamento são os sites mais populares, e por questões de direitos autorais dos EUA, o Waybackmachine só existe porque é uma organização sem fins lucrativos. As leis de copyright americanas não permitem o armazenamento de conteúdo, mesmo o da internet. Se o IIPC tem o objetivo comum preservar a web e desenvolver ferramentas comuns, cada membro tem atuado de maneira distinta.

Em contraposição ao modelo americano, a França foi o primeiro país a tratar o arquivamento web como questão de Estado e o conteúdo da internet como patrimônio cultural.

Coleção web sobre a Guerra do Iraque arquivada da Biblioteca do Congresso dos Estados Unidos.  Foto: Biblioteca do Congresso dos Estados Unidos

Utilizando a figura jurídica do depósito legal, na qual todo produtor de conteúdo cultural (livro, jornal, disco, CD, DVD, software etc) deve entregar uma cópia à Biblioteca Nacional Francesa, em 2006 também foi incluído na lei a internet francesa. Outros países seguiram o exemplo, entre eles Dinamarca e Espanha.

O Depósito Legal foi instituído na França em 1537 pelo rei Francisco I (1494-1547) como resposta a outra revolução que foi o surgimento da prensa. Da mesma maneira que acontece hoje com a internet, a prensa derramou uma quantidade enorme de documentos. E para guardar a memória e saber tudo o que se publicava, a Biblioteca Real - hoje Biblioteca Nacional Francesa - devia ter um exemplar de cada impresso produzido no reino.

No Brasil o depósito legal existe desde 1825, mas o envio da produção digital não se adaptou aos novos tempos, “vale observar que a legislação disciplina que tudo que seja publicado no país deva ser enviado à Biblioteca, não especificando o suporte; portanto, em tese, deveríamos receber tudo o que é produzido digitalmente também”, informa por e-mail, Luciana Grings, da Biblioteca Nacional. “A grande dificuldade tem sido adaptar o depósito de material digital ao fato de que a lei não está regulamentada e que ainda não temos a capacidade de armazenamento que esta ação demanda”, completa a bibliotecária.

Com a adaptação da lei francesa, todo o domínio ‘.fr’ e tudo o que se produz sobre a França por força da lei deve ser coletado e armazenado. E a Biblioteca Nacional Francesa, depositária legal do conteúdo produzido no pais, é a responsável pela coleta e arquivamento do conteúdo web. Mesmo sem a obrigação legal, desde 2002 a BnF vem arquivando sua web. Hoje, são 20 bilhões de URLs ocupando 370 Terabytes.

Direitos autorais. Assim como no caso de outras mídias, o depósito legal não significa a supressão dos direitos autorais. Daí um paradoxo: para se consultar o conteúdo web francês é necessário ir à BnF. Em breve, “os arquivos departamentais de Cayenne, capital da Guiana Francesa, também darão acesso. Portanto os arquivos da web francesa estarão justamente ao lado do Brasil”, brinca Clément Oury, chefe do Depósito Legal Digital da BnF em entrevista ao Estadão Acervo.

Coleta e análise. Além da coleta por domínio, por exemplo ‘.fr’, ‘.br’, ou por mais populares como é feito pelo Waybackmachine, muitas instituições adotaram o arquivamento por assunto. A criação de ‘coleções’, como também é conhecido o processo, nada mais é aquilo os arquivos sempre fizeram quando criam pastas, seja de assuntos ou personalidades.

Na França, a seleção de conteúdo é descentralizada. Cada biblioteca regional pode indicar um assunto que considera relevante para que a BnF faça a captura. Os responsáveis pela aquisição de livros na BnF também são outros profissionais que indicam quais assuntos devem ser arquivados.

Massa de dados. Ainda segundo Oury, que também é tesoureiro do IIPC, os desafios de hoje no arquivamento web é indexar a massa de informação. Atualmente é nem tudo é possível pesquisar por palavras-chave. Em quase todas as instituições que disponibilizam pesquisa on-line é necessário entrar com o endereço. No caso das coleções frequentemente as páginas são indexadas por assunto, autor ou fonte.

É o caso das diversas coleções da Biblioteca do Congresso dos EUA. Quando existe indexação surge uma nova possibilidade de pesquisa, “o pesquisador que trabalha com web não quer apenas achar sites antigos para ler, ele quer também a possibilidade de fazer uma cartografia dos sites. Por exemplo, ele quer analisar vários sites de política saber qual deles tem ligações com outros sites de política”, explica Oury.

*Colaborou Liz Batista

Leia mais sobre arquivamento web:

>> Pesquisador da web não quer só ver sites antigos

>> Internet Archive guarda 347 bilhões de links

Siga: twitter@estadaoacervo | facebook/arquivoestadao | Instagram | # Assine

Atualizado em 2/9, às 16h04.

Atestado de nascimento do Brasil, a carta de Pero Vaz de Caminha ao rei de Portugal foi preservada durante mais de 500 anos em lugares diferentes. Atualmente arquivada na Torre do Tombo, sede do Arquivo Nacional de Portugal, a carta de 1.500 está acessível digitalmente a qualquer interessado, em qualquer lugar do mundo. Cinco séculos depois, numa era onde tudo se converge para a internet, qual a garantia que os conteúdos produzidos originalmente em formato digital estarão disponíveis para as gerações futuras? No momento, nenhuma.

Com 20 anos de internet, o Brasil ainda não conta com nenhuma instituição, legislação, diretrizou esforço que garanta que conteúdos produzidos na web sejam vistos como patrimônio cultural e, assim, coletados, catalogados e armazenados. Símbolo da relevância digital deste começo de século 21, a memória das recentes manifestações de junho, paradoxalmente, só está garantida nos formatos impressos.

Para se consultar o conteúdo web francês arquivado é necessário ir presencialmente às bibliotecas e arquivos.  Foto: BNF - Biblioteca Nacional da França

Pela natureza efêmera da internet, sites desaparecem ou são atualizados frequentemente. O apagão da memória da internet já pode ser sentido. Dificilmente seria possível contar a história e analisar as eleições presidenciais a partir dos sites dos candidatos. Desde 1998, já se foram quatro eleições presidenciais com a presença da internet e nada foi coletado e sistematizado.

O problema não é só do Brasil. Poucos países têm política ou instituições voltadas para o arquivamento web. Algumas iniciativas tem sido tomadas para minimizar o apagão. A mais antiga delas é o Internet Archive, de 1996. Através do Waybackmachine a instituição tem armazenado 347 bilhões de URLs de cerca de 40 países, inclusive o Brasil com 2,5 bilhões de capturas. No fim de 2012, o conteúdo total representava 10 petabytes, informa Kristine Hanna, diretora do Internet Archive, em entrevista ao Estadão Acervo.

Em 1996, foi a vez da Austrália coletar o conteúdo produzido e que fazia referência ao país. O exemplo foi seguido pela Suécia, no ano seguinte. Hoje, as instituições pioneiras estão reunidas no Consórcio Internacional de Preservação da Internet, (IIPC na sigla em inglês). Fundado em 2003, o IIPC é uma organização virtual, colaborativa, descentralizada, como a internet.

Como informa o site, ele atua na construção de tecnologias e conhecimento para o novo desafio de armazenar sistematicamente o mar de informações produzidos na web. O Consórcio reúne cerca de 40 instituições (bibliotecas, arquivos, Internet Archive) de 30 países - nenhum da América Latina.

A sua missão é coletar, preservar e tornar acessível o conteúdo da internet para as futuras gerações. A quantidade enorme de sites arquivados, e o tempo que o Waybackmachine tem atuado, pode causar uma sensação de conforto. Mas o projeto do Internet Archive tem suas limitações e não é possível depositar nele a memória da rede.

O critério de armazenamento são os sites mais populares, e por questões de direitos autorais dos EUA, o Waybackmachine só existe porque é uma organização sem fins lucrativos. As leis de copyright americanas não permitem o armazenamento de conteúdo, mesmo o da internet. Se o IIPC tem o objetivo comum preservar a web e desenvolver ferramentas comuns, cada membro tem atuado de maneira distinta.

Em contraposição ao modelo americano, a França foi o primeiro país a tratar o arquivamento web como questão de Estado e o conteúdo da internet como patrimônio cultural.

Coleção web sobre a Guerra do Iraque arquivada da Biblioteca do Congresso dos Estados Unidos.  Foto: Biblioteca do Congresso dos Estados Unidos

Utilizando a figura jurídica do depósito legal, na qual todo produtor de conteúdo cultural (livro, jornal, disco, CD, DVD, software etc) deve entregar uma cópia à Biblioteca Nacional Francesa, em 2006 também foi incluído na lei a internet francesa. Outros países seguiram o exemplo, entre eles Dinamarca e Espanha.

O Depósito Legal foi instituído na França em 1537 pelo rei Francisco I (1494-1547) como resposta a outra revolução que foi o surgimento da prensa. Da mesma maneira que acontece hoje com a internet, a prensa derramou uma quantidade enorme de documentos. E para guardar a memória e saber tudo o que se publicava, a Biblioteca Real - hoje Biblioteca Nacional Francesa - devia ter um exemplar de cada impresso produzido no reino.

No Brasil o depósito legal existe desde 1825, mas o envio da produção digital não se adaptou aos novos tempos, “vale observar que a legislação disciplina que tudo que seja publicado no país deva ser enviado à Biblioteca, não especificando o suporte; portanto, em tese, deveríamos receber tudo o que é produzido digitalmente também”, informa por e-mail, Luciana Grings, da Biblioteca Nacional. “A grande dificuldade tem sido adaptar o depósito de material digital ao fato de que a lei não está regulamentada e que ainda não temos a capacidade de armazenamento que esta ação demanda”, completa a bibliotecária.

Com a adaptação da lei francesa, todo o domínio ‘.fr’ e tudo o que se produz sobre a França por força da lei deve ser coletado e armazenado. E a Biblioteca Nacional Francesa, depositária legal do conteúdo produzido no pais, é a responsável pela coleta e arquivamento do conteúdo web. Mesmo sem a obrigação legal, desde 2002 a BnF vem arquivando sua web. Hoje, são 20 bilhões de URLs ocupando 370 Terabytes.

Direitos autorais. Assim como no caso de outras mídias, o depósito legal não significa a supressão dos direitos autorais. Daí um paradoxo: para se consultar o conteúdo web francês é necessário ir à BnF. Em breve, “os arquivos departamentais de Cayenne, capital da Guiana Francesa, também darão acesso. Portanto os arquivos da web francesa estarão justamente ao lado do Brasil”, brinca Clément Oury, chefe do Depósito Legal Digital da BnF em entrevista ao Estadão Acervo.

Coleta e análise. Além da coleta por domínio, por exemplo ‘.fr’, ‘.br’, ou por mais populares como é feito pelo Waybackmachine, muitas instituições adotaram o arquivamento por assunto. A criação de ‘coleções’, como também é conhecido o processo, nada mais é aquilo os arquivos sempre fizeram quando criam pastas, seja de assuntos ou personalidades.

Na França, a seleção de conteúdo é descentralizada. Cada biblioteca regional pode indicar um assunto que considera relevante para que a BnF faça a captura. Os responsáveis pela aquisição de livros na BnF também são outros profissionais que indicam quais assuntos devem ser arquivados.

Massa de dados. Ainda segundo Oury, que também é tesoureiro do IIPC, os desafios de hoje no arquivamento web é indexar a massa de informação. Atualmente é nem tudo é possível pesquisar por palavras-chave. Em quase todas as instituições que disponibilizam pesquisa on-line é necessário entrar com o endereço. No caso das coleções frequentemente as páginas são indexadas por assunto, autor ou fonte.

É o caso das diversas coleções da Biblioteca do Congresso dos EUA. Quando existe indexação surge uma nova possibilidade de pesquisa, “o pesquisador que trabalha com web não quer apenas achar sites antigos para ler, ele quer também a possibilidade de fazer uma cartografia dos sites. Por exemplo, ele quer analisar vários sites de política saber qual deles tem ligações com outros sites de política”, explica Oury.

*Colaborou Liz Batista

Leia mais sobre arquivamento web:

>> Pesquisador da web não quer só ver sites antigos

>> Internet Archive guarda 347 bilhões de links

Siga: twitter@estadaoacervo | facebook/arquivoestadao | Instagram | # Assine

Atualizado em 2/9, às 16h04.

Atestado de nascimento do Brasil, a carta de Pero Vaz de Caminha ao rei de Portugal foi preservada durante mais de 500 anos em lugares diferentes. Atualmente arquivada na Torre do Tombo, sede do Arquivo Nacional de Portugal, a carta de 1.500 está acessível digitalmente a qualquer interessado, em qualquer lugar do mundo. Cinco séculos depois, numa era onde tudo se converge para a internet, qual a garantia que os conteúdos produzidos originalmente em formato digital estarão disponíveis para as gerações futuras? No momento, nenhuma.

Com 20 anos de internet, o Brasil ainda não conta com nenhuma instituição, legislação, diretrizou esforço que garanta que conteúdos produzidos na web sejam vistos como patrimônio cultural e, assim, coletados, catalogados e armazenados. Símbolo da relevância digital deste começo de século 21, a memória das recentes manifestações de junho, paradoxalmente, só está garantida nos formatos impressos.

Para se consultar o conteúdo web francês arquivado é necessário ir presencialmente às bibliotecas e arquivos.  Foto: BNF - Biblioteca Nacional da França

Pela natureza efêmera da internet, sites desaparecem ou são atualizados frequentemente. O apagão da memória da internet já pode ser sentido. Dificilmente seria possível contar a história e analisar as eleições presidenciais a partir dos sites dos candidatos. Desde 1998, já se foram quatro eleições presidenciais com a presença da internet e nada foi coletado e sistematizado.

O problema não é só do Brasil. Poucos países têm política ou instituições voltadas para o arquivamento web. Algumas iniciativas tem sido tomadas para minimizar o apagão. A mais antiga delas é o Internet Archive, de 1996. Através do Waybackmachine a instituição tem armazenado 347 bilhões de URLs de cerca de 40 países, inclusive o Brasil com 2,5 bilhões de capturas. No fim de 2012, o conteúdo total representava 10 petabytes, informa Kristine Hanna, diretora do Internet Archive, em entrevista ao Estadão Acervo.

Em 1996, foi a vez da Austrália coletar o conteúdo produzido e que fazia referência ao país. O exemplo foi seguido pela Suécia, no ano seguinte. Hoje, as instituições pioneiras estão reunidas no Consórcio Internacional de Preservação da Internet, (IIPC na sigla em inglês). Fundado em 2003, o IIPC é uma organização virtual, colaborativa, descentralizada, como a internet.

Como informa o site, ele atua na construção de tecnologias e conhecimento para o novo desafio de armazenar sistematicamente o mar de informações produzidos na web. O Consórcio reúne cerca de 40 instituições (bibliotecas, arquivos, Internet Archive) de 30 países - nenhum da América Latina.

A sua missão é coletar, preservar e tornar acessível o conteúdo da internet para as futuras gerações. A quantidade enorme de sites arquivados, e o tempo que o Waybackmachine tem atuado, pode causar uma sensação de conforto. Mas o projeto do Internet Archive tem suas limitações e não é possível depositar nele a memória da rede.

O critério de armazenamento são os sites mais populares, e por questões de direitos autorais dos EUA, o Waybackmachine só existe porque é uma organização sem fins lucrativos. As leis de copyright americanas não permitem o armazenamento de conteúdo, mesmo o da internet. Se o IIPC tem o objetivo comum preservar a web e desenvolver ferramentas comuns, cada membro tem atuado de maneira distinta.

Em contraposição ao modelo americano, a França foi o primeiro país a tratar o arquivamento web como questão de Estado e o conteúdo da internet como patrimônio cultural.

Coleção web sobre a Guerra do Iraque arquivada da Biblioteca do Congresso dos Estados Unidos.  Foto: Biblioteca do Congresso dos Estados Unidos

Utilizando a figura jurídica do depósito legal, na qual todo produtor de conteúdo cultural (livro, jornal, disco, CD, DVD, software etc) deve entregar uma cópia à Biblioteca Nacional Francesa, em 2006 também foi incluído na lei a internet francesa. Outros países seguiram o exemplo, entre eles Dinamarca e Espanha.

O Depósito Legal foi instituído na França em 1537 pelo rei Francisco I (1494-1547) como resposta a outra revolução que foi o surgimento da prensa. Da mesma maneira que acontece hoje com a internet, a prensa derramou uma quantidade enorme de documentos. E para guardar a memória e saber tudo o que se publicava, a Biblioteca Real - hoje Biblioteca Nacional Francesa - devia ter um exemplar de cada impresso produzido no reino.

No Brasil o depósito legal existe desde 1825, mas o envio da produção digital não se adaptou aos novos tempos, “vale observar que a legislação disciplina que tudo que seja publicado no país deva ser enviado à Biblioteca, não especificando o suporte; portanto, em tese, deveríamos receber tudo o que é produzido digitalmente também”, informa por e-mail, Luciana Grings, da Biblioteca Nacional. “A grande dificuldade tem sido adaptar o depósito de material digital ao fato de que a lei não está regulamentada e que ainda não temos a capacidade de armazenamento que esta ação demanda”, completa a bibliotecária.

Com a adaptação da lei francesa, todo o domínio ‘.fr’ e tudo o que se produz sobre a França por força da lei deve ser coletado e armazenado. E a Biblioteca Nacional Francesa, depositária legal do conteúdo produzido no pais, é a responsável pela coleta e arquivamento do conteúdo web. Mesmo sem a obrigação legal, desde 2002 a BnF vem arquivando sua web. Hoje, são 20 bilhões de URLs ocupando 370 Terabytes.

Direitos autorais. Assim como no caso de outras mídias, o depósito legal não significa a supressão dos direitos autorais. Daí um paradoxo: para se consultar o conteúdo web francês é necessário ir à BnF. Em breve, “os arquivos departamentais de Cayenne, capital da Guiana Francesa, também darão acesso. Portanto os arquivos da web francesa estarão justamente ao lado do Brasil”, brinca Clément Oury, chefe do Depósito Legal Digital da BnF em entrevista ao Estadão Acervo.

Coleta e análise. Além da coleta por domínio, por exemplo ‘.fr’, ‘.br’, ou por mais populares como é feito pelo Waybackmachine, muitas instituições adotaram o arquivamento por assunto. A criação de ‘coleções’, como também é conhecido o processo, nada mais é aquilo os arquivos sempre fizeram quando criam pastas, seja de assuntos ou personalidades.

Na França, a seleção de conteúdo é descentralizada. Cada biblioteca regional pode indicar um assunto que considera relevante para que a BnF faça a captura. Os responsáveis pela aquisição de livros na BnF também são outros profissionais que indicam quais assuntos devem ser arquivados.

Massa de dados. Ainda segundo Oury, que também é tesoureiro do IIPC, os desafios de hoje no arquivamento web é indexar a massa de informação. Atualmente é nem tudo é possível pesquisar por palavras-chave. Em quase todas as instituições que disponibilizam pesquisa on-line é necessário entrar com o endereço. No caso das coleções frequentemente as páginas são indexadas por assunto, autor ou fonte.

É o caso das diversas coleções da Biblioteca do Congresso dos EUA. Quando existe indexação surge uma nova possibilidade de pesquisa, “o pesquisador que trabalha com web não quer apenas achar sites antigos para ler, ele quer também a possibilidade de fazer uma cartografia dos sites. Por exemplo, ele quer analisar vários sites de política saber qual deles tem ligações com outros sites de política”, explica Oury.

*Colaborou Liz Batista

Leia mais sobre arquivamento web:

>> Pesquisador da web não quer só ver sites antigos

>> Internet Archive guarda 347 bilhões de links

Siga: twitter@estadaoacervo | facebook/arquivoestadao | Instagram | # Assine

Atualizado em 2/9, às 16h04.

Atualizamos nossa política de cookies

Ao utilizar nossos serviços, você aceita a política de monitoramento de cookies.