Arquivamento da web
Arquivamento da web é o processo de coleta e preservação de porções da Web em um arquivo, para futuros pesquisadores, historiadores e ao público interessado em visualizar versões de páginas antigas ou não mais existentes.
Geralmente, arquivistas da Web arquivam todos os tipos de conteúdo, incluindo páginas HTML, folhas de estilo (CSS), JavaScript, imagens e vídeos. Também arquivam metadados sobre o conteúdo coletado, tais como data e hora de acesso, tipo MIME e tamanho. Esses metadados são úteis para estabelecer a autenticidade e procedência da coleção arquivada.
Arquivamento remoto
A técnica mais comum de arquivamento usa web crawlers para automatizar o processo de coleta de páginas. Web crawlers tipicamente visualizam páginas da web da mesma forma que os usuários visualizam com navegadores e, portanto, fornecem um método relativamente simples de colheita remota do conteúdo. Exemplos de web crawlers usados para arquivamento da web incluem: Existem numerosos serviços que podem ser usados para arquivar conteúdo "on-demand" (sob demanda), utilizando técnicas de web crawling.
Arquivamento de bancos de dados
Refere-se ao arquivamento do conteúdo subjacente de sites que funcionam baseados em bancos de dados. Geralmente requer a extração do conteúdo do banco de dados, muitas vezes usando XML. Uma vez armazenados em um formato padrão, o conteúdo de várias bases de dados arquivado pode então ser disponibilizado, utilizando um sistema de acesso único. Esta abordagem é exemplificada pelas ferramentas DeepArc e Xinq, desenvolvidas pela Biblioteca Nacional da França e pela Biblioteca Nacional da Austrália, respectivamente. A ferramenta DeepArc permite que a estrutura de um banco de dados seja mapeado em um esquema XML, e o conteúdo exportado em um documento XML. Xinq, então, permite que o conteúdo seja disponibilizado online. Embora o layout e comportamento original do site não possam ser preservados com exatidão, Xinq permite que a consulta e as funcionalidades básicas sejam replicadas.
Crawlers
Arquivos da Web que dependem do rastreio automatizado como seu principal meio de arquivamento são influenciados por dificuldades de rastreamento automatizado: No entanto, é importante notar que um arquivo da Web em formato nativo, ou seja, um arquivo totalmente navegável, com links funcionais, mídia e etc., só é realmente possível utilizando tecnologias de crawlers. A Web é tão grande que o rastreamento de uma parcela significativa exige um grande monte de recursos técnicos. A Web está mudando tão rapidamente que partes de um site podem mudar antes mesmo de um rastreador terminar o arquivamento.
Limitações gerais
Alguns servidores da Web são configurados para exibir páginas diferentes para solicitações de arquivadores do que seriam em resposta às solicitações dos navegadores comuns. Não só com desafios técnicos os arquivistas da Web devem lidar, eles também devem lidar com as leis de propriedade intelectual. Peter Lyman afirma que "embora a Web seja considerada popularmente como um conteúdo de domínio público, ela tem direitos de autor, assim, os arquivistas não têm nenhum direito legal de copiar a Web". No entanto, bibliotecas nacionais em muitos países têm o direito legal de copiar partes da Web em uma extensão de depósito legal. Alguns arquivos privados sem fins lucrativos, que são publicamente acessíveis, como WebCite ou o Internet Archive, permitem aos donos de conteúdo esconder ou remover conteúdo arquivado. Outros arquivos só são acessíveis a partir de determinados locais ou têm uso regulamentado. WebCite cita uma recente ação judicial contra o cache do Google, que o Google ganhou.
Curadoria da Web, como qualquer curadoria digital, implica: Assim, além da discussão sobre os métodos de arquivamento da Web, também a discussão a respeito do fornecimento de acesso, certificação e organização deve ser incluída. Há um conjunto de ferramentas populares que aborda estes passos de curadoria: Um conjunto de ferramentas para curadoria da Web do International Internet Preservation Consortium: Outras ferramentas de código aberto para manipulação de arquivos da web:


