desenv-web-rp.com

Controle sobre o Internet Archive além de apenas "Proibir /"?

Existem mecanismos para controlar o que o Internet Archive arquiva em um site? Sei que não permitir todas as páginas eu poderia adicionar :

User-agent: ia_archiver
Disallow: /
  1. Posso dizer ao bot que quero que ele rastreie meu site uma vez por mês ou uma vez por ano?

  2. Eu tenho um site/páginas que não são/não são arquivadas corretamente por causa de ativos não coletados. Existe uma maneira de dizer ao bot do Internet Archive quais recursos ele precisa para acessar o site?

13
artlung

Nota : Esta resposta está cada vez mais desatualizada.

O maior colaborador da coleção da Web do Internet Archive foi o Alexa Internet. O material que o Alexa rastreia para seus propósitos foi doado para a IA alguns meses depois. Adicionar a regra de proibição mencionada na pergunta não afeta esses rastreamentos, mas o Wayback os honrará 'retroativamente' (negando o acesso, o material ainda estará no arquivo morto - você deve excluir o robô da Alexa se realmente quiser manter o material fora do Internet Archive).

Pode haver maneiras de afetar os rastreamentos de Alexa, mas não estou familiarizado com isso.

Desde que a IA desenvolveu seu próprio rastreador (Heritrix), eles começaram a fazer seus próprios rastreamentos, mas eles tendem a ser rastreados (eles fazem rastreamentos eleitorais para a Biblioteca do Congresso e fazem rastreamentos nacionais para França e Austrália etc.). Eles não se envolvem no tipo de rastreamento sustentado em escala mundial que o Google e o Alexa conduzem. O maior rastreamento da IA ​​foi um projeto especial para rastrear 2 bilhões de páginas.

Como esses rastreamentos são operados em agendas derivadas de fatores específicos do projeto, você não pode afetar a frequência com que eles visitam seu site ou se eles visitam seu site.

A única maneira de afetar diretamente como e quando o IA rastreia seu site é usar o serviço Archive-It . Esse serviço permite que você especifique rastreamentos personalizados. Os dados resultantes serão (eventualmente) incorporados na coleção da web da IA. No entanto, este é um serviço de assinatura pago .

8
Kris

A maioria dos mecanismos de pesquisa suporta a diretiva "Atraso no rastreamento", mas não sei se a IA o suporta. Você pode tentar:

User-agent: ia_archiver
Crawl-delay: 3600

Isso limitaria o atraso entre solicitações a 3600 segundos (ou seja, 1 hora) ou ~ 700 solicitações por mês.

Eu não acho que o número 2 é possível - o bot da IA ​​pega os ativos como e quando achar necessário. Pode ter um limite de tamanho de arquivo para evitar o uso de muito armazenamento.

2
DisgruntledGoat