desenv-web-rp.com

Existe um índice dos endereços IP usados ​​pela indexação de bots?

Eu tenho uma página que recebe tráfego mínimo, mas configuro notificações estáticas quando são atingidas. Agora, quero que os bots sejam ignorados. Portanto, o que estou fazendo agora é adicionar bots que vejo em uma lista "sem notificação".

Existe uma lista de referência dos endereços IP usados ​​pelos robôs de indexação?

por exemplo, uma lista como:

$no_mail = array(
    '67.195.115.105', // yahoo bot
    '207.46.199.50', // msn bot
    '61.135.249.246', //youdao bot
    '207.46.199.32', // msn bot
);
7
artlung

http://www.user-agents.org/ pode ser o que você está procurando.

5
Frank Robert Anderson

Todos os mecanismos de pesquisa usam um grande número de endereços IP. Você desejará examinar a sequência do agente do usuário. Marque nesta página para obter uma boa lista de todos os rastreadores.

No PHP, algo como isso funcionaria:

$bots = array( 'googlebot', 'msnbot', 'Slurp', 'mediapartners-google' );
$isRobot = false;
$ua = strtolower( $_SERVER['HTTP_USER_AGENT'] );

foreach ( $bots as $bot ) {
  if ( strpos( $ua, $bot ) !== false )
    $isRobot = true;
}

if ( !$isRobot ) {
  // do your thing
}
2
DisgruntledGoat

Por que você não coloca isso no seu arquivo robots.txt?

User-agent: *
Disallow: /path/page-you-dont-want-crawled.html

Dessa forma, você não precisará continuar caçando bots. Eu apostaria que Google, Yahoo e MSN têm centenas de bots e provavelmente têm endereços IP diferentes e novos sendo criados o tempo todo. Se você adicionar o item acima, faça o mesmo com a página do seu arquivo, sem todos os problemas.

1
Ben Hoffman

Há algum código para reconhecer bots em http://ekstreme.com/phplabs/search-engine-authentication (além do artigo da Central de Ajuda do Google em http://www.google .com/support/webmasters/bin/answer.py? answer = 8055 na verificação do Googlebot). Também há algum código em http://ekstreme.com/phplabs/crawlercontroller.php que pode ser usado para reconhecer rastreadores, que você pode estender facilmente para reconhecer rastreadores "bons", bem como os de spam reconhece agora.

Em geral, é importante não confiar apenas no nome do agente do usuário ou no endereço IP, pois alguns agentes do usuário podem ser usados ​​por usuários normais e alguns endereços IP podem ser compartilhados.

Dito isto, se você estiver usando isso apenas para notificações por e-mail, provavelmente ignoraria padrões simples conhecidos no agente do usuário e viveria com falsos positivos e falsos negativos. Verifique seus arquivos de log para os rastreadores mais comuns ativos no seu site e verifique uma parte exclusiva do nome do agente do usuário (pode ser suficiente usar apenas "googlebot | Slurp | msnbot | bingbot").

1
John Mueller

De uma forma ou de outra, se você for sério sobre a filtragem de bots, precisará implementar também uma lista local. Às vezes, IPs aleatórios parecem obcecados com um site que estou administrando. Projetos universitários, robôs mal implementados que parecem experimentais, mas geralmente não são reconhecidos, esse tipo de coisa.

Além disso: o bot Cuil (Twiceler) é o diabo.

1
Thomas

Você pode acessar o agente do usuário? Essa me parece uma maneira melhor de descobrir quem é um usuário real e o que é um bot - é mais resistente a rastreadores legítimos que mudam de endereço e, se algo está se disfarçando de bot, você provavelmente não deseja receber o email de qualquer forma.

0
Cebjyre

Tente isso ...

$UI_Agent = $_SERVER['HTTP_USER_AGENT'];

if(eregi("bot", $UI_Agent)) {
    // do your bot stuff here
}

HTH, Bud

0
Bud