desenv-web-rp.com

Como detectar bots de mecanismo de pesquisa de forma confiável no site asp.net?

Qual é a melhor maneira de detectar atividades geradas por bot (cliques/visitas à página) etc. em um site asp.net? Temos um site em que rastreamos leads gerados para sites externos, rastreamos o IP do usuário que gera o lead, mas estamos vendo muitos leads gerados pelo Google e outros bots de pesquisa. Qual é a melhor maneira de filtrar essa atividade. Ouvi falar em testar seqüências de caracteres de agentes de usuários e filtrar com base em endereços IP conhecidos, disponíveis como despejos de dados de várias fontes. Não sei qual é a melhor a ser usada.

Obrigado.

2
user1081

Como @Kinopiko disse, Bots, principalmente os melhores como o google ou bing, deixam um claro UserAgent.

Não sei como é o seu código, por isso não posso dizer o que fazer, mas para encontrar o UserAgent no Asp.Net, consulte Request.UserAgent em qualquer WebForm, CodeBehind ou MVC Controller.

2
Sruly

Desculpe, mas eu não tenho idéia sobre sites asp.net, mas qualquer mecanismo de pesquisa respeitável enviará a você uma sequência de agentes do usuário que informa que é um bot e que deve estar disponível no seu arquivo de log. Outra oferta é que eles procuram por /robots.txt.

Meu verificador fica assim (Perl):

sub is_bot
{
    my ($user_agent) = @_;
    if ($user_agent =~
    /msnbot
        |www\.cuil\.com
    |Yahoo!\s+Slurp
    |Googlebot
    |Speedy\sSpider
    |MLBot
    |princeton crawler
    |accelobot
    |crawler\@dotnetdotcom
    |help\.naver\.com
    |GingerCrawler
    |Sosospider
    |www.exabot.com
    |Baiduspider
    |Ask\sJeeves
    |Java\/
    |telehouse\.ru
    |Tagoobot
    |Baypup
    |SimilarPages
    |Spinn3r
    |VoilaBot
    |Yandex
    |Xenu\sLink\sSleuth
    |www\.searchme\.com
    |MJ12bot
    |kilomonkey\.com
    |Mediapartners-Google
    |Sogou\sweb\sspider
    |YoudaoBot
    |seexie\.com
    |Yahoo.*Slurp
    |YahooCacheSystem
    |crawler\@nutch\.biz
    |psbot
    |ia_archiver-web\.archive\.org
    |sbider
    |xrss\.eu
    |scoutjet
        |www\.puritysearch\.net
        |Bing
        |BaiduImagespider
        |baidu\.jp
        |facebookexternalhit
        |ssllabs\.com
        |Python-urllib
        |drupal\.org
        |HTTrack
        |Willow\s+Internet\s+Crawler\s+by\s+Twotrees
    /x) {
    return 1;
    }
    return;
}

Se você procurar o código fonte do awstats, encontrará algo melhor que o acima.

0
delete