desenv-web-rp.com

Como você configura o robots.txt para permitir o rastreamento do site, exceto por alguns diretórios?

Qual é a melhor configuração inicial ou geral do robots.txt para permitir que os mecanismos de pesquisa acessem o site, mas talvez restrinja algumas pastas?

Existe uma configuração geral que sempre deve ser usada?

7
Mike

As ferramentas para webmasters do Google têm uma seção chamada "Acesso ao rastreador"

Esta seção permite que você crie facilmente seu robots.txt

Por exemplo, para permitir tudo, exceto no blog, uma pasta chamada test your robot.txt seria algo como

User-agent: *
Disallow: /Test
Allow: /
3
corymathews

A melhor configuração, se você não possui requisitos especiais, não é nada. (Embora você possa pelo menos querer adicionar um arquivo em branco para evitar 404s preenchendo seus registros de erros.)

Para bloquear um diretório no site, use a cláusula 'Disallow':

User-agent: *
Disallow: /example/

Há também uma cláusula 'Allow' que substitui as cláusulas anteriores 'Disallow'. Portanto, se você não permitiu a pasta 'example', pode permitir uma pasta como 'example/foobar'.

Lembre-se de que o robots.txt não impede que alguém visite essas páginas, se assim o desejar. Portanto, se algumas páginas permanecerem secretas, oculte-as atrás de algum tipo de autenticação (por exemplo, um nome de usuário/senha).

A outra diretiva que provavelmente está em muitos arquivos robots.txt é 'Sitemap', que especifica a localização do seu sitemap XML, se você tiver um. Coloque-o em uma linha por conta própria:

Sitemap: /sitemap.xml

O site oficial do robots.txt tem muito mais informações sobre as várias opções. Mas, em geral, a grande maioria dos sites precisará de muito pouca configuração.

1
DisgruntledGoat

Aqui está tudo o que você precisa saber sobre o arquivo robots.txt

0
Jason