Já se perguntou como adicionar um arquivo robots.txt ao seu site? Muitos webmasters não sabem disso, mas você realmente tem controle total sobre quem rastreia e indexa seu website, até mesmo páginas individuais. O arquivo robots.txt – também conhecido como protocolo ou padrão de exclusão de robôs – é um arquivo minúsculo que faz parte de qualquer site na web. Mas a maioria das pessoas nem sequer sabe de sua existência.
O arquivo robots.txt é projetado exclusivamente para funcionar com mecanismos de busca. Mas pesquisas revelaram que este pequeno arquivo é uma excelente fonte de “suco” de SEO esperando para ser desbloqueada e aproveitada.
Se você deseja melhorar seu SEO sem se esforçar demais, precisa saber como adicionar um arquivo robots.txt ao seu site.
Mas antes disso, vamos começar com a seguinte pergunta: o que significa o arquivo robots.txt?
O Que Significa o Arquivo Robots.txt?
Um arquivo robots.txt refere-se a um arquivo de texto simples ou ASCII que um webmaster pode colocar em seu website. Este arquivo de texto simples reside no diretório raiz do seu site. Ele instrui os robôs dos mecanismos de busca – também conhecidos como spiders – onde ou quais páginas rastrear em seu site e as páginas a ignorar ou não rastrear.
Isso é altamente essencial, caso contrário, todos os arquivos e páginas do seu site aparecerão imediatamente nos resultados dos mecanismos de busca. É por isso que você precisa aprender como criar um arquivo robot.txt. Isso lhe dá controle total sobre como o Google, Bing, Yahoo e outros mecanismos de busca veem seu site.
O debate ainda continua entre os gurus de SEO que afirmam que ter um arquivo robots.txt em um site pode atrair significativamente os spiders dos mecanismos de busca. Muitos deles afirmam que isso, por sua vez, levará a um aumento no posicionamento nos mecanismos de busca.
Mas você precisa usar o arquivo robots.txt no seu diretório raiz, pois isso pode impulsionar significativamente o rastreamento e impactar o SEO. Para que isso ocorra, você precisa saber como criar um arquivo robots.txt altamente eficaz.
Uma Breve História do Arquivo Robots.txt
Durante os primórdios da internet, engenheiros e programadores inventaram criativamente ‘spiders’ ou ‘robôs’ para rastrear e então indexar páginas na web. Esses robôs eram chamados de ‘User-agents’.
Ocasionalmente, esses robôs ou spiders encontravam páginas que os proprietários de sites não queriam que fossem indexadas. Por exemplo, sites privados ou aqueles em construção eram indexados. Era um problema que precisava de uma solução urgente.
Foi então que um engenheiro holandês e criador do primeiro mecanismo de busca do mundo conhecido como Aliweb, Martijn Koster, entrou em cena. O engenheiro rapidamente propôs um conjunto bem definido de padrões que todo robô precisaria seguir rigorosamente. Foi em fevereiro de 1994 que esses padrões foram propostos pela primeira vez.
Em 30 de junho de 1994, os primeiros pioneiros da web e vários autores de robôs chegaram a um consenso sobre os padrões propostos. Os padrões foram então adotados como REP (‘Robots Exclusion Protocol’ – Protocolo de Exclusão de Robôs).
O robots.txt é uma implementação criativa deste protocolo. O Protocolo de Exclusão de Robôs define o algoritmo ou os procedimentos que cada spider ou rastreador legítimo deve seguir.
Se o arquivo robots.txt instruir os bots a não indexar uma página da web específica, todo robô legítimo – do Googlebot ao MSNbot – deve seguir a instrução.
Tenha em mente que alguns robôs maliciosos – por exemplo, spyware, malware, coletores de e-mail, etc. – não seguirão ou podem não seguir esses protocolos estabelecidos. É por isso que você pode acabar vendo tráfego de bots em páginas que você já bloqueou por meio do arquivo robots.txt.
Além disso, alguns robôs não seguem os padrões REP e não são usados para nada questionável.
Para ver o arquivo robots.txt de qualquer site, acesse o seguinte URL:
Como o Robots.txt Funciona
Como mencionado anteriormente, seu arquivo robots.txt informa os mecanismos de busca para rastrear as páginas da web do seu site rapidamente.
Os arquivos Robots.txt vêm com 2 componentes principais, que são:
- User-agent: Este componente define prontamente o bot da web ou mecanismo de busca ao qual uma regra se aplica. Você pode usar um asterisco (*) como curinga junto com User-agent para incluir todos os mecanismos de busca existentes.
- Disallow: Este componente aconselha um mecanismo de busca – que pode ser qualquer um dos inúmeros existentes – a não rastrear e indexar uma página, arquivo ou diretório.
Aqui está algo importante a observar: para bloquear um arquivo específico no seu gerenciador de arquivos, você precisa personalizar o arquivo para que ele seja hospedado em um dos seus domínios. Em seguida, adicione o URL do arquivo ao seu arquivo robots.txt.
Com isso esclarecido, veja como o robots.txt funciona:
Todos os mecanismos de busca têm 2 trabalhos principais:
- Rastrear a web para descobrir conteúdo altamente relevante.
- Indexar o conteúdo encontrado para que ele possa ser prontamente apresentado aos pesquisadores online que procuram informações específicas.
Para rastrear sites, os mecanismos de busca seguem prontamente os links para ir de um site para outro. No final, eles rastreiam bilhões de sites e links. Esse comportamento de rastreamento é referido – às vezes – como ‘spidering’.
A primeira coisa que o rastreador de busca faz assim que chega a um site – antes de rastreá-lo – é procurar um arquivo robots.txt. Se o rastreador descobrir um, ele lê rapidamente esse arquivo robots.txt antes de continuar pela página da web.
Como um arquivo robots.txt contém informações específicas sobre como o mecanismo de busca deve rastrear o site, são as informações contidas nele que instruirão a ação adicional do rastreador neste site específico.
Se o arquivo robots.txt não contiver nenhuma diretiva que possa impedir a atividade vital de um user-agent – ou se o site não tiver um arquivo robots.txt – o rastreador de busca prosseguirá para rastrear outras informações vitais no site.
Por Que o Arquivo Robots.txt é Vitalmente Importante
O robots.txt não é realmente um documento altamente vital para qualquer site. Na verdade, seu site ainda pode ranquear e crescer impecavelmente bem sem este arquivo residindo no seu diretório raiz.
No entanto, usar o robots.txt traz vários benefícios que você deve aproveitar como proprietário de um site:
- Controla o uso de recursos: Cada vez que um bot rastreia seu site, ele consome parte da sua largura de banda e dos recursos do servidor. Esses são recursos que deveriam ser melhor gastos com visitantes humanos reais. Para sites com muito conteúdo, isso pode facilmente aumentar os custos e proporcionar aos usuários ou visitantes reais uma experiência de navegação ruim. Mas você pode utilizar o arquivo robots.txt para bloquear o acesso a imagens, scripts, etc. não importantes, a fim de conservar recursos.
- Prioriza páginas essenciais: Seu objetivo principal é garantir que os spiders dos mecanismos de busca rastreiem todas as páginas cruciais do seu site, incluindo páginas de conteúdo, etc. E não desperdiçar tantos recursos pesquisando páginas inúteis, como resultados de consultas de pesquisa dedicadas. Ao bloquear essas páginas inúteis, você pode facilmente priorizar em qual página específica os bots dos mecanismos de busca devem se concentrar.
- Impede que bots rastreiem pastas privadas: Se você impedir que os bots rastreiem qualquer uma das pastas privadas do seu site, isso tornará um pouco mais difícil para os spiders dos mecanismos de busca indexá-las.
O Que Você Pode Ocultar com o Robots.txt?
A esta altura, você já sabe que os arquivos robots.txt são geralmente usados para excluir categorias, diretórios ou páginas específicas das páginas de resultados dos mecanismos de busca (SERPs).
Você pode excluir usando a diretiva ‘Disallow’. Algumas das poucas, mas comuns, páginas que você pode ocultar usando um arquivo robots.txt incluem:
- Páginas de administração
- Páginas de paginação
- Carrinho de compras
- Páginas com conteúdo duplicado, geralmente amigável para impressão.
- Páginas dinâmicas de serviços e produtos
- Chats
- Páginas de conta
- Páginas de agradecimento
Por exemplo, digamos que você queira impedir o acesso a uma página de ‘Agradecimento’; veja como você faria isso:
User-agent: *
Sitemap: https://seusite.com/sitemap.xml
Disallow: /videos/
Disallow: /agradecimento/
Deve-se mencionar aqui que nem todos os rastreadores de mecanismos de busca seguirão seu arquivo robots.txt. Bots maliciosos podem facilmente ou totalmente ignorar seus arquivos robots.txt. Portanto, certifique-se de não manter dados altamente confidenciais em páginas bloqueadas.
Como Adicionar um Arquivo Robots.txt ao Seu Site?
Nesta seção, veremos como adicionar um arquivo robots.txt ao seu site. Os gurus de SEO sempre recomendam adicionar um arquivo robots.txt ao seu domínio principal, bem como a todos os subdomínios do seu site.
Para adicionar um arquivo robots.txt ao seu site, você deve, antes de tudo, criá-lo. Siga o processo passo a passo descrito abaixo:
Passo 1: Abra o Microsoft Word ou o Bloco de Notas no seu computador e certifique-se de salvar todos os arquivos como “robots”. Eles devem ser escritos em letras minúsculas. Escolha .txt como a extensão do tipo de arquivo, mas escolha ‘Texto Sem Formatação’ se você usar o Microsoft Word como seu editor de texto.
Passo 2: Em seguida, adicione estas 2 linhas de texto ao seu arquivo:
User-agent: *
Disallow:
‘User-agent’ é outra palavra para spiders/rastreadores ou robôs de mecanismos de busca. Esse asterisco (*) significa que esta linha se aplica a todos os spiders dos mecanismos de busca. Como você pode ver, não há nenhuma pasta ou arquivo listado na linha ‘Disallow’.
Isso implica que todos os diretórios do seu site serão acessados. Este é o arquivo robots.txt básico.
Passo 3: Uma das opções do arquivo robots.txt tem a ver com o bloqueio dos spiders de acessar cada centímetro do seu site. Você pode fazer isso adicionando as seguintes linhas ao arquivo robots.txt:
User-agent: *
Disallow: /
Passo 4: Se você gostaria de bloquear os spiders de áreas específicas do seu site, seu robots.txt pode se parecer com isto:
User-agent: *
Disallow: /banco-de-dados/
Disallow: /scripts/
As 3 linhas descritas acima informam a todos os robôs que eles não podem ter acesso a nada dentro dos diretórios de scripts e banco de dados, ou mesmo subdiretórios.
Lembre-se de que apenas 1 pasta ou arquivo pode ser usado por linha ‘Disallow’. Você pode adicionar quantas linhas ‘Disallow’ forem necessárias.
Passo 5: Certifique-se de adicionar também o arquivo XML do seu sitemap amigável para mecanismos de busca ao arquivo robots.txt. Isso garante que os robôs possam encontrar facilmente seu sitemap e indexar rapidamente todas as páginas do seu site.
Use a seguinte sintaxe para adicionar seu sitemap XML:
Sitemap: http://www.seusite.com/sitemap.xml
Passo 6: Assim que tudo estiver completo, salve e carregue seu arquivo robot.txt para o diretório raiz do seu site.
Por exemplo, se o seu domínio for ‘www.meudominio.com’, você colocará o arquivo robots.txt em:
www.meudominio.com/robots.txt
E é assim que se adiciona um arquivo robots.txt ao seu site!
Diretivas Comuns do Robots.txt Que Você Deve Conhecer e Usar
- User-agent: * – Esta é geralmente a primeira linha escrita no seu arquivo robots.txt. Seu objetivo principal é explicar aos spiders dos mecanismos de busca as inúmeras regras do que um webmaster deseja que eles rastreiem em seu site.
- Disallow: / – Isso diz aos spiders para não rastrearem todo o seu site.
- Disallow: – Isso diz a todos os spiders para rastrearem todo o seu site.
- Disallow: /ebooks/*.pdf – Isso diz aos spiders para ignorarem todos os formatos PDF, o que pode causar problemas de conteúdo duplicado.
- Disallow: /staging/ – Isso diz aos rastreadores de mecanismos de busca para ignorarem seu site de staging.
- Disallow: /images/ – Isso diz apenas ao spider do Googlebot para ignorar todas as imagens do seu site.
- * – Isso é considerado um curinga que representa qualquer sequência de caracteres.
- $ – Este caractere é usado para corresponder ao final do URL.
Quando Você Não Deve Usar o Robots.txt
O arquivo robots.txt pode ser uma ferramenta benéfica quando usado de forma inteligente. No entanto, pode não ser a melhor opção ou solução. Aqui estão alguns exemplos de quando você não deve usar o robots.txt para controlar o rastreamento de mecanismos de busca:
- Bloquear parâmetros de URL
- Bloquear JavaScript/CSS
- Remover páginas já indexadas do índice
- Bloquear URLs com backlinks
- Definir regras específicas que ignoram rastreadores de redes sociais.
- Bloquear o acesso diretamente de sites de desenvolvimento ou staging, etc.
O arquivo robots.txt continua sendo um aliado valioso, pois molda a maneira como os bots ou rastreadores de mecanismos de busca interagem com seu site.
Quando usado da maneira correta, o robots.txt pode impactar positivamente suas classificações, tornando seu site incrivelmente mais fácil de rastrear.
Usando este guia, você já tem a resposta para a pergunta: ‘o que significa o arquivo robots.txt?’ E você também sabe como adicionar um arquivo robots.txt ao seu site.
Esperamos que você também entenda como adicionar um arquivo robots.txt ao seu site, bem como evitar alguns erros ao usar este arquivo de texto simples.
Portanto, use o arquivo robots.txt com sabedoria e obtenha o máximo de “suco” de SEO possível para o seu site!