Pular para o conteúdo principal
SEO Técnico5 de maio11 min

Rastreamento e indexação sem mistério: robots.txt, sitemap e canonical (com exemplos)

Seu site não aparece no Google? Entenda como o Google rastreia e indexa, e configure robots.txt, sitemap.xml e canonicals do jeito certo.

Quando um site “não aparece no Google”, 80% das vezes o problema é básico:

  • o Google não consegue acessar a página (bloqueio)
  • consegue acessar, mas não indexa (qualidade, duplicação, sinal confuso)
  • indexa, mas não ranqueia (relevância/autoridade/experiência)

Este post foca no primeiro bloco: rastreamento e indexação.

Como o Google encontra páginas (rastreamento)

O Google descobre URLs principalmente de três jeitos:

  1. links (internos e externos)
  2. sitemap
  3. URLs enviadas/descobertas via Search Console

Se uma página não tem links apontando para ela e não está no sitemap, ela pode ficar invisível por muito tempo.

robots.txt: o que ele faz (e o que ele não faz)

O robots.txt é um arquivo que dá instruções de rastreamento.

  • Ele pode bloquear rastreamento
  • Ele não impede indexação em todos os casos (se a URL for descoberta por links externos, pode aparecer como “URL conhecida”)

Exemplo simples e seguro

Se você quer bloquear áreas internas (admin, carrinho, etc.):

User-agent: *
Disallow: /admin/
Disallow: /minha-conta/
Disallow: /checkout/

Erros comuns:

  • bloquear / sem querer (e matar o site inteiro)
  • bloquear /assets/ e quebrar renderização
  • bloquear páginas que deveriam ranquear (serviços, categorias, posts)

sitemap.xml: o mapa do que importa

O sitemap deve listar URLs canônicas e indexáveis.

Boas práticas:

  • não incluir páginas de busca interna
  • não incluir duplicatas (com parâmetros)
  • não incluir páginas com noindex
  • atualizar automaticamente

No Search Console, envie o sitemap e monitore:

  • URLs enviadas
  • URLs indexadas
  • erros (404, bloqueio, redirecionamento)

noindex: quando usar

noindex serve para dizer “pode rastrear, mas não indexe”.

Use em:

  • páginas de obrigado (thank-you)
  • páginas internas que não fazem sentido na busca
  • filtros infinitos (quando necessário)

Não use em:

  • páginas de serviço/produto
  • posts do blog
  • páginas que você quer ranquear (parece óbvio, mas acontece)

Canonical: a forma mais comum de confundir o Google

Canonical responde: “qual URL representa este conteúdo?”

O Google usa canonical como sinal forte para evitar duplicatas.

Quando você precisa de canonical

  • mesma página com parâmetros (ex.: ?utm_source=...)
  • variações de produto (quando a página principal é a mesma)
  • listagens duplicadas por filtros

Exemplo mental

Se estas URLs mostram essencialmente o mesmo conteúdo:

  • /produto-x
  • /produto-x?utm_source=instagram
  • /produto-x?ref=parceiro

Então as duas últimas devem apontar canonical para /produto-x.

“Mas eu já publiquei, por que o Google não indexa?”

Os motivos mais comuns:

  • site novo sem links/autoridade
  • conteúdo muito raso (não agrega)
  • duplicação (muitas páginas parecidas)
  • página lenta/inútil no mobile
  • erro técnico (bloqueio/noindex/canonical errado)

Checklist rápido (15 minutos)

  • site:seudominio.com mostra suas páginas?
  • robots.txt existe e não bloqueia áreas importantes?
  • sitemap.xml existe e foi enviado ao Search Console?
  • páginas importantes não têm noindex?
  • canonicals fazem sentido (não apontam para home por engano)?

Quando vale pedir indexação manual

Pedir indexação ajuda quando:

  • você acabou de corrigir algo grande
  • atualizou uma página importante
  • publicou uma página que precisa entrar rápido

Mas não substitui a base: links internos + sitemap + qualidade.

Se você quiser, dá para automatizar a auditoria desses itens (bloqueios, canonicals, indexação e problemas técnicos) e receber uma lista priorizada do que corrigir primeiro.

Quer um diagnóstico do seu site?

Descubra por que seu site não aparece no Google e o que fazer primeiro para melhorar o SEO.

Analise seu site grátis agora