¿Qué es el archivo robots.txt?

El archivo robots.txt es un archivo de texto en formato .txt ubicado en la raíz del dominio, donde los bots consultan que parte de la web pueden rastrear. Es un archivo público accesible desde la siguiente url: https://rubenmerino.com/robots.txt (por ejemplo).

Directivas en el archivo robots.txt

Con los bots que visitan el archivo nos comunicamos con 4 directivas:

  • user-agent: bot -> Identifica e lbot al que va dirigida.
  • disallow: path -> bloquea la ruta indicada.
  • allow: path -> permite la ruta indicada.
  • sitemap: url -> indica la ruta del sitemap

Reglas básicas del archivo robots.txt

  • El archivo robots.txt debe ir en la raíz del dominio y ser accesible a los diferentes bots.
  • Acepta expresiones regulares (únicamente * y $).
  • No se debe bloquear el acceso a los bots de los archivos CSS ni JS.
  • Es importante añadir la ruta del sitemap.xml, por norma general en la última línea del documento.
  • El tamaño máximo son 500kb.
  • Sólo afecta al dominio en el que se encuentra así que ten cuidado con “http vs https” y “www vs non www”.
  • No bloquees el acceso a tus propias herramientas SEO de rastreo como por ejemplo: MJ!” (Majestic, Ahrefs, SEOmonitor, OnCrawl, OnPage, URLProfiler, Screaming Frog, Sistrix, etc…)
  • Aquí puedes localizar todos los bots que he encontrado.

El archivo robots no es un archivo de lectura secuencial por eso, la regla más específica en función de la entrada [path] prevalecerá sobre la menos específica (corta). Es decir, mientras más específica sea una orden en el archivo robots.txt más prevalecerá sobre la menos específica.

URL allow: disallow: SOLUCIÓN
http://example.com/page /p / PERMITIR
http://example.com/folder/page /folder/ /folder PERMITIR
http://example.com/page.html /page /*.html SIN DEFINIR
https://example.com/ /$ / PERMITIR
http://example.com/page.htm /$ / NO PERMITIR

Probador de robots.txt de Google Search Console

Actualmente a fecha de marzo de 2020 en Google Search Console, han quitado el acceso al antiguo probador de robots.

¿Ha sido útil esta publicación?

¿Te ha resultado útil esta información?

¿Ha sido útil esta publicación?

¿Ha sido útil esta publicación?