Crawlear con Screaming Frog sitios protegidos con Cloudflare

Descubre como crawlear con Screaming Frog sitios con protección DDos protección de Cloudflare. Aprende con este tutorial a meter la herramienta en sitios a los que pocos pueden llegar.

¿Qué es Cloudflare DDos Protection’

Es un sistema de protección de Cloudflare al que denomina «under attack mode». Consiste establecer una capa de protección para prevenir interrupciones por el «mal tráfico», protegiendo las peticiones que se reciben de «buen tráfico» o visitas por navegadores, con esto, se garantiza la estabilidad del sitio web, aplicación, Api o whatever.

Resumiendo bastante, ya que la operación tiene mucha más enjundia, lo que hace es devolver un código de estado 503 a todas las peticiones que Cloudflare considera dudosas o inapropiedas.

Seguro en alguna ocasión habéis visto este mensaje cómo este cuando entráis a un sitio web:

Mensaje que aparece en el navegador cuando la protección DDos está activada.
Mensaje que aparece en el navegador cuando la protección DDos está activada.

¿Qué problema hay al crawlear sitios protegidos con Cloudflare?

Cómo hemos visto, cuando el modo ataque está activado. Las peticiones que procesa como inapropiadas, las devuelve con un código de estado 503.

Este tipo de código indica que el servidor no se encuentra disponible y cierra la conexión con el mensaje «Service Temporaly Unavailable» o «Server Error».

Por este motivo, Screaming Frog no es capaz de recibir el código HTML del sitio web, impidiendo seguir los enlaces del site para descubrir nuevas urls y mostrar la información de las urls del portal.

Para evitarlo, en Screaming Frog debemos hacer una serie de acciones que nos permita saltarnos la protección y rastrear todo el sitio web sin ningún inconveniente.

Cómo saltarse la protección de Cludflare con Screaming Frog

  • Nos dirigimos a Screaming Frog y procedemos a crawlear el sitio web.
  • Cuando nos devuelva el error 503. Nos dirigimos al menú Configuration -> Athenticaction
  • Ir a la segunda pestaña «Forms Based» y hacer click en «Add» -> Nos pedirá que introduzcamos la URL de login, en este caso, dejamos la url de la raíz del dominio, en mi caso: https://rubenmerino.com/ (normalmente sale por defecto y solo hay que aceptar).
  • Una vez lo tengamos, aceptando, se abrirá una ventana del navegador integrado de Screaming Frog, con esto, Cloudflare detecta que eres un navegador y te permite el paso a través del cortafuegos.
  • Inicia Screaming Frog con normalidad.

Escritor por:


Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *