Utilizando wget para bajar un sitio web sin problemas.

el-codigo-linux1

Saludos compañeros, hoy he querido compartir esta información que me ha servido de mucho en varias ocaciones, y espero que les sirva a ustedes. Se trata de como bajar un site completo para ser visto cuando quieres desde tu computador, todo utilizando wget. Esta información es obtenida de http://www.eliax.com/?post_id=6226. Buen post. Saludos:

Si utilizas Linux o una variante de UNIX (como el mismo OS X) en donde puedas instalar o tengas acceso al comando wget, he aquí un truco que te gustará, ya que te permite descargar un website completo (es decir, todas las páginas web dentro de un mismo dominio) con una sola linea de comando, lo que resulta bastante útil.

El comando es el siguiente y lo debes escribir en una sola linea, aunque simplemente copia-pega directamente desde aquí a tu linea de comando y cambia el final que dice foo.com (nota que como es Linux/UNIX, que debes poner atención a las mayúsculas y minúsculas):

wget –random-wait –limit-rate=64k -e robots=off -r -p -U mozilla http://www.foo.com

Es importante entender por qué ciertas opciones del comando wget que utilizamos:

–random-wait significa que entre un pedido y otro al website, que espere un tiempo aleatorio, para así no pedir demasiadas páginas y archivos uno detrás de otro y alarmar a algún sistema de seguridad.

–limit-rate=64k significa que no pase de 64 KiloBytes por segundo en transferencia de datos. Este número depende de tu conexión a Internet, y no es recomendado que lo incrementes mucho para no alarmar al website remoto. También puedes especificar el valor en MB/s sustituyendo la “k” por una “m”.

-e robots=off significa que wget no debe prestar atención al archivo robots.txt que indica cuáles páginas no deben accederse por un navegador web.

-r significa que queremos todo de manera recursiva.

-p indice que descargue todos los archivos para desplegar adecuadamente una página HTML.

-U mozilla significa que impersonifique a la familia Mozilla de navegadores (como Firefox).

Y finalmente sustituye http://www.foo.com por el website que deseas descargar.

Noten que este truco es bastante útil para esas páginas que ofrecen miles de fotos para diseñadores gráficos, pero que te hacen moverte una página a la vez de manera manual y lenta. Mientras que con esto puedes dejar a que wget “navegue y descargue” todo por ti.

Manual (“man page”) de wget con las otras opciones que ofrece

autor: josé elías

Anuncios