Utilisateur:Sub/brouillons/wget

Un livre de Wikilivres.
Aller à la navigation Aller à la recherche

Pour aspirer un site,

wget --mirror --convert-links --adjust-extension --page-requisites --random-wait --no-parent --referer="http://example.com" --output-file=example.com.log http://example.com

Pour blogspot, les images sont stockées sur un autre domaine

wget --mirror --span-hosts --convert-links --adjust-extension --page-requisites --no-parent --output-file=example.blogspot.com.log --domains=example.blogspot.com,1.bp.blogspot.com,2.bp.blogspot.com,3.bp.blogspot.com,4.bp.blogspot.com http://example.blogspot.com/

Pour extraire les liens d'un fichier html

lynx -dump -listonly mon_fichier.html