Quitter le forum et retourner au site

Aspirer le code HTML d'un site et concaténer le contenu des fichiers

Lieu "à la mode" pour discuter et débattre sur les logiciels libres, les distributions linux, etc...
Avatar de l’utilisateur
le Manchot Masqué
Administrateur du site
Messages : 719
Inscription : lun. 26 mai 2008, 21:05
Distribution : Debian, Ubuntu
Niveau : Moitié plein !
Localisation : Guebwiller

Aspirer le code HTML d'un site et concaténer le contenu des fichiers

Message par le Manchot Masqué »

En terme d'attaque d'une machine distante que l'on nommera C pour "Cible", la seconde chose à faire, une fois qu'on a trouvé l'adresse IP de C (via netdiscover -i interface par exemple), est d'utiliser zenmap ou tout autre scanner de ports pour trouver les services distants tournant sur C.
Quand un serveur web tourne sur C, il est souvent intéressant d'aller aspirer le site en HTML pur, et d'en étudier un peu le contenu :

Code : Tout sélectionner

wget --reject '*.js,*.css,*.ico,*.txt,*.gif,*.jpg,*.jpeg,*.png,*.mp3,*.pdf,*.tgz,*.flv,*.avi,*.mpeg,*.iso,*.zip' --ignore-tags=img,link,script --header="Accept: text/html" --limit-rate=200k --no-clobber --convert-links --random-wait -U "Mozilla/5.0 (X11; Linux x86_64; rv:10.0) Gecko/20100101 Firefox/10.0" -E html -r http://guinea.pig
L'option -U pour user-agent permet d'émuler un appareil mobile si besoin. Cf. la https://developer.mozilla.org/fr/docs/W ... _reference pour quelques exemples.
Une fois le site ramené, on peut concaténer tous les fichiers en un, ce qui permet ensuite de faire des recherches plus rapides, et notamment d'extraire rapidement les emails d'utilisateurs, ou les mots-clés uniques pour créer un dictionnaire, par exemple...

Code : Tout sélectionner

find ./ -type f -name "*.html" -print0|xargs -0iX cat X >> all.html2
egrep -i -o "[[:alnum:]+\.\_\-]+@[[:alnum:]+\.\_\-]+\.[[:alnum:]]{2,}" all.html2 | sed '$ d' | sort -u > users.txt
cat all.html2 | sed -e 's/<[^>]*>//g' | grep -o -E '\w+'|sort -u > dico.txt
Le fichier all.html2 contient alors tout le code source du site, qu'on peut ensuite utiliser dans Kali, une distribution orientée sécurité avec tout un tas d'outils machiavéliques pour d'autres usages...
Répondre