20 jui. 2007

Tutoriel : la capture de sites (seq. Gaulois et Romains)

Objectif :

- Capturer un site Web en vue d’une exploitation pédagogique optimale et sécurisée

par Laurent Berté, collège Vasco de Gama, Nemours


Cette activité a été utilisée dans un cadre pédagogique dans la Séquence "Gaulois et Romains"


Préalable

Avoir téléchargé (ou acquis une copie de) "WINHTTRACK (Web site Copier)" sur le site officiel des développeurs.

 

1. Préparation de l’environnement

- Préparer l’environnement de la capture en créant le / les répertoire(s) destinés à recevoir le contenu de la capture :

 

2. Début de la capture : lancement de "WINHTTRACK (Web site Copier)"

- Lancement :

- 4 points à suivre :

1) Nommer la capture ;

2) Sélectionner le répertoire créé auparavant (dans l’étape Préparation de l’environnement) destiné à recevoir la capture ;

3) Retrouver ce répertoire dans l’arborescence (boite d’Explorateur ouverte)

4) Valider par le bouton "Suivant"

 

3. Entrée des données essentielles à la capture

- On entre l’url exacte de la PAGE d’ACCUEIL du site à capturer : dans le cas présent : http://perso.wanadoo.fr/jean-francois.mangin à l’emplacement indiqué ;

- Pour s’assurer de ne pas entrer une url erronée, l’entrer auparavant dans le cadre réservé à l’url du navigateur ("Explorer, Mozilla, ou autre), s’assurer que l’on atteint bien le site concerné, puis copier cette adresse dans le cadre du navigateur, et enfin la coller à l’emplacement indiqué dans "WINHTTRACK".

 

4. Réglages avancés

- D’ordinaire, ces réglages peuvent sembler superflus, du moins dans le cas de capture de sites vraiment basiques et peu lourds ; le problème est que l’on ne connaît jamais à l’avance l’architecture exacte d’un site et encore moins le contenu de ses répertoires ou tous les liens qu’il appelle ; or, si l’on ne tient pas compte des quelques précautions suivantes, on risque assez vite de se retrouver avec une capture excessivement longue, "lourde" et la plupart des éléments et répertoires téléchargés seront inutiles.

- Donc, on clique sur le bouton : " Définir les options"

- Plusieurs étapes (optionnelles) :

1) Exclusion des fichiers AUDIO et VIDEO - suivre les instructions détaillées ci-dessous, à savoir :

- Sélectionner ses "filtres" : onglet " Règles de filtrages"

- Filtrer progressivement comme indiqué ci-dessous, c’est-à-dire, d’abord les fichiers pouvant avoir une extension video ou audio puis refaire la même opération pour les autres types de fichiers que l’on veut filtrer...

N.B. : L’exclusion des fichiers AUDIO et VIDEO est d’autant plus importante dans le cas présent (la capture du site de J-F Mangin) car son site contient de nombreux liens externes vers des téléchargements de videos diverses, notamment bandes annonces de films sur le site alapage.com (le film "Vercingétorix", par exemple).

2) Exclusion des fichiers compressés (.zip, .tar, .tgz, .rar, etc.) - suivre les instructions détaillées ci-dessous :

N.B. : Quel que soit le site capturé, l’exclusion des fichiers dits "executable" (.exe) est une précaution importante à prendre pour ne pas avoir de mauvaises surprises par la suite, lors de la navigation interne du site (exécution non souhaitée de programmes externes, par exemple).

3) Vérifier le PROXY

- Actuellement, la plupart des réseaux d’établissements fonctionnent avec un "proxy" qui gère et facilite la tâche du "routeur" ce qui permet, entre autres, d’attribuer différentes autorisations sur l’ouverture/fermeture des ports, en somme de mieux filtrer le traffic entrant et sortant.

Or, ce "proxy" possède une adresse bien spécifique qu’il faut préciser dans chaque logiciel devant utiliser Internet pour un traffic entrant/sortant, téléchargement, etc.

- Donc, si vous comptez faire la capture d’un site sur un poste de votre établissement, vérifiez s’il y a un "proxy" ; si oui, notez son l’adresse :

Donc, dans un 1er temps, on va récupérer l’adresse exacte du proxy et son numéro de port. Pour cela, on va suivre la procédure suivante :

> Aller sur Internet, puis dans le Menu de l’explorateur, cliquer sur "Outils", puis "Options Internet"

> Dans l’onglet "Connexions", on clique sur le ’sous-onglet" : "Paramètre réseau" pour avoir accès aux données du réseau de l’établissement.

> Là, on récupère et on note les données du proxy, à savoir : son adresse (qui commence généralement par "192..."), et son numéro de port.

Maintenant, on peut préciser dans "WINHTTRACK", dans l’onglet "Serveur proxy", l’adresse exacte du proxy et son numéro de port. Pour cela, on va suivre la procédure détaillée ci-dessous :

- en face du champ "Proxy", on entre l’adresse du proxy ;

- dans le champ voisin (plus petit), on entre son numéro de port, comme indiqué ci-dessous :

 

5. La capture : prédétermination de la structure du site à aspirer

- C’est la phase finale du paramétrage de la capture ; cette phase est capitale pour s’assurer d’avoir une capture propre et adaptée à nos besoins ; en effet, c’est ici que l’on va décider de la structure que l’on souhaite avoir du site capturé.

Donc, on suit les étapes suivantes :

1 - Cliquer sur l’onglet "Structure"

2 - Dans le menu déroulant "Type de structure locale (manière dont les lins sont enregistrés)", choisir impérativement l’option : "Html dans nom_site/html,images/autres dans nom_site/images", ce qui permet de limiter la capture aux seuls répertoires du domaine auquel appartient le site concerné.

3 - Enfin, cocher les 2 cases suivantes :

> "Pas de pages d’erreurs" (ce qui évitera un enregistrement inutile des pages d’erreurs)

> "Pas de pages externes"

Une fois ces réglages avancés effectués, on valide par "OK" et on revient l’écran principal de l’url et on clique sur "Suivant >" comme indiqué ci-dessous :

 

6 - Vérification de la connexion

Enfin, on vérifie sa connexion puis, on clique sur "Terminer" pour lancer la capture :

 

7- La capture est lancée

 

8- La capture est terminée !

 

9- Vérification de l’architecture du site capturé

- On vérifie maintenant que l’architecture du site capturé est bien conforme à nos attentes : donc, on revient à la racine de son disque et on parcourt l’arborescence jusqu’à retrouver le répertoire créé initialement pour recevoir la capture - dans ce tutoriel, nous l’avions nommé "Capture_site_Mangin" ; voir étape initiale : Préparation de l’environnement.

- Après avoir cliqué sur le répertoire principal du site capturé, on doit voir la structure suivante :

- Taille totale du site capturé : si la capture a respecté les règles et filtres précédemment définis, le site capturé doit "peser" environ : 12 Mo.

- Détail de la structure du site capturé, réduite à sa plus simple expression :

 

10 - Navigation locale

- Ces vérifications faites, on revient à la racine du site capturé ; on guide les élèves à cet endroit précis, puis on leur demande de se munir du questionnaire pour commencer leurs recherches (voir le questionnaire dans la Séquence "Gaulois et Romains") ; alors, ils peuvent cliquer sur la page web d’accueil du site capturé, nommée "index.htm" :

- La navigation locale commence : la page d’accueil créée par "WINHTTRACK" se présente comme ci-dessous - car elle permet de présenter plusieurs pages d’accueil de différentes captures éventuelles :

- Début des recherches en navigation locale :

SI VOUS ÊTES ARRIVÉS JUSQUE-LÀ, FÉLICITATIONS !!!

LA CAPTURE D’UN SITE N’A PLUS DE SECRETS POUR VOUS :

Bonnes recherches...