MailWalker est un logiciel qui a pour objet de parcourir des sites web pour en
extraire les adresses email présentes. Cette activité est décomposée en un trois
tâches distinctes qu'il effectue en parallèle :
Le
parcours
Lorsque vous ajoutez de nouveaux sites web à une session,
vous indiquez à MailWalker par quels sites vous désirez commencer votre
collecte.
A moins de l'avoir explicitement indiqué lors de l'ajout,
MailWalker ne se cantonera pas à l'analyse de ces seuls sites. En effet, lors de
l'analyse de ces sites, MailWalker va tenter de trouver des liens pointants vers
d'autres sites web et les ajouter à la liste des sites à analyser.
Cette
phase de parcours, qui consiste donc à trouver et suivre un certain nombre de
liens externes d'un site web, est hautement paramétrable :
- d'un point de vue structurel car vous pouvez spécifier jusqu'à
quel niveau de hiérarchie vous souhaitez le faire ;
- d'un point de vue quantitatif en indiquant des limites en termes
de nombre de sites à parcourir ;
- et d'un point de vue qualitatif puisque vous pouvez spécifier
sous quelles conditions vous désirez (ou non) inclure un nouveau site dans la
liste de parcours.
MailWalker est capable de parcourir des sites dont
les liens externes sont "classiques" (liens en dur), mais aussi de détecter des
liens plus subtiles tels que les liens indirects (scriptés notamment), certains
liens activés par javascript ou ceux contenus dans des flux XML. MailWalker est
aussi capable, si vous le lui demandez, de suivre des redirections scriptées ou
HTTP.
L'exploration
Au fur et à mesure que MailWalker
construit sa liste de parcours, basée sur les sites que vous avez ajouté et sur
les options que vous avez activé, il tente aussi d'explorer les sites. Il s'agit
cette fois de construire une liste de pages internes pour chaque site web de la
liste de parcours.
De même que le moteur de parcours, le moteur
d'exploration est lui aussi hautement paramétrable :
- d'un point de vue structurel car vous pouvez spécifier la façon dont vous
voulez que l'exploration se fasse et pour quel type de médias ;
- d'un point de vue quantitatif en indiquant des limites en termes
de nombre de pages à explorer et de tailles de documents à ne pas dépasser ;
- et d'un point de vue qualitatif puisque vous pouvez spécifier
sous quelles conditions vous désirez (ou non) inclure une page d'un site dans la
liste d'analyse.
MailWalker a la capacité à explorer une certain
nombre de types de sites avec des options plus ou moins "ouvertes", mais vous
pouvez aussi lui demander de tenter d'explorer des sites constitués de médias
qu'il ne sait pas explorer nativement, les résultats sont alors souvents très
intéressants.
L'analyse
Pendant que le
moteur d'exploration trouve des pages "bonnes pour le service", l'analyseur se
charge lui de vérifier le contenu de ces pages et d'en extraire les emails selon
les options que vous lui avez demandé de respecter.
Ici, vous pouvez
affiner le comportement de l'analyseur :
- d'un point de vue structurel en choisissant la ou les méthodes à
utiliser pour l'analyse ;
- et d'un point de vue qualitatif en spécifiant sous quelles
conditions vous désirez (ou non) mémoriser un email détecté et comment vous
souhaitez le rendre exploitable.
MailWalker ayant été conçu
pour être très "maléable", les caractéristiques de fonctionnement des moteurs de
parcours et d'exploration ainsi que l'analyseur peuvent être très facilement
adaptés à certains cas de figure échapant totalement à ses concurents.
Il
est de plus assez aisé d'inclure de nouvelles fonctionnalités ou heuristiques à
ces moteurs et c'est pourquoi, afin de coller à votre activité et à vos
demandes, vous verrez régulièrement apparaître des mises à jour de MailWalker...
Aussi, pensez à activer la recherche de mise à jour automatique !