InstantWalkerest un logiciel qui a pour objet de parcourir des sites web pour en extraire les adresses de messageries instantanées présentes. Cette activité est décomposée en un trois tâches distinctes qu'il effectue en parallèle sur plusieurs sites web :

Le parcours

Lorsque vous ajoutez de nouveaux sites web à une session, vous indiquez à InstantWalker par quels sites vous désirez commencer votre collecte.
A moins de l'avoir explicitement indiqué lors de l'ajout, InstantWalker ne se cantonera pas à l'analyse de ces seuls sites. En effet, lors de l'analyse de ces sites, InstantWalker va tenter de trouver des liens pointants vers d'autres sites web et les ajouter à la liste des sites à analyser.

Cette phase de parcours, qui consiste donc à trouver et suivre un certain nombre de liens externes d'un site web, est hautement paramétrable :
  • d'un point de vue structurel car vous pouvez spécifier jusqu'à quel niveau de hiérarchie vous souhaitez le faire ;
  • d'un point de vue quantitatif en indiquant des limites en termes de nombre de sites à parcourir ;
  • et d'un point de vue qualitatif puisque vous pouvez spécifier sous quelles conditions vous désirez (ou non) inclure un nouveau site dans la liste de parcours.
InstantWalker est capable de parcourir des sites dont les liens externes sont "classiques" (liens en dur), mais aussi de détecter des liens plus subtiles tels que les liens indirects (scriptés notamment), certains liens activés par javascript ou ceux contenus dans des flux XML. InstantWalker est aussi capable, si vous le lui demandez, de suivre des redirections scriptées ou HTTP.

Le comportement de cette phase de parcours est régie par :

L'exploration

Au fur et à mesure que InstantWalker construit sa liste de parcours, basée sur les sites que vous avez ajouté et sur les options que vous avez activé, il tente aussi d'explorer les sites. Il s'agit cette fois de construire une liste de pages internes pour chaque site web de la liste de parcours.

De même que le moteur de parcours, le moteur d'exploration est lui aussi hautement paramétrable :
  • d'un point de vue structurel car vous pouvez spécifier la façon dont vous voulez que l'exploration se fasse et pour quel type de médias ;
  • d'un point de vue quantitatif en indiquant des limites en termes de nombre de pages à explorer et de tailles de documents à ne pas dépasser ;
  • et d'un point de vue qualitatif puisque vous pouvez spécifier sous quelles conditions vous désirez (ou non) inclure une page d'un site dans la liste d'analyse.
InstantWalkera la capacité d'explorer une certain nombre de types de sites avec des options plus ou moins "ouvertes", mais vous pouvez aussi lui demander de tenter d'explorer des sites constitués de médias qu'il ne sait pas explorer nativement, les résultats sont alors parfois très intéressants.

Le comportement de cette phase d'exploration est régie par :

La collecte

Pendant que le moteur d'exploration trouve des pages "bonnes pour le service", le collecteur se charge lui de vérifier le contenu de ces pages et d'en extraire les adresses de messageries instantanées selon les options que vous lui avez demandé de respecter.

Ici, vous pouvez affiner le comportement du collecteur :
  • d'un point de vue structurel en choisissant la ou les méthodes à utiliser pour l'analyse ;
  • et d'un point de vue qualitatif en spécifiant sous quelles conditions vous désirez (ou non) mémoriser une adresse de messagerie instantanée détecté et comment vous souhaitez le rendre exploitable.

Le comportement de cette phase de collecte est régie par :

A chacune de ces étapes, vous avez la possibilité de filtrer ce que fait InstantWalker en lui donnant des mots clés ou expressions ou motifs de recherche à inclure ou exclure. Cette méthode est la seulle garante de la qualité des résultats.

En effet plutôt que récupérer une liste de sites référencés sous certains mots-clés par un moteur de recherche, InstantWalker va directement dans les pages du site vérifier l'existence (ou non) de ces mots clés. Cela permet d'éviter les sites non relevants dans votre démarche de collecte et ne conserver que ceux qui constituent réellement le coeur de cible de votre campagne marketing.

Pour spécifier ces motifs d'inclusion ou d'exclusion, vous utiliserez des expressions régulières grâce au gestionnaire d'expressions régulières...
Si vous vous sentez un peu plus à l'aise avec les concepts de fonctionnement de InstantWalker, nous vous conseillons maintenant de poursuivre cette lecture par la présentation de l'interface.