Le groupe Processus vous permet d'affiner le fonctionnement des différents processus de parcours, d'exploration et de collecte. Ce groupe se décompose en 4 catégories :

Catégorie "Parcours"

Les options de cette catégorie vous permettent de modifier le comportement de parcours de MailWalker.
Les options disponibles sont les suivantes :
  • Moteur de parcours / Profondeur par défaut : fixe la valeur par défaut de la profondeur de parcours (celle qui sera utilisée, par défaut, dans la fenêtre d'ajout dun site).
  • Moteur de parcours / Profondeur maximale : fixe la valeur maximale de la profondeur de parcours (cette valeur sera la limite supérieure du slider de sélection de profondeur dans la fenêtre d'ajout dun site).
  • Moteur de parcours / Largeur par défaut : fixe la valeur par défaut de la largeur de parcours (celle qui sera utilisée, par défaut, dans la fenêtre d'ajout dun site).
  • Moteur de parcours / Largeur maximale : fixe la valeur maximale de la largeur de parcours (cette valeur sera la limite supérieure du slider de sélection de largeur dans la fenêtre d'ajout dun site).
  • Options avancées / Mode anti-évasion : mode spécial indiquant que ne doivent être ajoutés à la file d'attente que les sites de rang 1, s'il s'agit de redirections scriptées. Ce mode est particulièrement utile pour scanner des annuaires n'utilisant pas de liens en dur.
  • Options avancées / Utiliser la liste noire : demande à MailWalker d'exclure systématiquement toute url ayant une correspondance dans la liste noire.
  • Options avancées / Liste noire : voir l'utilisation des expressions régulières.

Catégorie "Exploration"

Les options de cette catégorie vous permettent de modifier le comportement d'exploration de MailWalker.
Les options disponibles sont les suivantes :
  • Moteur d'exploration / Profondeur par défaut : fixe la valeur par défaut de la profondeur d'exploration (celle qui sera utilisée, par défaut, dans la fenêtre d'ajout dun site).
  • Moteur d'exploration / Profondeur maximale : fixe la valeur maximale de la profondeur d'exploration (cette valeur sera la limite supérieure du slider de sélection de profondeur dans la fenêtre d'ajout dun site).
  • Moteur d'exploration / Largeur par défaut : fixe la valeur par défaut de la largeur d'exploration (celle qui sera utilisée, par défaut, dans la fenêtre d'ajout dun site).
  • Moteur d'exploration / Largeur maximale : fixe la valeur maximale de la largeur d'exploration (cette valeur sera la limite supérieure du slider de sélection de largeur dans la fenêtre d'ajout dun site).

Catégorie "Analyse"

Les options de cette catégorie vous permettent de modifier la façon dont MailWalker analyse les pages web.
Les options disponibles sont les suivantes :
  • Recherche de liens / Mode / Inclusion de page / Exclusion de page : voir l'utilisation des expressions régulières.
  • Analyse (en vue de la collecte) / Mode / Inclusion de page / Exclusion de page : voir l'utilisation des expressions régulières.
  • Options avancées / Rejeter les gros documents : permet de ne pas effectuer l'analyse des gros documents.
  • Options avancées / Taille limite : fixe la limite de taille pour un gros document (au dessus de cette taille un document sera considéré comme volumineux).
  • Options avancées / Filtrer par type de média : vérifier si le type de média est nativement exploitable par MailWalker. Si ce n'est pas le cas, le rejeter.
  • Options avancées / Filtrer par extensions : vérifier si l'extension correspond à un document non exploitable par MailWalker. Si c'est le cas, le rejeter.
  • Options avancées / Nettoyage préemptif : nettoyer la page (entités, codes, erreurs,...) avant toute analyse.

Catégorie "Collecte des emails"

Les options de cette catégorie vous permettent de paramétrer comment MailWAlker collecte les emails.
Les options disponibles sont les suivantes :
  • Collecte de mails / Mode / Inclusion de mail / Exclusion de mail : voir l'utilisation des expressions régulières.
  • Sources de captures / Analyser les champs MAILTO : demande à MailWalker de chercher les adresses mails dans les liens classiques.
  • Sources de captures / Analyser la source HTML : demande à MailWalker de chercher les adresses mails directement dans le fichier source en utilisant le détecteur de mail.
  • Sources de captures / Détecteur de mail : voir l'utilisation des expressions régulières.
  • Nettoyage et substitution / Supprimer le bruit antispam : demande à MailWalker de supprimer les caractères ou motifs antispam en utilisant le nettoyeur de mail.
  • Nettoyage et substitution / Nettoyeur de mail : voir l'utilisation des expressions régulières.
  • Nettoyage et substitution / Nettoyer les erreurs d'entité : demande à MailWalker de traduire et nettoyer les éventuelles erreurs d'entités HTML présentes dans l'adresses email (cas relativement fréquent).
  • Nettoyage et substitution / Correspondance Dot & At : demande à MailWalker de supprimer les motifs antispam en utilisant les détecteurs de points et d'arobases. Cette méthode est complémentaire à la suppression du bruit antispam.
  • Nettoyage et substitution / Détecteur de point : voir l'utilisation des expressions régulières.
  • Nettoyage et substitution / Détecteur d'arobase : voir l'utilisation des expressions régulières.
  • Nettoyage et substitution / Nettoyer les caractères : demande à mailwalker de nettoyer ce qui peut l'être notamment les paramètres situés après l'adresse email.
  • Contre-mesures / Tenter de décoder : dans le cas du codage/encryptage de l'adresse email, essayer de la décoder/décrypter.
  • Protection contre l'empoisonement / Activer la protection : vérifier que la page en cours d'analyse n'est pas une page d'empoisonement (page destinnée à saturer les robots collecteur de fausses adresses email).
  • Protection contre l'empoisonement / Nombre maximal de mails avant déclenchement : limite de déclenchement de la protection contre l'empoisonement.
  • Validation / Valider selon RFC-822 : vérifie approximativement que l'adresse email correspond bien aux standards, sinon la rejeter.
Attention avec l'utilisation de l'option de validation selon RFC-822 : certaines adresses emails peuvent ne pas être conformes mais néanmoins être des adresses réelles et fonctionnelles. De plus l'utilisation de cette option peut fortement ralentir le fonctionnement de MailWalker.
La validation RFC-822 de MailWalker utilise un algorithme d'approximation de la norme dont la précision statistique et de  seulement 98,2%. Ne l'utilisez pas comme une référence absolue.
Pour connaitre le détails et la signification des autres options, vous pouvez consulter les pages suivantes :
Ou alors, passez directement à l'utilisation des expressions régulières.