LinkWalker fait un usage intensif de règles pour sélectionner, détecter,... Ces règles, universellement connues sous le nom d'expressions régulières (ou expressions rationnelles), sont le coeur de la qualité et de la sélectivité de notre logiciel. Aussi pour exploiter pleinement les capacités de LinkWalker, il peut être intéressant de savoir où et comment utiliser ces expressions régulières.

Les expressions régulières utilisées dans LinkWalker sont de 3 types :
  • Les règles d'inclusion/exclusion : ce type de règles permet de sélectionner ou rejeter un élément. Il s'agit d'un système à deux listes de règles et un sélecteur. Le sélecteur indique quel mode de fonctionnement adopter :
    • Tout sélectionner ;
    • Ne sélectionner que ce qui correpond à la liste d'inclusion (et rejeter le reste) ;
    • Rejeter ce qui correspond à la liste d'exclusion (et accepter le reste) ;
  • Les règles de détection simple : ce type de règle détecte un sous élément d'une chaine de caractères et signale à LinkWalker la détection.
  • Les règles de nettoyage (ou suppression) : ce type de règle détecte un sous élément d'une chaine de caractères et le supprime.

Pour découvrir les fonctionnalités de l'éditeur de règles de LinkWalker, consultez le mode d'emploi simplifié du gestionnaire/éditeur d'expressions régulières. Pour apprendre à écrire vous-même vos expressions régulières, vous trouverez dans la base de connaissance WebSynaptics, les spécifications complètes des expressions régulières utilisées dans nos logiciels.

Règles de la liste noire

Type : détection simple.
Objet : permet à l'analyseur de savoir s'il doit scanner un site ou le rejeter.
Détection : si et seulement si l'url complète du site correspond à une des règles de la liste noire alors rejeter le site, sinon poursuivre l'analyse.

Règles de recherche de liens

Type : inclusion/exclusion.
Objet : permet à l'analyseur de savoir s'il doit rechercher des liens externes ou internes dans la page en cours.
Sélection en mode d'inclusion : si et seulement si le contenu de la page correspond à une des règles de la liste (d'inclusion), alors chercher les liens contenus dans la page et les utiliser, sinon ne pas chercher de lien dans cette page.
Sélection en mode d'exclusion : si et seulement si le contenu de la page ne correspond à aucune des règles de la liste (d'exclusion), alors chercher les liens contenus dans la page et les utiliser, sinon ne pas chercher de lien dans cette page.

Règles de détection et nettoyage des liens scriptés

Type : détection simple + nettoyage.
Objet : permet à l'analyseur de détecter des liens scriptés et les nettoyer pour pouvoir les utiliser.
Détection : si une des règles de la liste correpond à l'url alors la nettoyer, sinon la traiter comme un lien classique.
Nettoyage : à chaque fois que le lien détecté correspond à une des règles de la liste alors supprimer le motif correspondant. A la fin du nettoyage transmettre l'url trouvée aux règles de liste noire.

Règles de recherche d'URLs

Type : inclusion/exclusion.
Objet : permet à l'analyseur de savoir s'il doit rechercher des urls dans la page en cours.
Sélection en mode d'inclusion : si et seulement si le contenu de la page correspond à une des règles de la liste (d'inclusion), alors chercher les urls contenues dans la page, sinon ne pas chercher d'url dans cette page.
Sélection en mode d'exclusion : si et seulement si le contenu de la page ne correspond à aucune des règles de la liste (d'exclusion), alors chercher les urls contenues dans la page, sinon ne pas chercher d'urll dans cette page.

Règles de collecte d'une url

Type : inclusion/exclusion.
Objet : permet au collecteur (après toutes les phases d'analyse) de savoir s'il doit stocker cette url ou la rejeter.
Sélection en mode d'inclusion : si et seulement si l'url correspond à une des règles de la liste (d'inclusion), alors stocker cette url, sinon la rejeter.
Sélection en mode d'exclusion : si et seulement si l'url ne correspond à aucune des règles de la liste (d'exclusion), alors stocker cette url, sinon la rejeter.

Maintenant que vous connaissez toutes les subtilités de LinkWalker, vous pouvez compléter votre formation en apprenant comment gérer vos licences...