Accueil > Support > Forums > Paramétrage & Utilisation > Tutoriel recherches sur Google
icon
Avatar
ecomagnet
Messages : 3
Bonjour,

J'utilise Mailwalker pour récupérer les emails.

Dans le cadre du développement de mon activité, je cherche à contacter des revendeurs potentiels de mes produits.
Pour ce faire, je fais une recherche sur google sur les pages en France uniquement.


J'obtiens les liens de recherches suivants :
http://www.google.fr/search?q=designer+independant&hl=fr&cr=countryFR&num=100&start=0
http://www.google.fr/search?q=designer+independant&hl=fr&cr=countryFR&num=100&start=100
http://www.google.fr/search?q=designer+independant&hl=fr&cr=countryFR&num=100&start=200
http://www.google.fr/search?q=designer+independant&hl=fr&cr=countryFR&num=100&start=300

Dans ces liens, les mots "designer" et "independant" sont les deux mots clés dont j'ai besoin pour ma recherche.
start=0 est la position de début des résultats, num=100 veut dire que l'affichage des résultats se fait 100 par 100.
Pour une recherche relativement complète, vous pouvez aller jusqu'à start=700 ou 800.

Mon problème réside dans les liens autres que les résultats dans google.
A savoir images.google.fr, maps.google.fr ...

J'aimerai savoir si il est possible d'inclure une règle d'exclusion du mot "google" et éventuelement des autres mots que l'on veut ignorer contenus dans une URL. Dans ce cas, si le mot "google" est contenu dans l'URL, l'url ne sera pas scannée.
Seul problème, les pages de recherches contiennent ce mot. Il faudrait donc voir s'il est possible de créer une règle d'inclusion des URLS de recherche exactes pour forcer le scan de celles-ci et uniquement celles-ci. (il faudrai que cette règle est une priorité plus forte que la règle d'exclusion)

Ce que je demande donc au final, c'est de savoir si cela est possible et si oui, quelle sera la typographie exacte des règles :
règle d'exclusion : (?i)
règle d'inclusion : (?i)

J'espère avoir été relativement clair dans ma question et que mon sujet aidera beaucoup d'autres utilisateurs.
Merci d'avance et bravo pour ce super programme.
[Dernière édition par ecomagnet, 18-06-2009 13:26]
18-06-2009 13:24
Avatar
Pierre Lannoy
Modérateur
Messages : 174
Bonjour,

Pour réaliser ce que vous souhaitez, il y a trois manières de faire :

- Utiliser LinkWalker pour extraire les bonnes URLs et les importer dans MailWalker. Inconvénient : il faut acheter LinkWalker (ceci dit, il y a 40% de réduction jusqu'au 20 juin...) !

- Attendre la version 2.2 de MailWalker qui intégrera un module d'interrogation des moteurs de recherche les plus courants. Inconvénient : cette version ne sera pas dispo avant la rentrée et quand on a un mois de location devant soi, ce n'est pas jouable.

- "Mettre les mains dans la graisse" avec les expressions régulières, car même si ce n'est pas une fonctionnalité prévue en standard dans MailWalker, il y a moyen de contourner le problème.

Nous allons ici explorer la troisième possibilité (pour les deux autres, je vous laisse seul juge).

Pour commencer, sachez que les modes d'exclusion et inclusion ne concernent que la présence de mots clés ou expressions au sein des pages (c'est d'ailleurs grâce à cela que MailWalker est aussi sélectif), inutile donc de souhaiter filtrer les urls avec ces listes... Ce que nous allons utiliser pour réaliser ce filtrage, c'est la liste noire. C'est elle qui permet de faire du filtrage d'url...

Après une rapide analyse de la page google, voici les quatre règles qu'il faut créer dans la liste noire :
iconCode :
(?i)(images|video|maps|news|groups|mail)\.google
(?i)\/(intl|accounts|services)\/
(?i)\/(webhp|aclk|advanced_search|preferences|sponsoredlinks|swr|language_tools|quality_form)
(?i)q=cache

Il y a moyen de "factoriser" en écrivant qu'une seule règle, mais avec quatre cela parait plus clair (enfin j'espère).

Une fois ceci fait, voici une des méthodes permettant d'arriver au résultat (il doit bien en avoir une bonne dizaine...) : scanner en deux passes (avec la réinjection)
- Ajoutez les 8 ou 9 urls de recherche avec une largeur de parcours de 100 (il y a 100 urls par page) et une valeur de 1 pour les trois autres paramètres de parcours et exploration.
- Vérifiez que l'utilisation de la liste noire est bien activée.
- Exécutez la session.
- Une fois la session totalement exécutée, réinjectez la liste (CTRL+R) avec 0 pour largeur et profondeur de parcours et des valeurs supérieures 1 pour la largeur et profondeur d'exploration (pour explorer en détail chacun de ces sites).
- Avant de lancer la deuxième exécution supprimez les urls inutiles qui ont aussi été réinjectées (google).
- Exécutez...

Voilà, j'espère que l'idée est à peu près claire pour vous. Si ce n'est pas le cas, n'hésitez pas à poser vos questions.

Pierre
[Dernière édition par Pierre Lannoy, 18-06-2009 14:36]
18-06-2009 14:32
Avatar
ecomagnet
Messages : 3
Bonjour,

Merci pour votre réponse.
La complexité de votre logiciel réside dans la création des règles d'inclusion et d'exclusion.
Cela ressemble fortement à des lignes de commandes utilisées en programmation et je pense que comme moi, la plupart des utilisateurs n'y connaissent rien et finissent par ne pas utiliser les règles.

Pourquoi ne pas créer simplement une fenêtre du genre :
Pour la recherche des liens :
Si mot clé "liste_mots_clés" présent dans la page prendre l'adresse email
Si mot clé "liste_mots_clés" présent dans la page ne pas prendre l'adresse email

Pour la collecte des emails :
Si mot clé "liste_mots_clés" présent dans l'email, collecter l'email
Si mot clé "liste_mots_clés" présent dans l'email, ne pas collecter l'email

Pour la liste noire :
_Si mot clé "liste_mots_url" présent dans l'url scanner l'url
_Si mot clé "liste_mots_url" présent dans l'url ne pas scanner l'url

L'utilisateur n'aura plus qu'à renseigner une liste de mots clés à l'endroit souhaité et le logiciel le traduira automatiquement en ligne de commande.

Dans mon cas, je n'aurai eu qu'à cliquer sur règles de scan d'url (liste noire), entrer les mots google, gouv, spam dans la partie à ne pas scanner et le tour aurai été joué. Il faudrai juste faire en sorte que les règles ne s'appliquent pas aux adresses entrées manuellement ou importées depuis un fichier. D'ailleurs une option d'import à partir d'un fichier texte serai la bienvenue.

Une autre option qui serai très intéressante est la suivante :
En cours de scan permettre la création de nouvelles règles et la suppressin manuelle de certaines URL. Bien entendu les nouvelles règles seraient valables que pour les url pas encore scannées, elle ne serai donc pas rétroactive.

Personnellemnt, j'ai téléchargé votre logiciel 2 fois.
La première fois, je l'ai essayé 15 minutes et j'ai arrêté l'ayant trouvé trop compliqué.
La deuxième fois je l'ai repris car j'avais lu sur plusieurs forums qu'il est le plus efficace et je le trouve encore trop compliqué.

La seconde complexité réside dans les profondeurs et largeurs de scan.
Si j'ai bien compris et j'ai peur de paraître un peu bête, la largeur c'est le nombre de page à scanner à l'intérieur d'un même site (nom de domaine) et la profondeur, le nombre de site à scanner ayant un nom de domaine différent.

Plus concrètement largeur = même site
Profondeur = autres sites

Encore une nuance un peu perturbante pour mon cas, quelle est la différence entre "parcours des sites" et "exploration de chaque sites" ?

Mon but n'est pas de vous ennuyer avec mes questions mais de vous aider à clarifier votre programme pour le rendre plus facile d'utilisation. Il se vendra donc beaucoup plus souvent.
Bravo pour l'idée de l'essai sans possibilité de sauvegarde et pour l'option leasing qui permet de vérifier que votre logiciel est bel et bien le meilleur.
19-06-2009 02:13
Avatar
Pierre Lannoy
Modérateur
Messages : 174
Bonjour,

Tout d'abord, merci de votre retour sur notre logiciel. C'est grâce à nos utilisateurs que nous essayons de faire évoluer nos produits, et vos remarques sont très pertinentes.

Avant d'aborder le sens de vos remarques, juste quelques réponses concernant vos questionnements immédiats :

  • Parcours/Exploration : ces deux notions concernent les méthodes de découverte et suivi des liens (l'aspect qualitatif). Le parcours consiste à découvrir et suivre les liens externes à un site web (des liens pointants vers d'autres domaines). L'exploration consiste, quant à elle, à découvrir et suivre des liens internes au site en cours de scan.
  • Largeur/Profondeur : ces deux notions concernent le volume de données (l'aspect quantitatif). La profondeur indique le niveau d'imbrication des liens (une page qui mène à une page qui mène à une autre page = profondeur de 2). La largeur indique la volumétrie de l'opération à une profondeur donnée (pour le parcours c'est le nombre de site différents, pour l'exploration c'est le nombre de pages différentes d'un même site).

iconNote :
Pour mieux apréhender ces notions, vous pouvez consulter la documentation de MailWalker ("support" puis "documentation" dans ce site web, ou directement depuis MailWalker). Pour les notions de parcours/exploration, c'est le chapitre "Principes de fonctionnement" et pour la largeur/profondeur, le chapitre "Constitution d'une session de collecte".

  • Concernant la fonction d'import de sites depuis des fichiers, cette fonction existe. Pourriez-vous me dire quelles améliorations à cette fonction vous verriez ?
  • Concernant l'écriture de règles à la volée, ça a existé dans la version 1.X (je ne sais plus exactement quel numéro de version spécifique) mais ça ne présentait finalement aucun intérêt... et ça rendait les résulats parfois aléatoires.
  • Pour la supression en cours de scan, c'est prévu dans une version très proche (la R2 ou R3 de la 2.1). Il n'y aura pas que la supression. Cela permettra d'agir sur la file de traitement de manière gégérale (supression d'une url, déplacement dans la file d'attente pour changer les prorités, remettre une url terminée dans la file d'attente,...)


Pour en venir maintenant au sens général de vos idées et conseils je suis d'accord avec vous, le produit peut être complexe à apréhender pour quelqu'un qui n'a jamais pratiqué les expressions régulières. C'est pourquoi MailWalker peut fonctionner sans les utiliser. Mais la sélectivité (et donc sa puissance) du logiciel réside justement dans l'utilisation de ces règles. Il ne s'agit pas uniquement de simples mots clés à exclure ou inclure. La portée et l'expressivité des expressions régulières n'a pas de "concurent". Malheureusement, utiliser les expressions régulières pour autre chose que des mots clés peut paraitre très rebutant.

En fait, vous avez tellement raison, que nous sommes en train de travailler sur une version allégée (en fonctionnalités, et donc en complexité) de MailWalker. Mais nous ne sommes pas encore satisfait du produit (loin s'en faut) : à force d'alléger on en fait un logiciel qui collecte un peu "à l'aveugle" (qui fait du volume, mais pas forcément très ciblé). Et des produits comme ça, pour fabriquer des "fichiers à spam", on en trouve des tonnes sur Internet. Or nous voulons que nos produits gardent leur spécificité : le qualitatif avant le quantitatif. La problématique ici, c'est de garder un juste équilibre entre la qualité du résultat et la complexité du paramétrage. Et nous n'avons pas encore trouvé la bonne recette...

En tout cas, un grand merci pour toutes ces remarques, et non, vous ne nous ennuyez pas avec vos remarques et questions : c'est cela qui fait progresser nos logiciels...

Pierre
[Dernière édition par Pierre Lannoy, 19-06-2009 12:29]
19-06-2009 12:26
icon