Accueil > Support > Forums > Announcements > Collecte de mails - Paramétrages
icon
Avatar
LILEGI
Messages : 8
Bonjour,
Suite à un premier contact par mail, je me permet de continuer la discussion, comme vous me l'avez suggéré sur le forum :

Je souhaite récupérer les adresses mails présentes sur un site.
Prenons par exemple celui-ci :
http://www.rochexpo.com/index.php

Dans le menu gauche :
> Foire internationale
> Les exposants Ici
> Lettre de l'alphabet Ici
> Numéro de la page Ici
> Fiche exposant Ici
Sur la plupart des fiches est présent un mail.

J'ai donc paramétré :
Parcours
Profondeur : 8 niveaux de liens
Largeur : 0 site maximum
Exploration
Profondeur : 10 niveaux de pages
Largeur : 100 pages maximum
Recherche des liens : Dans toutes les pages
Recherche des mails : Dans toutes les pages
Options de collecte : Par défaut + Analyse de la source HTML

Avec ces options, je n'arrive qu'a avoir les mails des organisateurs (que je peux retiré grâce aux options d'exclusions).

Pour le moment, de touts les softs concurrent à MW, c'est pour moi le plus intuitif et rapide à prendre en main. Je serais donc content de réussir à en comprendre toutes les petites astuces pour me décider sur l'abonnement d'un aspirateur d'e-mail.
19-03-2009 17:55
Avatar
Pierre Lannoy
Modérateur
Messages : 173
Re bonjour,

...et un grand merci pour votre exemple édifiant : il s'agit d'un site tout à fait particulier qui présente une caractéristique que nous n'avions jamais rencontré sur des sites "sérieux" : il n'utilise aucune forme "d'URL rewriting" (pour résumer, l'URL rewriting est une technique qui permet d'avoir une url digne de ce nom). Si vous regardez les url de ce site, vous découvrirez que tout se fait par des paramètres passés au fichier index.php.

Mais arrêtons là les dicours techniques, je ne vais pas tourner autour du pot : MailWalker n'est en l'état pas capable d'exploiter un site comme cela (nous ne pensions vraiment pas qu'il était possible de trouver des sites construits comme cela de nos jours...).

Nous allons donc publier un correctif permettant d'accéder à ces types de sites.

Ce correctif devrait être disponible en début de soirée via les mises à jour automatique de MailWalker...

Pierre
19-03-2009 18:55
Avatar
Pierre Lannoy
Modérateur
Messages : 173
Petit rectificatif : la mise à jour est disponible depuis quelques minutes via les mises à jour automatiques.

Pierre
19-03-2009 20:38
Avatar
LILEGI
Messages : 8
Merci beaucoup pour votre célérité, je vais testé ça d'ici la fin de soirée, et je vous tiens au courant.

Sympathique la mise à jour automatique, c'est appréciable :)
19-03-2009 21:49
Avatar
LILEGI
Messages : 8
Y a-t-il des paramètres spéciaux à entrer pour le bon fonctionnement sur ce type de site ?
J'ai lancé un test "à vide", avec les mêmes paramètres, et je suis tombé sur les mêmes résultats.
D'avance merci !


EDIT : J'ai fait le test sur 2 autres sites, même problème, et pourtant, il utilise l'url rewriting, et pas des paramètres de l'index.php :| :|
19-03-2009 22:03
Avatar
Pierre Lannoy
Modérateur
Messages : 173
Bonjour,

J'ai fait l'essai sur le site dont vous parlez. Je me suis contenté de chercher dans les pages alphabétiques. Voici comment j'ai fait :
- j'ai créé un fichier site.txt avec le notepad
- sur la première ligne j'ai mis http : //www.[...]FROM=L&L=A
- sur la deuxième http : //www.[...]FROM=L&L=B et ainsi de suite jusqu'à Z
- j'ai enregistré le fichier puis importé dans MailWalker
- j'ai utilisé les paramètres suivants : profondeur de parcours : 0 / profondeur d'exploration : 1 / largeur d'exploration : 500 (j'ai majoré, à mon avis on peu mettre beaucoup moins)
- j'ai laissé les autres paramètres par défaut et j'ai lancé.

Résultat, il collecte bien les mails en commençant par A2S, Savoie Cheminée,...

On peut aussi pousser le bouchon en choisissant le mode exclusif pour la collecte pour supprimer tous les mails en ...@rochex...

Bien évidemment, on peu aussi ne donner que la page d'accueil, mais l'intérêt de faire comme ça, en donnant tous les liens par lettre, permet de "paralelliser" la recherche (et donc l'accélerer).

De votre côté quels sont les paramètres que vous utilisez (et qui ne donnent rien, si j'ai bien compris) ?

Pierre
20-03-2009 00:16
Avatar
LILEGI
Messages : 8
Je vais essayer comme ça, merci pour votre astuce !
J'ai lancé la recherche avec des paramètres pour rester sur le mêmes sites, en cherchant depuis la page d'accueil, avec les mêmes paramètres que précédemment en somme.

Merci en tout cas, je vais essayer ça se soir en rentrant du bureau.

Romain.
20-03-2009 00:27
Avatar
LILEGI
Messages : 8


Je suis bloqué à 100 en largeur de page, dû à la version d'essai je pense.
J'ai dépiauté "à la main" le site, et je suis arrivé à 242 e-mails (sans les mails ...@rochexpo..).
Avec MW, je reste à 113 avec les mails des organisateurs

J'essaie en rajoutant dans mon .txt
Les url des page 2,3,4,5,6 pour chaque lettre dispo...
On verra bien si ça fonctionne !

Edit : ca marche
:P
20-03-2009 17:42
Avatar
Pierre Lannoy
Modérateur
Messages : 173
Bonjour,

heureux de voir que cela fonctionne :rolleyes:

Pour ce qui est de la limite, c'est vous qui la fixez. C'est une sorte de garde-fou. Si vous voulez aller au delà des valeurs par défaut, il faut vous rendre dans les options, onglet "processus" puis dans la catégorie "parcours" et "exploration", vous pouvez fixer les valeurs max et par défaut (je crois que vous pouvez monter jusqu'à 10000 pour la largeur). Ce n'est pas une limitation de la version de démonstration...

Bonne continuation et n'hésitez pas à nous tenir au courant.

Pierre
20-03-2009 17:52
Avatar
LILEGI
Messages : 8
Vous aimez le challenge ?? :P
Encore un site qui pose soucis...
(Vous avez bien compris que je cherche la liste des exposants, du moins un contact)
Voilà le 2ème salon que j'ai trouvé :
Salon nautique 2009 de Paris
Maison-objet
Quand on change de page... L'URL ne change pas, et je ne vois pas de solutions possibles :s
[Dernière édition par LILEGI, 03-04-2009 16:00]
20-03-2009 21:36
Avatar
Pierre Lannoy
Modérateur
Messages : 173
he, he, bel exemple de protection des données

Malheureusement, ce type de protection n'est pas contournable (par nature) par des outils comme MailWalker. Il s'agit en fait d'une incrustation d'un formulaire (au sein de la page) couplé à un script JS. Autant dire totalement innaccessible par ce type d'outil.
Pour accéder aux fiches, il faut un outil interractif qui permet de collecter les urls (car ce sont bien les urls qui sont protégées) tout en surfant. C'est justement le propos de l'outil que nous sommes en cours de développement (après InstantWalker, un collecteur d'adresses IM que nous sortirons avant, voir le troisième point de la news ici : http://www.websynaptics.com/news_12_2009-est-la-.html).

En attendant, malheureusement, point de salut !

Désolé pour cette mauvaise nouvelle (et pourtant j'aime les chalenges !)

Pierre
20-03-2009 22:13
Avatar
LILEGI
Messages : 8
En fait, chaque site à son organisation et codage différent...
Je pense que je vais rester à la bonne vieille méthode avant d'avoir trouver un utilitaire vraiment efficace.
Ca ne m'empêchera pas de prendre une licence pour dépiauté les URL que j'aurais enregistré.
Je reste toute fois en veille (technologique :P) histoire de voir si ça évolue assez pour être vraiment efficace sur des sites complexes.
A bientôt !
Romain.

Edit : Je viens de voir votre message...
Tenez moi informé quand votre projet est finalisé, vous avez mon mail
Cordialement.
[Dernière édition par LILEGI, 03-04-2009 16:00]
20-03-2009 22:46
icon