annuaire-shopify

Extraire une liste de boutiques Shopify : 3 méthodes

Trois approches existent pour constituer une liste de marchands Shopify : explorer vous-même, agréger les sources publiques, ou acheter un annuaire externe. Aucune n'est universellement bonne. Ce guide compare le coût réel sur 12 mois, les failles juridiques et le seuil de bascule entre chacune.

Le besoin : une liste segmentée de marchands Shopify, à jour

La question revient à peu près tous les mois sur les forums croissance et dans les fils LinkedIn e-commerce : « comment je récupère une liste propre des boutiques Shopify FR / par secteur ? ». Derrière cette question se cachent quatre cas d’usage réels :

  • Prospection B2B — un commercial ou une agence qui veut prospecter par téléphone ou par email les marchands Shopify d’un vertical.
  • Enrichissement CRM — un éditeur d’outil qui croise sa base existante avec un signal « ce compte tourne sous Shopify » pour scorer ou router des prospects.
  • Sourcing fusion-acquisition et vente en gros — un investisseur ou un fournisseur qui cherche les marques natives d’une certaine taille pour proposer un rachat ou un partenariat.
  • Analyse de marché — un fondateur, un consultant ou un journaliste qui veut comprendre la volumétrie réelle d’un segment.

Dans tous les cas, le besoin se décline sur trois axes : couverture (combien de boutiques on capture sur le segment cible), fraîcheur (à quelle date la liste a été vérifiée), et enrichissement (quels champs au-delà du simple domaine).

Trois méthodes existent. Aucune n’est universellement supérieure. Ce qui change, c’est le profil d’équipe, le budget, et le délai.

Approche 1 : outil d’exploration maison

Le principe est connu : on construit son propre pipeline.

  1. Liste de départ. On part de sources publiques connues — vitrine Shopify officielle, exports BuiltWith / Wappalyzer en version gratuite, sitemaps de fournisseurs DNS, listes Github communautaires. On compile quelques dizaines de milliers de domaines candidats.
  2. Vérification /products.json. L’endpoint Shopify natif renvoie le catalogue produit en JSON public. Un GET sur https://domaine.tld/products.json qui répond 200 avec un payload JSON valide signe le marchand comme Shopify avec une fiabilité quasi totale (voir reconnaître un site Shopify).
  3. Déduplication canonique. On normalise les domaines : suppression du www., du slash final, harmonisation http/https, gestion des redirections. Cette étape retire facilement 4 à 5 % de doublons.
  4. Enrichissement progressif. Détection du thème via le HTML rendu, extraction du nom commercial via la balise <title>, identification des technologies secondaires.

Coût de développement. Un développeur senior compétent met 5 à 10 jours pour livrer une v1 propre — file de tâches (Redis, SQS), workers, base de stockage, gestion des nouvelles tentatives, surveillance. À un tarif moyen de 600 à 800 € HT/jour, on est sur 4 à 6 k€ de charges en argent visible.

Coût d’infrastructure récurrent. En régime de croisière, on tient le budget à 50 à 100 € par mois : quelques workers cloud, une base de données modeste, du stockage objet.

Coût de la rotation IP. C’est ici que le calcul peut déraper. Crawler 100 000 domaines en 1 heure depuis une seule IP centre de données, c’est se faire marquer par Cloudflare en 2 jours. La parade : proxies résidentiels rotatifs, observés chez les principaux fournisseurs (Bright Data, Oxylabs, Smartproxy) entre 5 et 15 $ par Go consommé. Comptez 200 à 500 € par mois.

Risques techniques. Trois pièges classiques :

  • Blocage IP Shopify et Cloudflare. Au-delà d’un certain rythme, le système anti-bot vous marque et l’erreur 403 devient systématique.
  • Casse silencieuse sur changement de DOM. Shopify renomme une classe CSS. Votre détecteur passe en faux négatif pendant une semaine avant que quelqu’un s’en aperçoive.
  • Dette technique invisible. L’outil d’exploration n’est pas le cœur de votre produit. Chaque heure passée à le maintenir est une heure de moins sur la fonctionnalité qui vous différencie.

Quand l’outil maison est rationnel. Vous avez une équipe data interne déjà rôdée sur les pipelines de collecte. Vos volumes ciblés dépassent les 100 000 domaines uniques par cycle. Vous avez besoin de signaux personnalisés.

Quand il ne l’est pas. Vous êtes une équipe au début de 2-3 personnes sans ingénieur data dédié. Votre produit n’est pas un outil de collecte, c’est un outil verticalisé qui consomme la donnée Shopify.

Approche 2 : exploration de vitrine — gratuit mais incomplet

L’approche la plus accessible. On agrège des sources publiques sans rien explorer agressivement :

  • La vitrine Shopify officielle — quelques milliers de marchands sélectionnés par Shopify, avec une fonction de filtre par catégorie. Couverture limitée, mais qualité éditoriale élevée.
  • BuiltWith — une base technologique massive qui expose en interface gratuite des listes de sites par technologie. La version gratuite limite à quelques dizaines de résultats par requête.
  • Wappalyzer — extension navigateur et API. Idem que BuiltWith en philosophie.
  • DNS lookup et certificate transparency — quelques techniques avancées permettent d’identifier les domaines qui pointent vers les CDN Shopify.
  • Listes Github communautaires — il existe une poignée de dépôts publics qui maintiennent des listes de marchands Shopify, souvent par pays ou par niche.

Coût. On peut tenir à 0 € en mode 100 % manuel sur quelques heures. À grande échelle, l’addition monte si on souscrit à BuiltWith Pro : ordres de grandeur observés autour de 500 à 2 000 € par mois selon le palier. Wappalyzer propose des plans similaires.

Limites de couverture. C’est le point dur. Aucune source publique ne couvre les 70 000 boutiques Shopify uniques recensées mondialement. La vitrine officielle ne descend pas à la marque native de niche, BuiltWith manque les marchands trop récents ou trop petits pour être indexés, les listes Github sont datées. Vous obtenez une couverture probable de 30 à 60 % du segment cible.

Limites d’enrichissement. La stack secondaire est rarement disponible en sortie d’un seul de ces outils. Vous croisez plusieurs sources et reconstruisez en pratique un mini outil d’exploration maison.

Risques juridiques. À ne pas balayer. Les conditions générales de plusieurs annuaires interdisent explicitement la collecte automatisée de leur interface. BuiltWith et Wappalyzer ne sont pas des bibliothèques publiques que vous récoltez librement.

Quand cette approche est rationnelle. Vous avez un besoin ponctuel sur une niche restreinte. Vous voulez qualifier vite une opportunité de marché. Vous êtes un consultant qui produit un audit ponctuel pour un client. Vous tolérez une couverture de 40-60 % et une fraîcheur incertaine.

Approche 3 : achat d’annuaire externe

Le principe : vous achetez à un fournisseur qui a déjà fait le travail. Exploration, déduplication, enrichissement progressif, mises à jour, le tout livré en CSV, tableau de bord ou API selon le format.

Spectre des fournisseurs. Le marché a deux familles :

  • Les bases technographiques généralistes type BuiltWith Pro, Wappalyzer, ou des outils B2B plus larges (Apollo, ZoomInfo, SimilarTech) qui exposent un filtre « Shopify » parmi des dizaines d’autres. Ordres de grandeur observés : 500 à 5 000 € par mois selon le palier. Avantage : couverture technologique large. Inconvénient : Shopify n’est qu’un filtre parmi des centaines.
  • Les annuaires verticalisés Shopify comme celui-ci. On ne couvre qu’une seule plateforme, mais on la couvre en profondeur. Tarification calibrée pour ce cas d’usage précis : CSV ponctuel 149 € pour un pays au choix, Pro 99 €/mois (prévente) pour le tableau de bord multi-pays + mises à jour mensuelles, Pro avec API 199 €/mois pour 50 000 appels API et 5 notifications automatiques signées HMAC, accord sur mesure pour les volumes au-delà.

Limites à connaître. L’achat externe crée une dépendance fournisseur. La fraîcheur dépend du cycle de mise à jour du fournisseur. Le coût peut devenir récurrent.

Risques juridiques (sur le bon fournisseur). Un annuaire sérieux a déjà fait le travail RGPD et publie sa base légale (intérêt légitime art. 6.1.f pour des données B2B publiques), respecte les robots.txt à la source, et fournit un contrat clair. Vous transférez le risque d’audit sur le fournisseur. Voir RGPD prospection B2B e-commerce.

Quand l’achat externe est rationnel. Vous avez un besoin opérationnel sous une semaine. Vous n’avez pas de développeur disponible. Le coût mensuel d’abonnement est inférieur au coût mensuel implicite du temps de votre équipe.

Comparaison coût total 12 mois

Sur un cas d’usage type « agence qui consomme 10 000 fiches marchands par mois » :

Approche Coût initial Coût mensuel Coût total 12 mois
Outil maison 4-6 k€ 50-500 € 5-12 k€
Exploration vitrine + BuiltWith 200 € 200-2 000 € 2,5-24 k€
Annuaire externe (Pro 99 €) 0 € 99 € 1,2 k€
Annuaire externe (CSV 149 €) 149 € (une fois) 0 € 149 € (sans mises à jour)

Trois lectures honnêtes :

  • Le CSV ponctuel à 149 € gagne sur le pur coût absolu, mais ne couvre pas le cas d’usage si vous avez besoin de fraîcheur ou de multi-pays. Instantané daté, mono-pays.
  • L’annuaire externe Pro à 99 €/mois gagne sur le ratio coût/fonctionnalité quand vous avez besoin de fraîcheur et de multi-pays. Sur 12 mois, vous êtes 10 fois moins cher qu’un outil maison sérieux.
  • L’outil maison reste pertinent au-delà d’un certain seuil de volume (> 100 000 boutiques cible) ou d’un besoin personnalisé non couvert par les fournisseurs.

Question juridique : robots.txt, conditions générales, RGPD B2B

Trois couches de droit à connaître avant de toucher à un outil d’exploration.

robots.txt. Le Robots Exclusion Protocol n’a pas de force juridique uniforme dans tous les pays mais constitue un signal explicite de l’éditeur du site. En pratique, respecter le robots.txt est gratuit et coupe court à tout débat.

Conditions générales Shopify et des sites marchands. Les conditions générales de Shopify et celles des marchands individuels peuvent encadrer l’usage automatisé de leurs interfaces. L’endpoint /products.json est public et documenté, donc son appel ne pose pas de problème de principe. La collecte massive de pages produit en mode hostile sort du cadre. La frontière pratique : 1 requête par seconde max par domaine, en-tête User-Agent identifié, respect des codes de retour 429 / 503.

RGPD B2B. Pour des données publiques B2B (URL d’un marchand, nom commercial, thème Shopify utilisé), la base légale standard est l’intérêt légitime (art. 6.1.f RGPD), à condition de mener une analyse documentée et de respecter les droits des personnes concernées. La nuance arrive si vous enrichissez avec des données personnelles. Détail complet dans RGPD prospection B2B e-commerce.

Quel format de livraison choisir : CSV, JSON, API ?

Dépend du flux.

CSV (Excel / Numbers). Pour les commerciaux qui prospectent par téléphone, les opérations qui tirent un fichier figé pour une campagne ponctuelle. Avantages : ouvert partout, pas de dépendance technique. Inconvénients : pas de fraîcheur post-livraison. Voir commercial Excel.

Tableau de bord web avec exports CSV à la demande. Pour les agences qui pilotent plusieurs campagnes, ont besoin de filtres dynamiques (pays, thème) et veulent télécharger un sous-ensemble par mission. Format Pro à 99 €/mois.

API REST + notifications automatiques. Pour les développeurs qui intègrent la donnée dans un produit, un flux d’enrichissement CRM, ou un déclencheur automatisé. Format Pro avec API à 199 €/mois — voir développeurs d’outils Shopify.

Quand vous devriez explorer vous-mêmes (et quand pas)

Trois questions à poser dans cet ordre :

  1. Avez-vous un développeur disponible 5 j/mois en maintenance, sur 12 mois ? Si non, l’outil maison ne tiendra pas dans le temps.
  2. Vos volumes ciblés dépassent-ils 50 000 boutiques par cycle ? Si non, un annuaire externe couvre le besoin.
  3. Avez-vous besoin d’un signal technique secondaire ultra-spécifique que personne n’expose ? Si non, idem.

Trois « oui » plaident pour l’outil maison. Un seul « non » plaide pour l’annuaire externe.

Voir aussi

← Retour au panorama des guides · Tester gratuitement · Voir les tarifs

Décision simple

Vous voulez tester sur votre cible ?

Recevez 10 fiches d’exemple, sans carte bancaire, puis passez au CSV ou Pro si la donnée colle à votre marché.