PHBench
PHBench : Le benchmark open-source pour prédire les levées de fonds Series A via Product Hunt
Découvrez PHBench, un benchmark ouvert conçu pour prédire le succès des startups en Series A à partir des signaux de lancement sur Product Hunt. Analysant plus de 67 000 lancements sur sept ans, PHBench identifie les futurs leaders de l'industrie grâce à des modèles de machine learning avancés et une méthodologie rigoureuse, offrant un lift de 4,7x par rapport au hasard.
2026-05-17
--K
PHBench Informations sur le produit
PHBench : Révolutionner la prédiction de levées de fonds Series A
Dans l'écosystème des startups, identifier le prochain champion est souvent comparé à la recherche d'une aiguille dans une botte de foin. C'est ici qu'intervient PHBench, un benchmark ouvert et rigoureux conçu pour prédire les levées de fonds en Series A à partir des signaux générés lors d'un lancement sur Product Hunt. En s'appuyant sur des données historiques massives et des modèles de machine learning de pointe, PHBench transforme le bruit médiatique en données exploitables pour les investisseurs et les entrepreneurs.
Qu'est-ce que PHBench ?
PHBench est un benchmark de prédiction de financement Series A basé sur une fenêtre de 24 heures suivant un lancement sur la plateforme Product Hunt. Le projet repose sur une analyse exhaustive de 67 292 lancements répartis sur une période de sept ans (de 2019 à 2025).
L'objectif principal de PHBench est de déterminer si une startup parviendra à obtenir un term sheet pour une Series A dans les 18 mois suivant son apparition sur Product Hunt. Le défi est de taille : statistiquement, seulement 0,78 % des lancements aboutissent à une Series A. Grâce à PHBench, les chercheurs et analystes peuvent évaluer l'efficacité de leurs modèles prédictifs par rapport à un taux de base (base rate) très faible, en visant un "lift" significatif sur les prédictions aléatoires.
Caractéristiques principales de PHBench
Le système PHBench se distingue par sa transparence et sa précision technique. Voici les piliers de cette plateforme :
Un jeu de données massif et vérifié
PHBench utilise un corpus de données impressionnant pour entraîner ses modèles :
- 67 292 lancements analysés.
- 528 gagnants (startups ayant réellement levé une Series A vérifiée).
- Une période d'observation de 7 ans pour l'entraînement, la validation et les tests.
- Une fenêtre critique de 18 mois entre le lancement et la signature du term sheet.
Une analyse fine des signaux vs le bruit
L'un des apports majeurs de PHBench est la distinction entre les signaux réellement prédictifs et le simple bruit marketing. L'étude de PHBench a identifié 12 signaux clés, tandis que d'autres indicateurs populaires se sont révélés peu concluants.
Les signaux forts (Alpha) :
- Rang quotidien lors du lancement : Les produits terminant dans le Top 3 ont 3,5 fois plus de chances de lever une Series A.
- Interaction Upvotes × Rang : La combinaison de la popularité et de la position finale.
- Nombre de followers des makers (Log) : L'influence préexistante de l'équipe.
- Ratio votes par commentaire : La qualité de l'engagement.
- Cluster thématique B2B : Les solutions professionnelles montrent une meilleure propension à la levée.
- Interaction Thème AI × Année : L'importance du secteur de l'intelligence artificielle couplée au timing.
Le bruit (Indicateurs peu fiables) :
- Le nombre brut de votes (Raw upvote count).
- Le simple label "AI" sans contexte.
- La longueur de la tagline.
- Le jour spécifique de la semaine pour le lancement.
Comment utiliser PHBench ?
PHBench propose un cadre structuré pour les data scientists et les analystes VC (Venture Capital) souhaitant tester leurs capacités de prédiction.
- Accès aux données : Utilisez le fichier
phbench_public_test.csvpour tester vos modèles. Ce jeu de données est maintenu séparément pour garantir l'intégrité des résultats. - Entraînement des modèles : Vous pouvez soumettre des prédictions basées sur diverses méthodes, allant de la régression logistique (LR) aux modèles de gradient boosting comme XGBoost (XGB) ou LightGBM (LGBM).
- Soumission et classement : Une fois vos prédictions générées, vous pouvez les soumettre au Leaderboard de PHBench pour voir comment votre modèle se compare aux meilleures performances actuelles, comme le Top-3 Ensemble.
- Consultation des prédictions hebdomadaires : Pour ceux qui recherchent des insights sans construire de modèles, il est possible d'obtenir des prédictions hebdomadaires basées sur les derniers lancements.
Cas d'utilisation de PHBench
PHBench est un outil polyvalent qui sert plusieurs acteurs du marché :
- Investisseurs (Venture Capital) : Utiliser PHBench pour filtrer automatiquement les milliers de lancements annuels et concentrer les efforts de sourcing sur les startups ayant le plus fort potentiel de Series A.
- Chercheurs en Data Science : Le benchmark offre un terrain d'expérimentation idéal pour tester des modèles de classification sur des classes très déséquilibrées (0,78 % de succès).
- Fondateurs de startups : Comprendre quels signaux (comme le rang quotidien ou le ratio de commentaires) impactent réellement la perception des investisseurs post-lancement.
Le Leaderboard : Performances des modèles
Le classement de PHBench montre une compétition féroce entre différents types d'architectures. Actuellement, le modèle Top-3 Ensemble (une moyenne de plusieurs modèles XGB et ENS) domine le classement avec un score F0.5 de 0.284 et un AUC de 0.840.
Il est intéressant de noter que les modèles de langage (LLM) comme Gemini 3 Flash ou Gemini 3.1 Pro de Google, bien que performants, restent pour l'instant derrière les modèles de Gradient Boosting optimisés sur les signaux structurés de PHBench.
FAQ sur PHBench
Quelle est la précision du meilleur modèle de PHBench ? Le meilleur modèle actuel offre un lift de 4,7× par rapport à une sélection aléatoire sur le set de test, ce qui représente une amélioration considérable pour identifier les futurs succès.
Qu'est-ce que le "Base Rate" mentionné dans l'étude ? Le base rate est le taux de réussite naturel : seulement 0,78 % des entreprises qui lancent sur Product Hunt atteignent la Series A. C'est le point de référence pour mesurer l'efficacité de PHBench.
La méthodologie de PHBench est-elle reproductible ? Oui, PHBench a été conçu pour être entièrement reproductible et citable. Chaque étiquette est auditée manuellement et chaque fonctionnalité est documentée précisément dans leur documentation technique.
Pourquoi le rang quotidien est-il plus important que le nombre de votes ? L'analyse de PHBench montre que le rang capture une dynamique non-linéaire. Passer de la 4ème à la 1ère place ajoute beaucoup plus de valeur prédictive que de passer de la 10ème à la 4ème, indépendamment du nombre absolu de votes reçus.
En conclusion, PHBench s'impose comme une ressource indispensable pour quiconque s'intéresse à l'analyse prédictive du succès des startups. En combinant science des données et expertise du marché du capital-risque, ce benchmark définit de nouveaux standards pour l'évaluation des lancements de produits.








