Vous êtes-vous déjà fait des remarques de ce genre : “Ah, tiens, cet indice (indicateur) devrait refléter tel élément (conséquence d’une action) !” ou plus concrètement “Si je lâche mes clés, elles devraient tomber” ou enfin pour “Si j’ai beaucoup d’abonnés sur les réseaux sociaux, je devrais avoir beaucoup de j’aime”.
Toutes ces assertions, ces intuitions, sont le fruit de nos réflexions abstraites. Nous projetons sur la réalité des idées, des hypothèses, que nous extrapolons ensuite de façon justifiée ou non. Cela relève de notre aptitude à identifier des…
Corrélations
#1 Révisions
Définitions communes de corrélation
n.f. : “Lien, rapport réciproque”, synonyme de rapport, concordance, correspondance, dépendance, interdépendance, liaison, relation.
Dictionnaire le Robert
“Rapport existant entre deux choses, deux notions, deux faits dont l’un implique l’autre et réciproquement”
“Corrélation linéaire. S’exprime graphiquement par une ligne droite”
CNRTL
Une corrélation évoque donc la relation entre deux phénomènes et possiblement l’interdépendance, la réciprocité. Si elles peuvent convenir dans le langage commun, elles sont erronées en mathématiques où l’applicabilité de chacun de ces termes est déterminante dans l’analyse de données (et par conséquent, les décisions qui en découlent).
Définition statistique de corrélation
Sur la page Wikipédia de corrélation on peut lire dès la première ligne : “En probabilités et en statistique, la corrélation entre plusieurs variables aléatoires ou statistiques est une notion de liaison qui contredit leur indépendance.”
Etudier une corrélation, en somme, c’est étudier l’intensité de la liaison qui pourrait exister entre des variables (faire du sport et maigrir/prendre de la masse musculaire, temps de sommeil et productivité, nombre de lunettes vendues et nombre d’accidents de la route, etc…). La corrélation n’est pas la “causalité”. Dire que deux phénomène sont liés “statistiquement” n’est pas suffisant pour conclure qu’un des phénomènes étudié est la cause de l’autre et explique son comportement plus ou moins majoritairement. Les connaisseurs appellent cela l’effet cygogne.
En voici un exemple préliminaire simple : vous remarquez que le jour où vous lavez vos cheveux, souvent, il pleut. Pouvons-nous en conclure que le fait de laver vos cheveux provoque la pluie ? Ou bien que lorsqu’il pleut cela vous fait laver les cheveux ? Il y a sûrement d’autres explications plus pertinentes non, le rapport de cause à effet semble un peu léger…
La corrélation peut donc être mesurée par le coefficient de corrélation linéaire. C’est un quotient de la covariance et du produit des écarts-types des données statistiques étudiées. En pratique, il s’agît d’un calcul de différences (écarts-types). Ces différences sont appelées “erreurs” dans le cadre, ensuite, d’une “régression” où l’on cherche à formaliser la relation. Concrètement, il s’agît d’essayer d’écrire la formule qui régit/explique le phénomène étudié. Pour que cette régression soit la plus fidèle possible, on cherche les coefficients tels que les “erreurs” (ou écarts à la moyenne) soient les plus petites possibles. C’est généralement la…
Régression linéaire
Il existe de nombreuses autres formes de régression, qui permettent de mieux s’adapter aux phénomènes : logarithmique (croissance forte puis stagnation), exponentielle et polynômiale.
Dans les faits, nous utilisons instinctivement la corrélation pour agir ou prendre des décisions sans passer par ces calculs formels : nous savons qu’en tournant le robinet sous la douche, l’eau va devenir plus chaude ou froide (relation plutôt linéaire), nous luttons contre les mauvaises herbes rapidement car nous savons qu’en peu de temps elles peuvent envahir le jardin (phénomène plutôt exponentiel).
Mais, dans certains cas, l’appui des chiffres et calculs peut nous aider à renforcer ou infirmer plus rapidement que par l’observation ces intuitions et, nous allons voir tout de suite comment.
# Application aux start-ups françaises
Rapatrier des données, faire des hypothèses
Scroller LinkedIn est une tâche quotidienne automatique ! Il est difficile en ce moment d’ignorer la communication directe comme indirecte sur les levées de fonds de nos licornes françaises. En se baladant sur la fiche entreprise de quelques unes, l’équipe de PEM (ndlr : progresser-en-maths.com) s’est vite aperçue que les grandes leveuses de fonds avaient beaucoup d’abonnés ! Dans le palmarès de cet indicateur du Next40, Deezer en affiche 101 566. Vinci (routes, ponts, parking…), actuellement dans le CAC40 et essentielle à nos déplacements quotidiens comme occasionnels ne compte que 338 711 abonnés. La licorne de la musique en streaming n’a pas à rougir…
Nous nous sommes posé la question donc de la corrélation entre le nombre d’abonnés sur LinkedIn (variable 1) et la somme totale de levées de fonds (variable 2) de l’entreprise start-up. Le lien est-il “réel” ou ces évènements sont-ils statistiquement indépendants ?
Hypothèse à noter : Nous écarterons de l’analyse les entreprise pour lesquelles la levée de fonds est nulle.
Pour cela, nous avons construit un tableau de ce type :
Nom | Levée de fonds (€) | Capitalisation (€) | Nombre d’employés | Nombre d’abonnés Linkedin |
---|---|---|---|---|
Deezer | 480 000 000 | 1 milliard | 769 | 101 566 |
Blablacar | 405 000 000 | 1,6 milliard | 653 | 75 849 |
Mirakl | 357 000 000 | 1,4 milliard | 357 | 51 601 |
ManoMano | 310 000 000 | 675 000 000 | 518 | 18 887 |
ContentSquare | 302 000 000 | 909 000 000 | 803 | 33 387 |
Doctolib | 237 000 000 | 1 milliard | 1 523 | 43 848 |
Sources autres données : la French Tech
Nous avons ensuite simplement créé des graphiques nuages de points en variant les données analysées. Enfin, nous avons tracé la “droite de régression” et calculé le “R2” qui n’est autre que le coefficient de corrélation définit plus haut. Grossièrement, on peut synthétiser l’importance d’une relation de corrélation comme suit :
Corrélation | Négative | Positive |
---|---|---|
Faible | de −0,5 à 0,0 | de 0,0 à 0,5 |
Forte | de −1,0 à −0,5 | de 0,5 à 1,0 |
Tester des corrélations
Commençons par le graphique qui place en abscisse la capitalisation des start-ups et en ordonnée le nombre d’abonnés sur LinkedIn.

Lecture : Deezer capitalise 1 milliards d’euros et compte environ 100 000 abonnés sur Linkedin. Le R2 est de 0,155 soit 15,5% du nombre d’abonnés sur Linkedin s’expliquerait par la valeur croissante de la capitalisation des entreprises.
Les points sont très majoritairement concentrés en bas à gauche du graphique et les outliers (ndlr : donnée “aberrante” statistiquement) comme OpenClassRooms, Deezer, Blablacar et Voodoo sont très éloignés de la droite de régression. La corrélation est donc très faible, de plus son indicateur statistique R2 = 0,155 est inférieur 0,5. On ne peut pas conclure que le nombre d’abonnés influence la capitalisation des pépites françaises.
Essayons de corréler le nombre d’employés et les sommes levées. Il peut être intuitif de se dire qu’une entreprise lève des fonds pour alimenter sa croissance et se développer. Ceci ayant pour conséquence probable, une demande de travail supplémentaire.

Lecture : Doctolib a 1500 employés en 2021 et a levé environ 240 millions d’euros. Le R2 est de 0,265 soit 26,5% du nombre d’employés s’expliquerait par la valeur croissante des levées de fonds.
Le nuage de points est moins concentré que dans le premier graphique, les outliers sont moins nombreux et moins écartés de la moyenne representée par la droite de régression. Cependant le R2 reste inférieur à 50%. En effet, si l’on s’attarde sur chaque segment : entre 100 et 200 millions d’euros levés, les entreprises emploient entre quelques et 500 personnes, et en moyenne quelques centaines. Ensuite, entre 200 et 300 millions la variance (écart-type) augmente, les entreprises sont dispersées, il ne semble pas qu’il y ait de règle prédéterminant exactement à partir du montant de la levée de fonds, le nombre d’employés.
Deezer a levé environ 500 millions, Doctolib moins de 250 millions et pourtant, Doctolib emploient 1500 personnes, soit deux fois plus que Deezer qui avoisine les 650.
On peut dire que probablement la levée de fonds aide les entreprises à embaucher, mais la cause n’est ni certaine ni directe.
Continuons avec une troisième analyse, croisons le montant levé et la capitalisation (valeur) de l’entreprise. En effet, une entreprise qui lève des fonds devrait naturellement allouer cette rentrée d’argent à sa capitalisation pour renforcer sa crédibilité auprès de ses partenaires.

La variance, ou les erreurs moyennes de la prédiction sont encore réduites dans ce cas. La répartition des points se concentre plus autour de la droite que dans les graphiques précédents, mais le R2 (0,475) reste toujours inférieur à 0,50, la corrélation est encore faible/moyenne. On peut noter une information intéressante : la capitalisation des entreprises semble être le triple du montant levé par les start-ups. Cela pourrait être dû aux formes d’augmentations de capital qui sont prévues pour ne pas diluer les actionnaires précédents.
Enfin, analysons l’impact du montant levé par les start-ups sur leur nombre d’abonnés sur Linkedin. La levée de fonds serait-elle en partie au service de la stratégie marketing et communication ?

Lecture : Blablacar a levé environ 400 millions d’euros et compte environ 75 000 abonnés sur Linkedin. Le R2 est de 0,658 soit 65,8% du nombre d’abonnés sur Linkedin s’expliquerait par la valeur croissante des montants que les start-ups lèvent.
Cette fois le coefficient de corrélation R2 dépasse le seuil de 0,5 atteignant 65,8%. On peut dire que le montant levé par les start-ups explique statistiquement 65,8% de la quantité d’abonnés sur LinkedIn des start-ups française. La corrélation statistique semble exister et être pertinente, la causalité entre ces deux phénomènes est probable (mais comme expliqué en amont non certaine).
3. Analyser les résultats et conclure
Quelles peuvent être les raisons de cette causalité potentielle ? Les levées de fonds des start-ups sont un phénomène assez récent qui a tendance à faire de plus en plus de bruit dans le paysage économique. Le bruit est amplifié par la nouvelle dénomination de l’association française la French Tech, qui décrit les start-ups comme les prochaines entreprises du CAC40 ou SBF120 via les dénominations NEXT40 ou NEXT120.
Elles intéressent donc les investisseurs particuliers comme aguerris, à la recherche de forts rendements (pour en savoir un peu plus, toujours dans l’esprit PEM, nous conseillons cet article).
Or, les start-ups existent beaucoup par et grâce aux réseaux sociaux. Elles sont armées de community managers et de commerciaux d’un tout nouveau genre, qui jurent essentiellement par le “marketing digital”. La course aux abonnés sur toutes les plateformes permettrait d’atteindre plus facilement qu’ailleurs des “leads” (ndlr : en langue parisano-startupienne : clients, consommateurs particuliers ou professionnels).
Un moyen “facile” d’attirer fortement l’attention au-delà du cercle des initiés ou interessés du secteur propre de l’entreprise est de réaliser une levée de fonds, et si possible plus élevée que celle dont les Echos a parlé la semaine précédente.
Si vous avez aimé cet article, vous aimerez sans doute notre rubrique Maths Facts, pour la visiter, c’est juste ici 😉 !
Découvrez aussi nos derniers articles !
* Disclaimer : Nous attirons encure une fois l'attention du lecteur sur le fait que corrélation n'est pas causalité. L'étude statistique ne peut se substituer à une analyse logique argumentée afin de justifier le sens des chiffres, c'est un outil d'aide à la décision imprécis que l'esprit critique doit savoir manipuler avec précaution.