lundi 23 mars 2020

La pollution favorise-t-elle véritablement la diffusion du coronavirus?

Ces derniers jours, la presse (voir aussi ici et ici) a fait grand cas d'une étude montrant que la pollution favoriserait la diffusion du covid-19. La pollution serait une "autoroute" pour le coronavirus. Mon collègue Alain Content de l'Université libre de Bruxelles a cherché la source de cette étude et constate qu'il s'agit juste d'un "position paper" publié par un groupe de 12 chercheurs italiens. En d'autres termes, l’article n'a pas fait l'objet du processus d'expertise par les pairs qui permet à des travaux scientifiques d'acquérir une légitimité et de les distinguer d’autres types de prose (y compris ce blog). 

La publication scientifique est un processus extrêmement ardu. Dans les revues reconnues, peu d'articles sont publiés par rapport à ceux qui sont soumis, et passer de la soumission à la publication est souvent un parcours du combattant : chaque étude doit répondre à un examen souvent impitoyable de la part des collègues chargés d'expertiser l'article. 


Dans ce billet, j'essaye d'examiner ce “position paper” de façon critique sans pour autant être un spécialiste en épidémiologie. Toutefois, même si la psychologie est bien différente de cette discipline, elle recourt à la même approche scientifique. Elle vise la formulation de modèles causaux sur base d'observations empiriques. Les méthodes statistiques utilisées sont par ailleurs similaires.  

Que montre ce position paper? Le résultat principal de l'article est une corrélation extrêmement élevée, de .98,  entre le degré de pollution de l'air dans les provinces italiennes et le nombre de personnes infectées dans ces mêmes provinces (en fait, il s’agit du logarithme du nombre de personnes infectées mais c’est peu important pour le propos de ce billet). Cette corrélation est représentée dans la figure suivante, extraite de l’article. En abscisse, la pollution (nombre de dépassements de la limite quotidienne de PM10/nombre d'unités de surveillance par province) ; en ordonnée, le nombre de personnes infectées. Chaque point correspond à une catégorie de provinces italiennes par niveau d’infection. On voit que celles-ci s’alignent presque parfaitement sur une ligne droite. 
Une corrélation de 0.98 est absolument énorme! Le coefficient de corrélation est une statistique utilisée pour caractériser la relation entre deux variables. Il ne peut varier qu'entre -1 et 1. Une corrélation de 1 entre les variables X et Y indique qu'une équation linéaire du type Y = a *X + b (a et b étant des constantes) nous donne exactement la valeur de la variable Y sur base de la variable X. Cette valeur de 1, quasiment atteinte ici, ne survient jamais pour des observations réelles. Pourquoi? Parce que même si X "cause" Y, il y a plein de "bruit" (ce qu’on appelle de “l’erreur” en statistiques), qui obscurcit cette relation. Par exemple, le nombre de personnes infectées réel ne peut être exactement estimé (vu que tout le monde n'est pas testé). De même, les mesures de pollution de l'air comportent une erreur, comme tout instrument de mesure (elles ne vous donnent jamais la valeur absolument exacte de ce que vous prétendez mesurer - votre pèse-personne vous le confirmera). Bref, Alain Content et moi convenions que le résultat semblait étonnant et qu’il serait utile de pouvoir consulter la base de données utilisée (les auteurs indiquent sa source mais je n’ai pas accédé aux données elles-mêmes). 

Outre cette corrélation, anormalement élevée, un autre élément qui suscite l'étonnement était le suivant : il y a 102 provinces italiennes. Or, les auteurs ne rapportent que 5 observations. Pourquoi? Parce qu’ils ont en fait regroupé les observations en 5 catégories, sur base du nombre de cas infectés. Au lieu d'analyser les données des 102  provinces, ils ont donc regroupé les observations en cinq groupes de tailles égales (+/- 20 provinces donc), par niveau croissant d'infection. C'est une démarche assez étonnante. Pourquoi appauvrir une base de données riche pour ne générer que cinq points de mesure? Le risque qu'un petit échantillon donne lieu par hasard à une corrélation très élevée ne doit pas être sous-estimé
De fait, cette méthode peut artificiellement augmenter la valeur de la corrélation. Pour le démontrer, j’ai « inventé » des données ayant la même moyenne que celle de nos auteurs mais sur 102 observations (le nombre de provinces italiennes). J’ai artificiellement créé ces données en imaginant que la corrélation entre pollution et infection soit de .70. J’ai ensuite appliqué la même méthode que celle des auteurs (division en cinq catégories) et calculé la corrélation qui en résultait. Ensuite, grâce à un programme d’analyse de données, j’ai reproduit cette opération 1000 fois. Voici la distribution des corrélations qui en résulte. La barre verticale correspond à une corrélation de .70. Mais la valeur la plus fréquemment observée est de .99 et 50% des corrélations observées sont supérieures à .96!

Si je fixe arbitrairement la corrélation pour les 102 provinces à 0.30 (une valeur relativement faible - cela veut dire que +/- 10% de la variabilité du nombre d’infections s’expliquerait par la pollution), il reste 20% de chance d’obtenir une corrélation supérieure à 0.90 lorsqu’on divise ces 102 provinces en 5 groupes par ordre croissant d’infection et  la valeur de corrélation la plus fréquente (le mode) est de .99


Bref, la méthode utilisée par les auteurs est susceptible de surestimer grandement la taille de la corrélation entre pollution et infection.

Mais surtout, les provinces qui ont le taux d'infection et le niveau de pollution les plus élevés sont situées dans le nord de l'Italie, c'est-à-dire les régions les plus denses en termes de population. Il est donc possible que ce lien soit dû à la densité de population (un facteur évident de transmission du virus), qui n'est pas contrôlée dans l'étude. 

De quoi provient la pollution de l'air? De l'activité humaine : industrie, chauffage, trafic automobile tout particulièrement. Or, le nord de l'Italie (et tout particulièrement la Lombardie) est également la région la plus industrialisée d'Italie. Évidemment, le nord est aussi plus froid que le sud, ce qui peut se traduire par une augmentation de la pollution atmosphérique due au chauffage. Cela n'invalide pas l'argument des auteurs. Mais cela ne prouve pas que la pollution soit la cause de la diffusion. En fait, le nord de l'Italie où se trouvent les provinces les plus touchées se différencie des autres par de nombreuses autres caractéristiques (par exemple le nombre de sites touristiques susceptibles d'intéresser des touristes chinois...). Il est donc très difficile, sur base d'une telle corrélation, de tirer des conclusions fiables. A tout le moins, il serait nécessaire de contrôler statistiquement d'autres variables potentiellement confondues afin d'expliquer un lien aussi fort. 

Je précise que mon objectif n’est nullement de faire le procès de mes collègues italiens ou de remettre en cause leur compétence ou leur intégrité. Le type de problèmes mentionnés ci-dessus correspond à des critiques qui auraient pu être dressées lors d’un processus d’expertise pour publication. Il est normal qu’un article non encore expertisé soit entaché de scories. Un expert aurait pu demander de présenter les données sur les 102 provinces et de contrôler la densité de population (par exemple). En l’occurrence, un “position paper” invite justement au type de démarche que nous proposons ici.

C’est avant tout le traitement médiatique qui m’interpelle. Nous trouvons là un exemple de surexposition médiatique d'un résultat encore préliminaire. Cette surexposition peut être due à sa valeur de "nouvelle" pour le grand public (et à son potentiel en termes de "clics" pour les médias). Mais il me semble important que les journalistes qui relayent ce type d'information se montrent plus vigilants quant à leur source et distinguent des résultats de recherches selon la nature de leur source (article scientifiquement expertisé ou non). Ce problème est particulièrement criant en ce qui concerne les déclarations récentes du Professeur Raoult, un éminent virologue qui a vanté les mérites de la chloroquine dans le traitement de l’infection au Covid-19 sur base d'une étude extrêmement faible. En l'occurrence, n'ayant pas été consulter l'étude moi-même (comme dans le cas présent), j'ai également été séduit par son discours. Mais, comme le montre Florian Gouthière dans cet excellent billet, les médias ont là-aussi été victimes d'un manque de culture scientifique. Ami·es journalistes, et lecteurs et lectrices de ceux-ci, soyez donc prudents! 

Note:
Un grand merci à Alain Content, à l'origine de ce billet ainsi que pour sa relecture. 

Pour les "geeks" d'entre vous, le code utilisé est disponible ici

Aucun commentaire: