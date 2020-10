Tribune : La transparence de Santé Publique France en matière de dépistage du Covid est un leurre !

J’aurais dû davantage me méfier après ma première déconvenue d’utilisation de la base de données « système informatique de dépistage », à l’acronyme « SI-DEP », en soi-disant « open data » sur data.gouv.fr (ici) ou sur Géodes (ici) en suivant le chemin « Indicateurs/C/COVID-19/Données de laboratoires (SI-DEP - à partir du 13/05) (18)/Nombre de personnes positives – quotidien ».

Je m’étais confié sur cette première déconvenue en introduction de ma chronique N°19 (ici).

En effet, si vous télécharger l’un des 12 fichiers mis en accès libre sur data.gouv.fr :

- Ni le fichier de description des métadonnées « metadonnees-positivite.xlsx » (ici), situé plus bas dans la page,

si-dep_metadonnees_positivites_classe_dages.jpg



- Ni le fichier lui-même, ici celui téléchargé le 9 octobre « sp-pos-quot-dep-2020-10-09-19h15.csv »,

- Ni la note méthodologique « analyse-de-la-base-sidep-note-methodologique.docx » (ici), également plus bas dans la page,

Ne définissent explicitement chacune des 11 classe d’âges !

Il aurait fallu remarquer pour un département donné et un jour donné, que la classe d’âge dénommée « 0 », totalisait les nombres de cas positifs et les nombres de tests de toutes les autres classes d’âges…

Ou alors, il aurait fallu aller sur Géodes en suivant le chemin indiqué plus haut (avouez que cela nous éloigne fortement du site data.gouv.fr…), pour enfin commencer à comprendre :

Nulle-part vous ne trouverez le tableau simple et explicite ci-dessous, qui aurait permis à tout utilisateur de comprendre, de ne pas perdre inutilement son temps en restant sur de simples conjectures, ou pour certains probablement de renoncer à travailler sur ces données (Peut-être est-ce ce que Santé Publique France (ou un prestataire gestionnaire de cette base de données) cherchait, ou bien alors, peut-être de la pure incompétence)

En général, lorsque l’on a l’habitude de travailler comme c’est le cas pour moi sur bases de données relationnelles, on sait comment totaliser les valeurs d’un champ tel qu’une classe d’âges. On ne s’attend pas à ce que l’un des champs de détail de la base totalise toutes les valeurs des autres…



Erratum #2

Alors, deuxième déconvenue, et je bats à nouveau ma coulpe, j’ai très mal interprété à l’insu de mon plein gré, les courbes que j’ai présentées dans ma dernière Chronique (ici) et, qui de bonne foi je le pensais, attestaient d’une amorce bien entamée de baisse de l’incidence des nouveaux cas positifs au Sars-cov-2 dans de nombreux départements. Une bonne nouvelle.

Par ailleurs, les modifications opérées par Santé Publique France que je pensais avoir mis en évidence dans les fichiers successivement téléchargés, m’avaient amené à suspecter une manipulation de la part de l’agence dans le but de faire croire à l’aggravation de la situation sanitaire.

Je me suis trompé et j’en suis profondément désolé. Mais, j’ai surtout été trompé et un peu trop naïf…

Persuadé que j’étais que les nombres de nouveaux cas positifs quotidiens, et par de-là, les nombres de cas positifs cumulés sur 7 jours glissants, ainsi que les taux d’incidence qui en découlaient, étaient colligés sur la date de validation de leurs analyses respectives, c’est-à-dire sur la date de remontée des résultats dans SI-DEP.

C’est sur Twitter que j’ai été alerté (ici) par un certain Germain Forestier @gforestier, le 2 octobre, et qui après avoir lu ma chronique, s’évertuait à m’expliquer que la date retenue pour les données SI-DEP n’était pas celle de la remontée du résultat, mais celle du prélèvement.

J’avais quand même pas mal d’arguments à lui opposer :

Tout d’abord, la description de cette base de données est très confuse et d’une rare imprécision. J’ai relu le décret abscons du 12 mai (ici) et sur le site de téléchargement, comme nous l’avons vu plus haut, le fichier de description des métadonnées ne peut pas être plus imprécis.

Plutôt que de mettre « Jour », pourquoi n’ont-ils pas mis dans la colonne « C » de description : « Date de prélèvement » ou « date de remontée du résultat de l’analyse » ?

Quant à la note méthodologique, celle-ci est purement « imbitable ».

Néanmoins, s’agissant de cette note méthodologique, elle renferme un tableau dont voici un extrait :

Alors, Germain Forestier me rétorquait que dans le texte de la même « note méthodologique », il était stipulé :

Là, Germain marquait un point. Et pour enfoncer le clou, il me faisait remarquer que sur le portail data.gouv.fr il était bien dit que « Le délai de remontée des résultats pouvait excéder 9 jours dans certains cas »

Pour en avoir le cœur net, je me décidais alors à comparer en les traçant, les courbes d’incidence des nouveaux cas positifs sur 7 jours sur le département de Paris, avec les 9 fichiers en ma possession. En voici le résultat :

En regardant ces courbes pour le département de Paris, mais il n’y a aucune raison que ce soit bien différent dans les autres départements, il s’avère que pour chaque nouveau fichier, le taux d’incidence monte plus haut que pour le fichier précédent, mais les 6 à 15 derniers jours l’incidence baisse jusqu’à toucher zéro.

Si effectivement les données de cas positifs sont agrégées sur la date de prélèvement, et que les résultats ne remontent pas avant ‘x’ jours (et en réalité on ne sait pas quel est le délai maximal entre le prélèvement et la remontée du résultat dans SI-DEP), alors les fichiers successifs seront mis à jour ‘x’ jours après le prélèvement. Pour fixer les idées, nous aurions « 3 jours d’embargo des données » de cas positifs et de nombres de tests réalisés, selon Germain Forestier. Ce qui se traduit par le fait que pour le fichier télécharger le 9 octobre (après 19h15), le dernier jour de données est le 6 octobre. S’il s’agit de la date de prélèvement, il y a peu de chance que nous ayons le résultat de la RT PCR le jour même. Si, nous avons 9 jours de délai entre prélèvement et résultats, cela signifie que pour être assuré d’avoir le résultat, il faudrait donc remonter à un prélèvement effectué 9 jours en arrière, soit au 27 septembre. C’est-à-dire que l’on a téléchargé le fichier le 9 octobre et qu’il faut remonter 12 jours en arrière pour avoir les dernières données fiables et définitives…

Ainsi, les données des derniers jours sont de plus en plus incomplètes. Ce qui explique les baisses d’incidence calculée sur des données incomplètes. Et donc il ne s’agit pas d’une baisse d’incidence, mais d’une baisse de la complétude des données.

Cela veut dire qu’en l’état actuel, nous devrions supprimer les 10, 15, 20, on ne sait pas en réalité, derniers jours de données de la série téléchargée pour tracer une courbe « juste »

Quelle bêtise d’avoir choisi cette date de prélèvement alors que l’on savait qu’il pouvait y avoir des retards dans la remonté des résultats d’analyse

Pour avoir des données fiables il aurait suffi de prendre la date de remontée des résultats. Il n’y aurait pas eu de mises à jour intempestives

Puisque pour un même test, les dates de prélèvement et les dates de remonté des résultats figurent dans la base SI-DEP (avec bien d’autres dates d’ailleurs), il serait donc possible d’extraire de la base des fichiers avec le nombre de cas positifs et le nombre de résultats remontés dans la base un jour donné ! (Données indexées sur la date de validation du résultat ou de remonté du résultat dans SI-DEP).

Actuellement ce n’est pas possible.

Il est urgent de changer les données prises en compte dans les fichiers à télécharger ou alors d’offrir en open data une extraction possible « à la carte » des champs à exporter

Sans cela, les fichiers actuels sont sans intérêt !

De surcroit, c’est un secret pour personne, de nombreux cas positifs sont en réalités des « faux positifs » dans la mesure où la sensibilité des tests, exacerbée par un nombre de cycles d’amplification trop important (au-dessus de 33), aboutirait à diagnostiquer des cas positifs qui ne seraient pas contagieux (Voir l’article du New York Times ici ; celui du journal Le Monde ici)

En fait, les arbres ne montent jamais jusqu’au ciel, et les taux d’incidence redescendront. Et il se pourrait que ce soit dans peu de temps.

Selon les dernières données Santé Publique France, le taux de positivité SARS-Cov-2 RT-PCR serait monté à 11%, le nombres de nouveaux cas en 24h à 27.000 (Source France Info, 11/10/2020 à 12h00 : ici) et 19.000 (Source France 24, 12/10/2020 journal 7h30)

Ces chiffres restent corrélés à l’incidence et aux nombres de tests pratiqués qui ne cessent d’augmenter

En fait, plutôt que d’interpréter l’évolution de l’incidence comme une dégradation de la situation sanitaire, il faudrait que ceux qui nous gouvernent se réveillent et comprennent enfin que la contamination des bien-portants est le plus sûr moyens d’atteindre l’immunité collective qui seules éteindra cette pandémie

Les restrictions préfectorales prises dans les départements classés en « alerte maximale », fermetures des bars, des restaurants, des salles de sport, baisse de jauge de 5000 à 1000, qualifiées de mesurettes par la brillante épidémiologiste Catherine Hill, sont totalement contre-productives, et ne font que retarder la fin de l’épidémie.

(Revoir l’introduction de ma chronique précédente : ici).