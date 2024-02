Suite aux allégations de fraudes d’Elizabeth Bik, dont de nombreuses sont à l’encontre de l’IHU-Méditerranée, nous nous sommes intéressés à son travail. En effet, de nombreuses zones d’ombres ont été relevées dans un de ses articles de 2022 et elle est loin d’être au-dessus de tout soupçon.

Par exemple, sur son passé, elle déclare avoir quitté uBiome, la startup américaine qui en 2019 fera l’objet d’une retentissante faillite et d’une enquête du FBI valant aux deux fondateurs de quitter précipitamment les États-Unis pour aller se réfugier en Allemagne ! Elizabeth Bik était la directrice scientifique de la société et a rédigé de nombreux articles, publiés avec les fondateurs d'uBiome sans jamais en demander la rétractation alors qu’elle savait que les tests sur le microbiote vendus par la société ne fonctionnaient pas. L’enquête effectuée à ce sujet montrera une fraude substantielle à l’assurance puisque des échantillons anciens étaient ré-analysés en étant refacturés à l’assurance une seconde fois ! Elisabeth Bik, en tant que scientifique consciencieuse ne pouvait pas ne pas le savoir. L’obscurité autour de cette situation a été confirmée par des spécialistes du microbiome. Pour eux, "Bik a fait un deal avec les fondateurs ou les enquêteurs fédéraux”.

Une autre zone d’ombre porte sur la date effective de son départ de uBiome. Bik a déclaré sur X que c'était en 2018, cependant, le 9 janvier 2019, elle communiquait encore sur sa participation à une conférence sur la santé organisée par la banque d’affaires JP Morgan. Interpellée par France-Soir à deux occasions, elle n’a pas trouvé le temps de répondre à nos questions...

Cependant, en nous intéressant de plus près aux déclarations de fraudes d’Elisabeth Bik, l’analyse des images de Charles V. attire l’attention. Elisabeth Bik se spécialiserait dans l’identification des fraudes aux photos et aux duplicatas de photos. Charles V., utilisant son expertise en infographie a relevé de nombreuses incohérences dans ses analyses. Est-ce d’ailleurs une des raisons pour lesquelles elle n’a pas répondu à nos sollicitations ?

Nous présentons ci-après les analyses ainsi que les raisons pour lesquelles Elisabeth Bik se trompe grandement dans ses conclusions qui pourraient être uniquement liées à des problématiques de définition des images publiées. Les conséquences de ces erreurs, car elles viennent contredire les accusations de fraude de nombreux scientifiques, contribuant ainsi à salir leur réputation en jetant le doute sur leurs travaux.

Introduction à l’analyse de vérification des allégations de BIK

Elisabeth Bik s’est spécialisée dans la "détection d’études qui, selon elle, seraient entachées de fraudes". Pour ce faire, elle utilise la plateforme Pubpeer qui présente une série d’outils destinée à renforcer le processus traditionnel de revue par les pairs, notamment en autorisant les commentaires de scientifiques et de membres du public. Une forme de réseau social d’échange sur la science.

Bik revendique sur son site une activité de "consultante en intégrité scientifique" et "1069 rétractions, 149 expressions de réserves, and 1008 Corrections (en novembre 2023)". Bik prend pour cible plus particulière les publications de l’IHU-Méditerranée.

Charles V. s’est donc intéressé aux allégations de Bik sur plusieurs articles de l’IHU-Marseille.

Un premier article réanalysé mène à des conclusions erronées

Intéressons-nous à l’article "Utilisation de l'analyse génétique rpoB pour la détection et l'identification des espèces de Bartonella" publié le 1er février 2001. Bik commente sur Pubpeer la similitude de zones dans une photo, insinuant par là que cela pourrait être constitutif d’une fraude.

Les commentaires de Madame BIK sont les suivants : "Sur les images 3 et 4 :

Les cases de la même couleur montrent des zones (certaines comprenant des bandes) qui se ressemblent plus que prévu.

Les cases vertes indiquent des transitions d’arrière-plan nettes.

La zone au-dessus des bandes dans les voies 1 à 5 de la figure 4 semble également montrer une répétitivité."

Elle ajoute que l’"image a été rendue plus sombre pour faire ressortir plus de fonctionnalités. C'est probablement loin d'être le cas, mais les auteurs auraient-ils encore les photos originales sur gel ?"

Vérification du premier article challengé par Bik

Une vérification des assertions de Bik s’impose. Après tout, en science, l’important est la réplicabilité, mais c’est aussi une histoire d’outil et de méthode. La démarche de vérification est expliquée ci-dessous.

Afin de faire une vérification sur une photo, nous avons extrait l’image questionnée par Bik du fichier original au format PDF pour garantir son authenticité. Ses propriétés et caractéristiques sont les suivantes : img60.png PNG 1960x1198 1960x1198+0+0 8-bit Gray 256c 471046B 0.000u 0:00.000

Bik prétend, sans réels éléments de preuve, que deux zones de la photo seraient dupliquées.

En utilisant des outils simples d’analyse de photos, et après examen détaillé, il ressort que l’argument de Bik est erroné. Il ne peut s’agir d’une duplication, mais de deux zones qui, bien qu’elles présentent des similitudes visuelles, ne peuvent résulter d’une duplication.

Tel est pris qui croyait prendre.

Voyons plutôt, à partir de deux méthodes, comment Bik conclut de manière totalement erronée.

Première Méthode : vérifier si des "zones identifiées comme dupliquées" le sont réellement

La photo sur laquelle il y aurait des zones dupliquées est la suivante.

En utilisant un logiciel de retouche d’image (GIMP) :

La zone Bg est extraite . Cette zone fait 84 pixels de large sur 51 pixels de haut ;

. Cette zone fait 84 pixels de large sur 51 pixels de haut ; Un copié-collé de cette zone est dupliqué sur la photo afin d’avoir une zone test ou témoin. Cela permet donc de dupliquer avec certitude la zone qui est censée avoir été dupliquée, la fameuse hypothèse mise en avant par Bik.

Un logiciel d’infographie permet de trouver s’il existe une séquence (ou pattern) en anglais sur cette photo. Étant donné qu’une partie de l’image a été dupliquée sur l’image, le logiciel devrait techniquement retrouver cette séquence.

L’algorithme de reconnaissance utilise trois paramètres : l’image source, l’image pattern (le petit extrait de la zone qui nous intéresse) et un seuil de précision (threshold) qui va de 0 à 1 (1 étant l’image exacte, 0 tout).

Au seuil de 0.999, la reconnaissance du pattern ainsi que du témoin copié-collé sont identifiées et il n’y a pas d’autres zones détectées. En baissant le seuil à 0.97, trois zones sont identifiées comme identiques. C’est ce qu’a pu détecter Elisabeth Bik afin d’en tirer les conclusions de duplication et donc de fraude.

Il semblerait qu’elle n’a pas été plus loin, ce qui manque pour le moins de précision ! Entre l’image source et la nouvelle zone trouvée, il y a une différence de 3 % que l’on peut calculer à partir des différences entre les seuils utilisés pour identifier le pattern (0.999 - 0.97) x 100 = 3 %. En termes de pixels, c’est-à-dire le nombre de points utilisés pour la représentation de l’image, il y a donc 3 % de l’aire du pattern, soit 129 pixels, qui sont différents ou 3 % de différence sur l’ensemble des pixels de l’image détectée : ces 3 % de variance démontre l’impossibilité d’un copié-collé.

L'analyse ci-dessous montre qu'au seuil de 0,95, une quatrième zone pourrait avoir des caractéristiques identiques. Au seuil de 0.90, il y a une multiplicité de zones qui apparaissent.

Discussion et analyses :

Au seuil de 999, seulement deux zones sont identiques . Si les zones identifiées étaient réellement dupliquées comme le prétend Bik, on aurait dû trouver trois zones identiques . Ce qui n’est pas le cas. Bik commet donc une erreur fondamentale en ne faisant pas cette analyse qui lui aurait permis de vérifier que la zone qu’elle identifie comme dupliquée ne l’est pas en réalité. Elle n’a pas, comme elle aurait dû le faire dans des sciences quasi exactes, essayé de rejeter son hypothèse.

. Si les zones identifiées étaient réellement dupliquées comme le prétend Bik, . Ce qui n’est pas le cas. Bik commet donc en ne faisant pas cette analyse qui lui aurait permis de vérifier que la zone qu’elle identifie comme dupliquée ne l’est pas en réalité. Elle n’a pas, comme elle aurait dû le faire dans des sciences quasi exactes, essayé de rejeter son hypothèse. Un problème pourrait venir de la compression de l’image au format JPEG dans le fichier PDF. La vérification a été effectuée en compressant le fichier image à 80 % et le même résultat a été obtenu, ce qui veut dire que la compression des images au format JPEG ne joue pas de rôle dans cette situation.

Afin de pousser l’analyse plus loin, une recherche au seuil de 0.97 de "zones dupliquées" a été effectuée dans une image où le degré de certitudes de l’absence de présence d’un copié-collé est proche de 100 %. Prenons une image de la Nasa, plus exactement de Jupiter.

En parcourant l’ensemble de l’image, pour chaque point, une petite zone rectangulaire est prise et une recherche de clone est lancée et on affiche dans un rectangle rouge si un clone est trouvé à 0.97.

Avec Jupiter, voilà le résultat ! Donc si BIK disait vrai, elle devrait aussi dénoncer les images du télescope James Webb.

En sus, la colométrie dans Pubpeer est différente de l’image originelle dans le fichier PDF et Bik écrit dans son article que "les images ont été examinées plus en détail à la recherche de preuves de duplication ou de manipulation d’images à l’aide de l’outil d’ajustement de couleur du logiciel Aperçu sur un ordinateur Apple iMac".

Ironiquement, si Bik éteint son écran, ou règle la luminosité à zéro, elle va trouver un gros copié-collé de noir. Mis à part ce trait ironique, un écran, cela se calibre, il y a des appareils qui permettent de le faire.

En conclusion, ces techniques d’analyse d’image non automatisées et non reproductibles n’ont aucun caractère scientifique et sont purement subjectifs.

Méthodologie 2 : identification des points remarquables

Bik n’utilise peut-être pas une approche scientifique automatisée et reproductible pour identifier ses fraudes, cependant il nous semble important de tester une autre méthode.

La seconde méthode utilisée est celle de la comparaison des points remarquables de l’image à partir d’un outil de détection très performant, FAST Feature Detector.

Cet outil est très souvent utilisé pour faire du tracking de point pour la stabilisation d’images. L’hypothèse est la suivante : si deux zones sont similaires, elles ont les mêmes points remarquables. (https://docs.opencv.org/4.x/df/d0c/tutorial_py_fast.html ).

Voilà le résultat obtenu sur la même image. Résultat sans appel confirmant l’hypothèse qu’il n’y a pas de copié-collé comme l’a suggéré la chasseuse de fraude : entre la zone d’origine, la zone copiée, les points remarquables sont semblables, en revanche pour la zone “imaginée” par Bik, ils sont différents par leurs cardinalités, mais aussi par leurs positions. Ce qui est compatible avec la première méthodologie

Second article vérifié : conclusions de Bik erronées

Dans le cadre du second article identifié comme ayant potentiellement des zones dupliquées dans une image (Survival of Environmental Mycobacteria in Acanthamoeba polyphaga) une analyse simple a été faite sur l’image qui pourra paraître ridicule tant au niveau méthodologique que scientifique. L’image a été sauvegardée et ouverte dans un logiciel de retouche d’images GIMP.

La première étape consiste à zoomer dans l’image de 1100% - à l’œil nu on voit que les zones sont différentes.

En grossissant à 1600 %, idem.

A 2300 % sur l’autre zone, on voit encore à l’œil nu que les pixels sont différents.

Nous allons donc vérifier l’analyse de Bik en démontrant que le service online utilisé n’est pas fiable à 100 %.

Nous recréons un duplicata de la zone que Bik considère comme identique en vérifiant avec l'application de matching utilisée dans la toute première vérification : au seuil de 0.999, il n’y a pas de zone dupliquée identifiée, mais il y en a une au seuil de 0.97. Du déjà-vu : même résultat et même conclusion.

En réponse à son commentaire et argumentaire dans Pubpeer : "… Forensically a également trouvé l'autre duplication, ainsi que plusieurs faux positifs". Cependant, en utilisant le logiciel FotoForensics, avec les paramètres par défaut, nous n’obtenons pas les mêmes résultats (illustration ci-dessous).

Analyse peu scientifique, car Bik n’indique pas comment elle a réussi à avoir ce résultat, qui n’est donc pas réplicable.

Cependant, nous sommes allés plus loin en utilisant Sherloq, un logiciel que Bik recommande sur son blog. Cela montre bien que Bik sait rechercher sur GitHub. Ce logiciel est reconnu par la communauté comme un outil d’analyses forensiques.

Sherlog permet d’afficher des points marquants : bien que géographiquement “assez” proches, ils sont différents, leurs cardinalités également.

Sherlog ropose plusieurs méthodes pour détecter les copiés-collés

Avec la méthode BRISK (Binary Robust Invariant Scale Keypoint) : aucune détection. Avec la méthode ORB Oriented FAST and Rotated Brief, avec un seuil de sensibilité de 5 % de matching, aucune copie.

Avec un seuil de sensibilité de 10 %, on trouve des résultats qui pourraient être similaires à ceux contestés par BIK.

Enfin, avec la méthode AKAZE (Accelerated KAZE), aucune copie n’est décelée.

Analyse d’une publication de BIK - https://journals.asm.org/doi/10.1128/mbio.00809-16

Nos analyses et méthodes ne seraient pas complètes si nous ne les appliquions pas à la recherche de duplicata dans une étude publiée par Bik.

Avec la même méthodologie, nous nous intéressons à l’image 4 de sa publication et plus particulièrement aux zones 9 et 10. Au seuil de 0.99, aucun duplicata n’est identifié alors qu’à 0.96, il y a une zone identifiée comme dupliquée !

Sur l’image 2, aucun duplicata au seuil de 0.999 mais un duplicata à 0.99. Ici, il pourrait s’agir d’une image dupliquée, car la différence est vraiment très faible. Cependant, il s’agit d’une publication de Bik, il serait malvenu de prétendre cela. À moins que ce ne soit la démonstration que charité bien ordonnée commence par soi-même et que Bik aurait dû vérifier ses méthodes sur ses propres images.

Poussons l’analyse plus loin et intéressons-nous aux zones de couleurs différentes de l’image 4 que nous reproduisons ci-dessous :

Simplement en mettant les zones côte à côte, la différence est visible à l’œil nu.

De manière générale, afin de faire des analyses de vérification d’images, il est recommandé de faire usage de Sherloq, logiciel open source. Bik parle d’un site sans que l’on puisse identifier si c’est le même. https://29a.ch/photo-forensics/#clone-detection

Vérifions cela avec les données de la Nasa issue du télescope James Webb : avec le site FotoForensics, de nombreux clones/points marquants sont détectés.

Qui ne sont pas confirmés avec Sherloq !

Conclusion

Après vérification des analyses de Bik, nous avons démontré que :

Les contestations de cette dame sont infondées .

. Son erreur/ses erreurs est/sont due(s) à une sous-estimation de 3 % de différence.

Cette erreur n’est pas due à la compression JPEG de l’image dans le fichier PDF.

Deux méthodologies ont été appliquées pour être sûr du résultat (alors qu’elle n’en indique aucune, mis à part un service Software as Service).

Les mêmes conclusions ont été démontrées pour d’autres publications.

De plus, il est montré qu'elle n’utilise pas le logiciel qu’elle conseille elle-même sur son blog (Forensically).

Son intention de dénoncer des fraudes scientifiques est louable, car l’intégrité scientifique est la base de la confiance dans la science. Cependant, nous ne pouvons que nous interroger sur ses intentions lorsqu'elle s’attaque aux publications de l’IHU. Et qui la paie pour dénigrer le travail des chercheurs avec une approche pseudo-scientifique, puisque non réplicable...

De plus, en utilisant ses propres méthodes de chasseuse de fraudes sur sa propre publication, cette dernière est sujette aux mêmes critiques. Une interrogation subsiste : pourquoi ne vérifie-t-elle pas sa méthode sur ses propres publications avant de l’appliquer aux autres ?

Les conclusions de Bik sont donc infondées et elle devrait retirer ses commentaires au risque de se faire traiter elle-même de fraudeuse. Ou d'arroseuse arrosée.



