Détection du COVID‑19 à partir d’images radiographiques pulmonaires par apprentissage par transfert


Dans cette section, le cadre proposé a été expliqué. Tout d’abord, l’ensemble de données de radiographie pulmonaire utilisé a été décrit. Ensuite, le cadre développé, qui comprend la phase de « pré-traitement » et la phase de « Classification à l’aide de modèles CNN basés sur l’apprentissage par transfert », a été illustré. Deux approches différentes ont été utilisées pour former des modèles CNN pré-entraînés à l’aide de l’apprentissage par transfert. La première approche utilise des images radiographiques du thorax entier, tandis que l’autre approche utilise des images segmentées des poumons.

Ensembles de données utilisés

Dans cette recherche, les données obtenues à partir de la « Base de données de radiographie COVID-19 » ont été utilisées pour appliquer le cadre proposé. La base de données contient des milliers d’images radiographiques de référence accessibles au public et les masques pulmonaires correspondants. Les images radiographiques sont fournies au format Portable Network Graphics (PNG) avec une résolution de 299 × 299 pixels. La base de données comprend 10 192 cas normaux, 3 616 cas positifs de COVID-19, 1 345 cas de pneumonie virale et 6 012 images d’opacité pulmonaire, comme le montre le tableau 1. Cette base de données a été développée par une équipe de l’Université du Qatar, de l’Université de Dhaka, au Bangladesh, avec des coopérateurs de Malaisie et du Pakistan et des coopérateurs de médecins.26. La figure 1 illustre des échantillons de différentes classes de la base de données de radiographie COVID-19.

Tableau 1 Répartition de la base de données de radiographie COVID-19.
Figure 1
Figure 1

Échantillons de la base de données de radiographie thoracique COVID-19 représentant différentes classes.

Prétraitement

Le but de la phase de prétraitement est de préparer les images radiographiques pour la classification à l’aide de modèles pré-entraînés CNN. Dans cette phase, différentes étapes de prétraitement sont appliquées pour améliorer les performances de la classification. Les étapes de pré-traitement peuvent être résumées comme suit :

Amélioration d’images

L’amélioration des images est une étape importante pour une classification correcte. Il augmente le contraste de l’image afin d’améliorer les performances de classification. Différentes techniques peuvent être appliquées pour améliorer les images. Dans cette recherche, certaines de ces techniques ont été appliquées aux images radiologiques originales avant de les introduire dans les modèles de classification, elles sont les suivantes :

  1. 1.

    Égalisation de l’histogramme (HE) : Le but de l’égalisation de l’histogramme (HE) est de répartir les niveaux de gris à l’intérieur de l’image. Il modifie la luminosité et le contraste des images pour améliorer la qualité de l’image27. L’intensité des images radiographiques originales a été améliorée grâce à l’égalisation de l’histogramme (HE).

  2. 2.

    Égalisation adaptative de l’histogramme à contraste limité (CLAHE) : elle provient de l’égalisation globale de l’histogramme (GHE), elle est basée sur la division de l’image en blocs qui ne se chevauchent pas, et après cela, l’histogramme de chaque bloc est obtenu en utilisant une valeur prédéfinie.28. Dans cette recherche, CLAHE a été utilisé pour améliorer le contraste des images radiographiques originales.

  3. 3.

    Complément d’image : Le complément ou l’inverse des images radiographiques transforme les positions sombres en plus claires et les positions claires en plus sombres. Comme il s’agit d’un processus standard, similaire à celui utilisé par les radiologues, il peut contribuer à un modèle d’apprentissage profond pour améliorer les performances de classification. Le complément de l’image binaire peut être obtenu en changeant les zéros en uns et les uns en zéros. Alors que pour une image en niveaux de gris, chaque pixel est soustrait de 255.

La figure 2 montre une image radiographique originale et ses versions améliorées après application de HE, CLAHE et du complément d’image sur l’image originale avec les tracés d’histogramme correspondants pour chaque version.

Figure 2
Figure 2

Une image radiographique et ses versions améliorées après application de HE, CLAHE et complément à l’image originale et aux tracés d’histogramme correspondants.

Segmentation

Lors de l’étape de segmentation, les régions d’intérêt (ROI), qui sont dans notre cas la région des poumons, sont recadrées de l’image associée. Dans cette recherche, les masques pulmonaires de vérité terrain fournis par la base de données ont été utilisés. Un modèle U-Net modifié a été appliqué par les auteurs de la base de données sur les images radiologiques pour obtenir les masques pulmonaires associés aux images radiographiques complètes. Dans cette recherche, la multiplication entre chaque image originale et le masque pulmonaire associé a été appliquée pour obtenir les poumons segmentés. Le même processus de multiplication entre les différentes versions d’images améliorées et les masques associés a été appliqué pour obtenir différentes versions d’ensembles de données segmentés avec différentes améliorations. Toutes ces versions sont introduites dans les modèles CNN en tant que versions segmentées des données. La figure 3 montre les images segmentées de l’image originale et des différentes images améliorées pour l’un des échantillons COVID.

figure 3
figure 3

Image radiographique originale et ses versions améliorées ainsi que la région pulmonaire segmentée de chaque version.

Phase de redimensionnement des images

Le redimensionnement des images est un processus essentiel pour satisfaire l’exigence de CNN d’images d’entrée de taille égale. Dans cette recherche, le processus de redimensionnement des images radiographiques a été effectué pour adapter toutes les images radiographiques à la taille d’entrée des modèles CNN pré-entraînés utilisés, à savoir VGG19 et EfficientNetB0. Par conséquent, toutes les versions d’images, qu’elles soient complètes ou segmentées, ont été redimensionnées pour s’adapter à la taille de l’image d’entrée de CNN, qui est de 224 × 224 pixels. Pour accélérer le processus de formation, il a été constaté que la taille de 112 × 112 pixels accélérait la formation sans affecter les mesures de performances.

Classification à l’aide d’un modèle de réseau neuronal à convolution pré-entraîné

Dans cette recherche, différentes versions d’images radiographiques thoraciques complètes ou segmentées ont été introduites dans les modèles CNN pour former les classificateurs. Différentes expériences ont été réalisées sur les images radiographiques pulmonaires originales et segmentées, toutes deux avec leurs différentes versions améliorées. La classification a été effectuée à l’aide de VGG1914 et EfficaceNetB016 modèles CNN pré-entraînés. Après le calcul des différentes mesures de performance, le meilleur modèle a été sélectionné comme modèle adopté. Les sous-sections suivantes donnent une brève description des modèles pré-entraînés utilisés.

Modèle VGG19

VGG19 est une variante du modèle VGG CNN créé par Visual Geometry Group (VGG) de l’Université d’Oxford. VGG19 a été l’un des gagnants du Image Net Large Scale Visual Recognition Challenge (ILSVRC) en 2014. La taille de l’image d’entrée dans VGG19 est de (224 × 224). VGG19 contient 16 couches de convolution, 5 couches de pooling maximum et 3 couches entièrement connectées. Les couches de convolution ont une taille de filtre (3 × 3), une foulée de 1 pixel et un remplissage de 1 pixel. Les couches de pooling maximum ont une taille de 2 × 2 et une foulée de 2. La fonction d’activation de rectification (ReLU) est utilisée pour toutes les couches cachées. Ensuite, les 2 premières couches entièrement connectées avec 4096 canaux chacune sont utilisées, suivies de la dernière couche de 1000 canaux pour représenter les différentes 1000 classes d’ImageNet avec fonction d’activation soft-max.15.

Modèle EfficaceNetB0

Le groupe de recherche de Google a conçu une famille de modèles, appelés EfficientNets, en utilisant une méthode de mise à l’échelle et a obtenu une meilleure efficacité et précision que les ConvNets précédents. EfficientNet est basé sur la mise à l’échelle des CNN et l’obtention de meilleures performances en équilibrant la largeur, la profondeur et la résolution du réseau. Par conséquent, l’objectif est de présenter une méthode de mise à l’échelle permettant de mettre à l’échelle uniformément les 3 dimensions avec un coefficient composé simple et très efficace. Ainsi, il peut être considéré comme un problème d’optimisation de trouver les meilleurs coefficients de profondeur, de largeur et de résolution qui maximisent la précision du réseau compte tenu des contraintes des ressources disponibles. Le principal élément constitutif des modèles EfficientNet est MBConv. L’équation de dimension du réseau a été utilisée pour obtenir la famille de réseaux de neurones EfficientNet-B0 à B716. Dans cette recherche, EfficientNetB0 a été utilisé pour la classification des images radiographiques pulmonaires. La figure 4 résume le cadre de la méthodologie adoptée dans cette recherche.

Figure 4
chiffre 4

Le cadre de la méthodologie utilisée pour la classification des images radiographiques thoraciques.

Approbation éthique

Cet article ne contient aucune étude réalisée par l’auteur auprès de participants humains ou d’animaux.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *