Search
  • Compte-rendu de recherche
  • Apprentissage automatique, apprentissage biologique

Un système d’apprentissage automatique génère des légendes d’images à partir de zéro

by CIFAR févr. 11 / 16

Sommaire de recherche

La génération de légendes est un des problèmes fondamentaux de l’intelligence artificielle où l’intelligence humaine se démarque — notre capacité à construire des descriptions que d’autres peuvent facilement comprendre. 

Objet de l’étude

Ces recherches visent à incorporer l’attention dans un système d’apprentissage automatique afin que celui-ci puisse générer automatiquement des légendes d’images à partir de zéro, plutôt que de recourir à des systèmes de détection d’objets.

Contexte

Une part disproportionnée du cerveau se consacre au traitement visuel. La génération de légendes est un défi important pour les algorithmes d’apprentissage automatique, car les ordinateurs doivent imiter la capacité remarquable qu’a l’être humain de comprimer d’énormes quantités d’information visuelle en un langage descriptif. Non seulement les modèles de génération de légendes doivent être suffisamment puissants pour résoudre des défis d’ordre visuel, comme de déterminer la nature des objets dans une image, mais ils doivent aussi pouvoir capter et exprimer leurs relations dans un langage naturel. 

Une augmentation récente du nombre de travaux dans le domaine, particulièrement sur l’entraînement des réseaux neuronaux et les grands ensembles de données de classification, a considérablement amélioré la qualité de la génération de légendes. Les chercheurs de cette étude, encouragés par ces percées et des succès récents associés au recours à l’attention en traduction automatique et en reconnaissance d’objets, analysent des modèles qui arrivent à identifier les éléments les plus importants d’une image, tout en générant une légende. Plutôt que de comprimer une image complète en une représentation statique, l’attention permet à des caractéristiques clés de se placer à l’avant-plan de façon dynamique au besoin. Cela est particulièrement utile pour les images encombrées.

Résultats

Les modèles axés sur l’attention génèrent des légendes plus justes et plus descriptives que ceux qui tentent de décrire l’ensemble de l’image d’un coup. Le modèle peut choisir une région où concentrer son attention, examiner la région pour voir ce qui s’y trouve, la décrire et choisir ensuite la région suivante. C’est similaire à la façon dont un humain analyse une image, il trouve les régions importantes, une à la fois, et reconstitue l’ensemble de la scène. La méthode axée sur l’attention permet un rendement de pointe pour trois ensembles de données de référence : Flickr8k avec 8000 images, Flickr30k avec 30 000 images et MS COCO avec 82 783 images.

Il est possible d’entraîner le modèle pour que son fonctionnement ressemble à l’intuition humaine. Le modèle apprend au fur et à mesure et génère son prochain mot en fonction de ce qu’il sait sur les mots qui ont précédé. Contrairement à d’autres modèles, il n’utilise pas explicitement de détecteurs d’objets. Conséquemment, il a une plus grande souplesse et va au-delà de l’« état d’objet », et apprend à se pencher sur des concepts abstraits.

Le mécanisme d’attention peut nous aider à mieux comprendre le processus décisionnel du réseau. Les modèles qui incorporent un mécanisme d’attention peuvent visualiser ce que « voit » le réseau, y compris avec précision le « où » et le « quoi » sur lesquels il se penche. La capacité de voir et de comprendre comment le modèle prend des décisions et pourquoi il commet peut-être des erreurs permettent aux chercheurs de le peaufiner, ce qui améliore d’autant plus la qualité des légendes produites.

Le modèle imite efficacement l’attention sélective de l’humain pour analyser une image, repérer les régions importantes, une à la fois, et reconstituer l’ensemble de la scène.

Méthodes

Le modèle utilise une combinaison de réseaux neuronaux convolutifs pour extraire la représentation vectorielle d’images et des réseaux neuronaux récurrents pour décoder ces représentations dans des phrases en langage naturel. Le recours à des réseaux neuronaux récurrents pour la traduction automatique est une méthode qu’a mise au point Yoshua Bengio, Boursier principal de l’ICRA. Plutôt que de traduire d’une langue à une autre, il s’agit plutôt de traduire des images en mots.

Pour incorporer le mécanisme d’attention, l’équipe de recherche a entraîné le modèle à l’aide de deux générateurs de légendes axés sur l’attention dans un même cadre :

  • Un mécanisme d’attention déterministe « soft » que l’on peut entraîner avec des méthodes de rétropropagation standards; et

  • Un mécanisme d’attention stochastique ou probabiliste « hard » que l’on peut entraîner en maximisant une limite inférieure variationnelle approximative ou en utilisant la règle d’apprentissage REINFORCE.

La mise à l’essai du modèle a mis en jeu deux mesures communes dans les écrits sur la génération de légendes, BLEU (Bilingual Evaluation Understudy) et METEOR (Metric for Evaluation of Translation with Explicit Ordering) pour l’évalution de trois ensembles de données : Flickr8k avec 8000 images, Flickr30k avec 30 000 images et MS COCO avec 82 783 images.

Répercussions

En plus d’utiliser ce modèle avec des images, il serait possible de l’utiliser avec des vidéos. De plus, il pourrait se révéler utile pour aider les malvoyants à se familiariser avec leur environnement. Il dépasse les recherches antérieures, car non seulement peut-il classifier les images rapidement et avec un niveau d’exactitude élevé, mais il peut les décrire en un langage beaucoup plus riche et descriptif. Il pourrait s’ensuivre des répercussions importantes pour des entreprises comme Facebook et Google qui doivent gérer des millions d’images. Des moteurs de recherche comme Google exécutent des recherches d’images, mais de tels moteurs ne font pas vraiment de recherches dans le contenu de l’image. Ils utilisent plutôt l’information dans les légendes et le contexte textuel pour générer des résultats de recherche.

Télécharger le PDF


Chercheurs : Université de Toronto :  Richard S. Zemel (Boursier principal de l’ICRA), Jimmy Lei Ba, Ryan Kiros, Ruslan Salakhutdino (Boursier de l’ICRA); Université de Montréal : Yoshua Bengio (Boursier principal de l’ICRA), Kelvin Xu, Kyunghyun Cho, Aaron Courville

Référence : Xu, Kelvin, et coll. « Show, attend and tell: Neural image caption generation with visual attention. » arXiv préimpression arXiv:1502.03044 (2015).