Search
  • Nouvelles
  • Apprentissage automatique, apprentissage biologique

Un modèle informatique génère automatiquement la légende d’images

by Lindsay Jolivet avr. 7 / 15

Des membres de l’ICRA ont créé un système d’apprentissage automatique qui génère la légende d’images à partir de zéro, en balayant des scènes et en formulant des phrases pour décrire ce qui s’y trouve.

caption-generation-236x300
Des examples d’une légende incorrecte (haut) et d’une légende qui identifie les objects correctement (bas). Image : Boursier principal Richard Zemel

La génération de légendes est un exemple d’un des problèmes fondamentaux de l’intelligence artificielle où l’intelligence humaine se démarque – notre capacité à comprendre notre environnement – et construit des descriptions que d’autres peuvent facilement comprendre, selon Richard Zemel (Université de Toronto), boursier principal au sein du programme Calcul neuronal et perception adaptative de l’ICRA et coauteur de l’article.

La capacité de générer des légendes automatiquement a des répercussions pour des entreprises comme Facebook et Google qui doivent gérer des millions d’images, mais Zemel dit que cela pourrait aussi aider les aveugles à comprendre leur environnement.

D’autres recherches dans le domaine ont enseigné aux ordinateurs à décrire des scènes en associant une image à la bonne phrase, à partir d’un ensemble prédéterminé, ou à donner une image à un ordinateur et à lui enseigner à extraire des images concordantes sur Internet. « La génération de légendes à partir de zéro est plus difficile », explique Zemel.

La nouvelle technique fait appel à une approche de traduction des langues, mise au point par Yoshua Bengio (Université de Montréal), boursier principal de l’ICRA, qui est appliquée à une forme plus difficile de traduction, des images aux mots. « Plutôt que d’être en français, c’est maintenant en images », ajoute Zemel.

De concert avec une équipe de l’Université de Toronto réunissant Ryan Kiros, Jimmy Ba et Ruslan Salakhutdinov (également boursier du programme Apprentissage automatique, apprentissage biologique (anciennement connu sous le nom ‘Calcul neuronal et perception adaptative révolutionne’) ), et Kelvin Xu, Hyunghyun Cho, Aaron Courville et Bengio de l’Université de Montréal, Zemel a mis au point un modèle spécial qui peut choisir une région où fixer son attention, examiner la région pour voir ce qui s’y trouve, la décrire et ensuite choisir la région suivante. Cela ressemble à la façon dont les humains analysent une image, en trouve les régions importantes, une à la fois, et imbriquent le tout pour créer une scène complète.

« Les gens ont toujours voulu inclure l’attention dans les modèles pour deux raisons », dit Zemel. « Nous savons que les humains utilisent l’attention sélective, nous voulons donc construire des modèles qui représentent notre compréhension de la chose. Mais il faut aussi démontrer que c’est avantageux en matière de calcul. »

Et c’est le cas – leur nouveau modèle fonctionne mieux que ceux qui tentent de décrire une image entière d’un coup. En outre, le modèle apprend au fil du temps générant en quelque sorte le prochain mot en se fondant sur ce qu’il sait du mot précédent. Par exemple, si un ordinateur balaie une région d’une image et génère le mot « navire », il est beaucoup plus susceptible de générer un mot comme « eau » plus loin dans la phrase que le mot « chat », par exemple, car il comprend que les mots « eau » et « navire » sont associés beaucoup plus souvent dans le langage.

Le modèle fait évoluer des recherches passées sur la notion de classification qui vise à montrer aux ordinateurs comment reconnaître des objets similaires – comme des chats dans les avancées scientifiques de Google Brain en 2012. « Le programme Calcul neuronal et perception adaptative a réussi avec brio en matière de classification », explique Zemel. Les membres ont remporté de nombreux concours avec des modèles destinés à classer des images rapidement avec un niveau élevé de précision.

« Maintenant, nous voulons vraiment comprendre ce qu’est une image. Pas seulement de dire qu’il y a un chien, mais de pouvoir décrire la scène dans son intégralité », ajoute Zemel. L’une des prochaines étapes est de recourir à cette méthode pour décrire des vidéos.