Mots clés: vision computationelle, reconnaissance des formes, modélisation d'attention visuelle, traitement d'images multi-échelle
Cette stage est adaptée à un bon étudiant qui sait programmer mais qui est plus orienté recherche, et qui compte continuer faire une thèse en reconnaissance des formes en vision par ordinateur.
Le but de ce stage est en premier lieu de construire un système de direction d'attention visuelle - analogue (très simplifié) du système qui pilote les fixations visuelles humaine - qui est capable d'analyser une image quelconque présentée au système, et de générer une séquence de « fixations » (prises de sous-images) qui parcourent les points les plus saillants de l'image, et qui en quelque sort caractérisent sa structure. En deuxième lieu, le système utilisera ces séquences pour une tache de reconnaissance des formes - par exemple la détection des visages.
La première partie suivra le travail du Itti et Koch, mais avec une tendance plus computationelle et moins neural, et avec le nouveauté de détecter les points saillants à d'échelles multiples (donc de créer et parcourir une pyramide de saillance, plutôt qu'une image de saillance). Cette étape nécessite la décomposition de l'image par un ensemble de filtres linéaires de contraste d'intensité et de couleur multi-échelles et multi-orientations, et puis la recombinaison non-linéaire des « énergies » de leurs sorties à fin de créer une carte (ici une pyramide) de saillance que le module « attention » du système peut parcourir. La sortie de cette partie sera une séquence de points de fixation (x,y,échelle), chacun avec un vecteur de déscripteurs de la sous-image correspondante (soit l'image elle même, soit les réponses des filtres, par exemple).
La deuxième partie utilisera une méthode d'apprentissage machine simple à fin d'identifier les sous séquences qui correspondent au parcours d'une zone d'image qui contient un objet d'une classe donnée. Cette partie est très ouvert, mais à priori nous pensons utiliser les visages humaines pour la classe cible, et la méthode d'apprentissage « Bayes naïve » sur une représentation quantisée vectorielle des déscripteurs : les déscripteurs seraient quantisés avec k-means, on évaluera la probabilité objet versus non-objet pour chacune des k classes de déscripteurs sur un ensemble d'images d'apprentissage, et pour la détection on combinera les probabilités des déscripteurs de la (sous-)séquence de façon « naïve » (comme si ils étaient indépendants). Le problème devient en effet une comparaison probabiliste de chaînes de « caractères », et un grand nombre d'algorithmes sont possibles. Après la détection de l'objet, on peut espérer revenir sur la chaîne à fin d'identifier les éléments individuels détectés à chaque fixation (oeil, nez, front, etc, pour les visages - mais la décomposition sélectionnée ne sera pas si nette en pratique).