Dans le cadre de plusieurs projets de compréhension et traitement de vidéo, nous souhaitons être capable de détecter et de suivre les personnages qui sont présentes dans un film vidéo, et éventuellement -- de façon grossière -- de reconnaître la même personnage dans une autre séquence, et de segmenter, étiqueter et suivre les parts principales de son corps (tronc, jambe, tête...). Les résultats seraient utilisés dans un système d'indexation de vidéo flexible, et dans un système de modélisation 3D des personnages à partir de vidéo.
L'apparence d'une personne étant très variable (selon sa position et sa pose, l'illumination, le fond, les occultations...), cette problématique nécessite la mise en oeuvre des méthodes puissantes d'apprentissage automatique. Pour cette stage, nous avons sélectionné une méthode récent qui a déjà fait preuve d'une très bonne performance : les « machines de vecteur de support » (Support Vector Machines).
En l'essentiel, cette méthode est basée sur une fonction de classification dans une espace de déscripteurs locales tiré des images, construit en amassant les fonctions localisées aux exemplaires données. Les exemplaires « les plus instructives » (vecteurs de support) sont sélectionnées automatiquement par la méthode d'apprentissage, par réduction à un problème d'optimisation numérique convexe de grande taille, dont des méthodes de solution efficaces sont disponibles.
Notre approche de base sera comparable à celle de Tomaso Poggio et al au MIT:
La page sur les machines de vecteur de support contient plusieurs tutoriels, par exemple A Tutorial on Support Vector Machines for Pattern Recognition, C. J. C. Burges, Knowledge Discovery and Data Mining, 2(2), 1998.