Bill Triggs (Bill.Triggs@inrialpes.fr)
Mots clés: reconnaissance de formes, classification visuelle,
apprentissage par machine
La première partie peut aussi être fait en magistère.
Les deux buts de ce stage sont en premier lieu de réimplanter une méthode de reconnaissance visuelle efficace qui a été présentée au congrès ICCV 2003 - le détecteur de piétons de Viola, Jones et Snow - et en deuxième lieu, si le temps le permet, d'étendre la méthode à la reconnaissance de différentes classes de mouvement humaine - marche, cours, danse, jouer au foot ...
La première partie suivra de près l'approche développée par Viola et Jones, d'abord dans leur détecteur de visages temps-réel et plus récemment dans leur détecteur de piétons. Il s'agit de parcourir l'image en présentant chaque sous-image à une chaîne de filtres qui a été optimisée pour éliminer au plus vite les sous-fenêtrés qui ne sont pas susceptibles de contenir l'objet recherché. L'optimisation est fait par « AdaBoost », une méthode d'apprentissage avancée. Au fur et à mesure qu'on descend dans la chaîne, les filtres deviennent plus complexes et plus lourdes à évaluer, mais aussi plus capables de détecter de façon fiable les vraies instances de l'objet recherché. L'intérêt principal de cette méthode - qui à été très influente récemment - est de fournir un détecteur efficace qui est très économique en terme de calcul, voir même qui tourne en temps réel. Les filtres sont basées sur des combinaisons d'indices visuelles simples et rapides à évaluer - en ce cas, des filtres de contraste locale spatiale et temporelle.
La deuxième partie est plus ouvert, et consistera à généraliser la chaine discriminante pour distinguer pas seuelment entre personne et non-personne, mais aussi entre un petit nombre de classes de mouvement humain - marche, cours, danse, etc.