Proposition de stage de magistère 2000-2001

Reconstruction voxélique des scènes dynamiques en temps réel

Synthèse d'images des scènes dynamiques en temps réel

Responsables

Bill Triggs, Bill.Triggs@inrialpes.fr
Edmond Boyer, Edmond.Boyer@inrialpes.fr

Équipe MOVI
Laboratoire GRAVIR - IMAG et INRIA Rhône-Alpes
655 avenue de l'Europe, 38330 Montbonnot

Cette stage était fait par Olivier Galizzi et Laure Heigeas. Voilà leur très beau rapport de stage.

Résumé

Dans le cadre de plusieurs projets « studio virtuel » et « rendu graphique à partir d'images », nous souhaitons être capable de manipuler des images vidéos d'une scène animée réelle, cela en temps réel. Nous souhaitons aussi créer des images virtuelles de cette scène à partir de points de vue virtuels, ou en modifiant son contenu (par insertion d'objets virtuels). En particulier, nous voudrions traiter des scènes qui contiennent une ou plusieurs personnes en mouvement, vus de trois à six caméras vidéos fixes.

Selon les différents applications visées, plusieurs approches existent, donnant lieu a plusieurs stages potentiels. L'essentiel de chaque stage sera de comprendre, d'implanter et de valider une méthode qui existe déjà dans la littérature. Les stages sont modulaires au sens où chaque méthode constitue un module autonome, Par contre, l'ensemble des méthodes nécessitent un module 0, qui devra être pris en charge (et/ou partagé) par l'ensemble des stagiaires. Dans le cas où il y aurait plusieurs stagiaires, nous attendons qu'ils effectuent un travail commun de comparaison des résultats obtenus par les différentes méthodes et éventuellement d'intégration de ces méthodes dans un logiciel public.

Au niveau materiel, nous envisagons une implantation sur les PC sous le système d'exploitation LINUX en réseau ethernet TCP/IP, avec système graphique X Windows / OpenGL. À fin de tourner en temps réel à une resolution d'image et de temps satisfaisante, il sera probablement necessaire de utiliser plusieurs PC en parallèle (p.e. 1 par caméra, plus 1 pour integration / affichage des résultats). Ce qui nécessitera un peu d'attention aussi aux aspects parallélisation / communication inter-processus.


Module 0 - Préparatoire

Pour simplifier le problème, les caméras seront fixes, ce qui permet d'avoir des paramètres de caméra constant et donc d'éliminer le problème de détermination de ces paramètres pour chaque image (calibration temps réel d'une caméra). Un autre intérêt des caméra fixes, puisque le fond ne bouge pas, est de faciliter la séparation du fond de l'image et de l'objet ou du personnage considéré pour la reconstruction. Ce module consistera donc à :

Références

P. Sturm CVPR'1999, CVPR'2000

Z. Zhang rapport technique

Bibliothèque vision INTEL (pas entièrement disponible sous LINUX pour l'instant, mais ca va changer).


Module 1 - Construction de modèles 3-D approximatifs par la méthode des « enveloppes visuelles » voxéliques.

Chaque pixel dans une image correspond à un rayon 3-D qui passe par le centre optique (point de vue) de la caméra. Les rayons qui correspondent à la silhouette de l'objet considéré « sculptent » une enveloppe (une espèce de « cône ») complexe en 3-D. Ce cône ayant pour section la forme de la silhouette. L'objet 3-D est entièrement contenu à l'intérieur de cette enveloppe. Avec plusieurs images, on obtient plusieurs enveloppes dont l'intersection donne une surface englobant la forme de l'objet. Cette surface s'appelle l'« enveloppe visuelle ». Pour construire l'enveloppe visuelle d'un objet associée à plusieurs images de cet objet, une méthode consiste à représenter l'espace 3-D sous la forme d'une grille 3-D de cubes élémentaires : les voxels, et d'« éliminer » ensuite les voxéls qui correspondent aux régions (rayons) situées à l'extérieur de chaque silhouette.

Le but du stage est d'implanter et de valider cette méthode en temps quasi-réel, de la détermination des silhouettes et du calibrage des caméras jusqu'à la construction et la visualisation des résultats voxéliques.

En option, il sera possible d'améliorer la précision 3-D en ajoutant une étape de « sculptage par consistance de couleur », qui élimine les voxéls dont les rayons n'ont pas tous la même couleur. (Les voxéls de la vraie surface ayant nécessairement cette propriété de consistance).

Notre but à plus long terme est d'être capable d'extraire en temps réel de cette représentation voxélique un modèle 3-D articulaire (un modèle géométrique classique du corps, construit à partir de cylindres, de sphères,..., l'ensemble étant articulé), à partir duquel on peut, par exemple, animer un personnage virtuel.

Références

G. Cheung, T. Kanade, J-Y. Bouguet and M. Holler, A real time system for robust 3D voxel reconstruction of human motions, CVPR'2000, 714-720.


Module 2 - Synthèse d'images à partir d'enveloppes visuelles.

Ce module est basé aussi sur les enveloppes visuelles, mais cette fois ci on passe directement des images d'origines aux images synthétiques, sans passer par un modèle 3-D explicite, voxélique ou autre.

Le méthode consiste à construire une représentation polygonale des silhouettes, puis à calculer en 2-D et dans chaque image la « provenance » de chaque pixel de l'image à synthétiser -- quels pixels des images d'origine détermineraient la couleur de ce pixel, si une enveloppe visuelle était construite. Le calcul se base sur la « géométrie épipolaire » (la géométrie projective qui relie les pixels correspondants entre deux images) - qui est un outil fondamental pour la vision multi-images.

Cette méthode est plus abstraite, et plus délicate à implanter que la méthode précédente, mais a l'avantage qu'elle donne un rendu graphique plus raffiné.

Références

W. Matusik, C. Buehler, R. Raskar, S. Gortler and L. McMillan, Image-based visual hulls, SIGGRAPH'2000.


Module 3 - Construction de modèle de surface 3-D par stéréo multi-images

Cette méthode ne fait pas appel à l'enveloppe visuelle approximative, mais se base sur un processus de mise en correspondance directe et dense entre les pixels de plusieurs images. Pour l'essentiel, il s'agit de chercher les meilleurs déplacements locaux de pixels d'une image à une autre (une carte de disparité ou « warping » local) tels que la mise en correspondance des images soit maximale. À partir de cette carte, on peut estimer la surface 3-D correspondant aux images considérées.

Cette méthode est plus lourde et moins robuste que les méthodes à base d'enveloppe visuelle, mais aussi plus traditionnelle et géométriquement plus précise. Elle exige un écart faible entre les caméras, à l'inverse des méthodes à base d'enveloppe visuel qui exigent un écart important. Il existe déjà plusieurs produits commerciaux qui utilisent cette méthode.

Il en existe en effet un grand nombre de méthodes de ce type. Le choix du méthode à implanter sera fait plus tard, après consultation avec l'etudiant.

Références

M. Okutomi and T. Kanade, IEEE Trans. Pattern Analysis and Machine Intelligence, 15(4):353-363, 1993.

S. Baker, R. Szeliski, and P. Anandan. A layered approach to stereo reconstruction. In IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'98), pages 434-441, Santa Barbara, June 1998.

S. Roy and I. Cox, A Maximum-Flow Formulation of the N-camera Stereo Correspondence Problem, ICCV'98

Systèmes commerciaux comparables:
Point Grey triclops
systèmes SRI / Videre Design