|
Vision par ordinateur en Midi-Pyrénées |
Je présenterai un aperçu de l'histoire de quelques problèmes en vision par ordinateur géométrique, couvrant trois siècles : calcul de pose, reconstruction tridimensionnelle à partir de silhouettes, géométrie épipolaire, tenseur trifocal, reconstruction projective, auto-calibrage, reconstruction de surfaces de révolution, reconstruction utilisant des miroirs, etc. Beaucoup de ces problèmes ont été étudiés au XIXe siècle, voire plus tôt...
Imagine an object whose 3D shape - called template - is known. The object now undergoes a deformation, taking a deformed shape, and is imaged once by a digital camera. Under which hypotheses can the deformed shape be recovered from the template and the image? This is one of the fundamental questions arising in Shape-from-Template, the process of reconstructing the 3D shape of a specific object from a single image and a deformation prior. I will first present the models and algorithms proposed to study and solve Shape-from-Template over the last decade. I will then show how Shape-from-Template may facilitate augmented reality in the specific case of laparoscopic myomectomy, and shall discuss the specific difficulties of this type of applications...
I will talk about recent results from a number of people in my group on Riemannian manifolds in computer vision. In many Vision problems Riemannian manifolds come up as a natural model. Data related to a problem can be naturally represented as a point on a Riemannian manifold. This talk will give an intuitive introduction to Riemannian manifolds, and show how they can be applied in many situations.
Manifolds of interest include the manifold of Positive Definite matrices and the Grassman Manifolds, which have a role in object recognition and classification, and the Kendall shape manifold, which represents the shape of 2D objects. Of particular interest is the question of when one can define positive-definite kernels on Riemannian manifolds. This would allow the application of kernel techniques of SVMs, Kernel FDA, dictionary learning etc directly on the manifold.
L'objectif principal de ces travaux est l'élaboration d'un système de vision pour la surveillance aérienne mettant en œuvre des caméras de types différents. Le système de vision dit hybride est constitué d'une caméra omnidirectionnelle (fish-eye), permettant une vision globale de la scène, et d'une caméra PTZ, permettant la visée et le zoom sur une cible. Il devra pouvoir identifier et suivre des zones d'intérêt au sol (cibles) et permettre une reconstruction tridimensionnelle de la scène ou de ses éléments par stéréoscopie hybride. Nous aborderons les problématiques suivantes :
Cette ½ journée « vision par ordinateur » est organisée à l'occasion de la soutenance de thèse de L. CALVET, intitulée "Méthodes de reconstruction tridimensionelle intégrant des points cycliques : application au suivi d'une caméra", se déroulant la veille, c.-à-d. le jeudi 23 janvier, au même endroit et à 14h30.
Nous nous intéresserons à la segmentation d'objets de classes connues, sans a priori sur la position de ces objets dans les images. Les modèles visuels par sac-de-mots (« bag of features ») donnent de bons résultats pour la classification d'images et la détection d'objets. Cependant, comme ils considèrent les objets comme des collections non-structurées d'informations, ils ne peuvent pas être utilisés directement pour déterminer précisément les frontières des objets. Parallèlement, les modèles basés sur des champs de Markov utilisés pour la segmentation d'images se basent essentiellement sur les frontières mais utilisent difficilement des contraintes globales d'objet, ce qui est indispensable lorsqu'on travaille avec des catégories dont l'apparence peut varier significativement. Nous verrons un modèle combinant ces deux approches qui permet de détecter grossièrement l'objet en utilisant des occurrences de mots visuels, tandis qu'en parallèle, un MRF produit des segmentations fines, guidé à la fois par des indices locaux de l'image (couleur, texture et arêtes) et par des dépendances à plus grande échelle. Ce modèle a été appliqué avec succès dans le contexte difficile de la segmentation de catégories d'objets en présence de fonds encombrés et de changements de points de vue. Nous verrons également comment il a été utilisé pour la détection d'instances d'objets dans un contexte de robotique humanoïde.
I will first present our approach to real-time keypoint recognition based on a Naive Bayesian classification framework, and its applications to robust 3D object detection and tracking. I will also discuss a recent extension to the estimation of the keypoint perspective orientations, suitable for detecting low-textured objects.
Then, I will present a non iterative O(n) solution to the PnP problem, and its extension to the registration in closed-form of deformable surfaces from 3D-2D correspondences.
La reconstruction d'une scène 3D à partir de photographies est une des tâches fondamentales de la vision par ordinateur. En général, résoudre ce problème demande aussi de retrouver les caractéristiques géométriques de la caméra, par des techniques dites de « calibrage ». Ces caractéristiques correspondent à deux jeux de paramètres, dits « intrinsèque » et « extrinsèque ». La connaissance du premier est cruciale car, sans elle, étant données deux photographies d'une scène, tout ce que l'on peut obtenir - au mieux - est une reconstruction 3D projective, c.-à-d. à une déformation projective 3D près.
La vision par ordinateur est une discipline assez récente qui doit sa maturité à l'apport déterminant de la géométrie projective. Ainsi, nous savons que calibrer (intrinsèquement) une caméra revient à déterminer dans toute photographie l'image d'un certain « cercle absolu », noté \Omega_\infty, situé « à l'infini » et de rayon purement imaginaire. Un des résultats fondamentaux est que l'image de \Omega_\infty est invariante aux mouvements de la caméra et ne dépend que de son paramétrage intrinsèque.
Nous nous intéressons au cas de scènes planes ou planes par morceaux. Nous expliquons
comment retrouver l'image du cercle absolu \Omega_\infty « point par point », à partir de plusieurs photographies. Cette approche se justifie par le fait que tout plan 3D coupe \Omega_\infty en deux points, notés I et J, appelés points cycliques aussi dits « absolus ». Nous expliquons pourquoi des primitives géométriques planes telles que les faisceaux de cercles ou de coniques homofocales jouent un rôle clé dans la détermination de I et J, c.-à-d. de la structure euclidienne du plan. Ces résultats constituent les fondements de récentes techniques flexibles de calibrage, dites de « calibrage plan » du fait de la planéité de l'objet étalon observé. Ces techniques se caractérisent par la mise en œuvre de méthodes directes et linéaires d'estimation de paramètres, à partir d'un nombre restreint de photographies, en réalisant un bon compromis entre flexibilité et précision.
Avec l'avènement des appareils photographiques « grand public », le besoin de telles méthodes est devenu évident, afin de pouvoir être accessibles à tout un chacun. Le fait que l'objet étalon puisse être créé avec un précision suffisante à partir d'une imprimante laser explique pourquoi le calibrage plan fait aujourd'hui office de standard.
The 4D Cities project at Georgia Tech aims at developing techniques to do spatio-temporal reconstruction of urban environments, with applications in virtual tourism, cultural heritage preservation, urban planning and much more. In this project, we start from images taken over a span of 100-150 years and build a 4D model (3D + time) using structure from motion techniques. I will discuss the recent work we presented at CVPR on recovering the ordering of the images from this reconstruction automatically, as well as some work that bridges robotics and vision to address the efficient mapping of environments at the scale of entire cities. Finally, I will discuss some future directions, including an exciting planned collaboration with Microsoft research.
Frank DELLAERT is an Associate Professor in the College of Computing at Georgia Tech. He obtained his Ph.D. from Carnegie Mellon in 2001, and is an expert in 3D reconstruction and probabilistic estimation in the areas of computer vision and robotics. He has published over 60 papers in journals and conferences, and is an associate editor for IEEE PAMI, the most cited journal in computer science. He has taught the graduate computer vision course for the past three years, as well as an undergraduate course introducing the students to robotics and perception. Finally, he will chair the conference on 3D Processing, Visualization, and Transmission (3DPVT) to be held at Georgia Tech in 2008. He is currently spending a semester at Georgia Tech Lorraine in the ancient capital of Austrasie, Metz.
Ce tutoriel présente nos travaux et ceux d'autres auteurs dans le domaine du suivi et de la reconstruction 3D de surfaces déformables comme par exemple les vêtements, tapis et feuilles de papier. Le problème de la reconstruction 3D monoculaire est mal posé. L'alignement 2D des images permet néanmoins certaines augmentations, comme par exemple le changement de l'apparence d'une surface dans les images. L'hypothèse de base que nous utilisons est que la surface observée et ses déformations sont continues et lisses. Nous montrons comment l'alignement des images est possible à partir d'une fonction de coût basée pixel, et examinons le problème des occultations externes et auto-occultations. Nous évoquons finalement la reconstruction 3D par modèle de faible rang et signalons quelques problèmes ouverts dans le domaine. Ce tutoriel sera donné au congrès ISMAR'07 le 13 novembre 2007.
L'alignement d'images consiste à estimer des transformations géométriques et photométriques telles que les deux images se superposent le mieux possible. L'approche directe consiste à minimiser la différence d'intensité ou de couleur des pixels. L'algorithme de composition inverse a été récemment proposé pour l'estimation directe d'une transformation géométrique formant un groupe. Il est efficace car il permet des pré-calculs.
Nous proposons l'algorithme de composition inverse dual pour traiter les transformations géométriques et photométriques, ces dernières agissant sur la valeur des pixels. Notre algorithme permet les mêmes pré-calculs que l'algorithme de composition inverse. Les travaux précédents sur l'estimation de transformations photométriques ne préservent pas cette propriété. Nous validons expérimentalement notre algorithme sur des données simulées et réelles, et montrons le gain en temps de calcul par rapport aux autres algorithmes.
Article : Bartoli_BMVC06.pdf
Le SLAM (Simultaneous Localization And Mapping) est un problème fondamental de la robotique mobile. Un robot commence sa mission dans un environnement inconnu : il doit construire un modèle du monde qu´il perçoit et, en même temps, doit se localiser dans ce modèle. Ce problème a été longtemps étudié dans le cas d´un robot se déplaçant sur un plan et équipé d´une nappe laser. Aujourd´hui les caméras numériques présentent de nombreux avantages pour la robotique, elles sont faciles à embarquer et fournissent une énorme quantité d´information spatiale, chromatique... La communauté vision a mis au point de nombreux algorithmes performants pour extraire de cette information un ensemble de primitives utiles. Cependant, la vision monoculaire pose le problème de la détermination de la structure 3D de la scène perçue, ce qui introduit une nouvelle difficulté dans le SLAM.
Au cours de ce séminaire, des solutions dans deux contextes applicatifs différents seront présentées :
Unmanned Aerial Vehicles (UAVs) have increased significantly their flight performance and autonomous on-board processing capabilities in the last 10 years. These vehicles can be used in field robotics applications where the ground vehicles have inherent limitations to access to the desired locations. Particularly, unmanned helicopters are valuable for many applications due to their high maneuverability.
At the same time, monocular vision has proved to be a good sensor to perceive the environment on UAVs due to its low weight and cost. Applications like motion compensation or image mosaicing are welcome in survey and control scenarios. These techniques contribute by increasing the knowledge of the environment and by simplifying tasks like event detection or monitoring.
Furthermore, the position of the UAV relies only on the GPS, because usually aerial vehicles lack other backup positioning systems like odometry, which can be easily implemented in terrestrial robots. In order to increase the UAV position reliability we will introduce a multi-view based method to compute the motion of the UAV when it is flying at relative high altitude.