|
Vision par ordinateur en Midi-Pyrénées |
Cette thèse traite de la reconstruction tridimensionnelle d'une scène rigide à partir d'une collection de photographies numériques, dites vues.
Le problème traité est connu sous le nom du « calcul de la structure et du mouvement » (structure-and/from-motion) qui consiste à « expliquer » des trajectoires de points dits d'intérêt au sein de la collection de vues par un certain mouvement de l'appareil (dont sa trajectoire) et des caractéristiques géométriques tridimensionnelles de la scène.
Dans ce travail, nous proposons les fondements théoriques pour étendre certaines méthodes de calcul de la structure et du mouvement afin d'intégrer comme données d'entrée, des points d'intérêt réels et des points d'intérêt complexes, et plus précisément des images de points cycliques. Pour tout plan projectif, les points cycliques forment une paire de points complexes conjugués qui, par leur invariance par les similitudes planes, munissent le plan projectif d'une structure euclidienne.
Nous introduisons la notion de marqueurs cycliques qui sont des marqueurs plans permettant de calculer sans ambiguïté les images des points cycliques de leur plan de support dans toute vue. Une propriété de ces marqueurs, en plus d'être très « riches » en information euclidienne, est que leurs images peuvent être appariées même si les marqueurs sont disposés arbitrairement sur des plans parallèles, grâce à l'invariance des points cycliques. Nous montrons comment utiliser cette propriété dans le calcul projectif de la structure et du mouvement via une technique matricielle de réduction de rang, dite de factorisation, de la matrice des données correspondant aux images de points réels, complexes et/ou cycliques.
Un sous-problème critique abordé dans le calcul de la structure et du mouvement est celui de l'auto-calibrage de l'appareil, problème consistant à transformer un calcul projectif en un calcul euclidien. Nous expliquons comment utiliser l'information euclidienne fournie par les images des points cycliques dans l'algorithme d'auto-calibrage opérant dans l'espace projectif dual et fondé sur des équations linéaires.
L'ensemble de ces contributions est finalement utilisé pour une application de suivi automatique de caméra utilisant des marqueurs formés par des couronnes concentriques (appelés C2Tags), où il s'agit de calculer le mouvement tridimensionnel de la caméra dans la scène à partir d'une séquence vidéo. Ce type d'application est généralement utilisé dans l'industrie du cinéma ou de la télévision afin de produire des effets spéciaux. Le suivi de caméra proposé dans ce travail a été conçu pour proposer le meilleur compromis possible entre flexibilité d'utilisation et précision des résultats obtenus.
The use of 3D models as multimedia content is spreading. However, even if online 3D models have been introduced, for example in e-commerce applications, 3D content is still marginal compared to images and videos. Virtual 3D objects are not yet very popular in common place applications and their use is confined to dedicated environment, like CAD-CAM applications. Indeed, 3D models need developments and tools to be handled more easily. This dissertation presents different tools to ease the use of 3D models as multimedia content: for creating, manipulating, and sharing virtual models.
In a first part, we derive image based techniques for creating 3D models. Prior knowledge on the model is assumed to reconstruct a realistic 3D virtual model from a single image. For the manipulation of 3D content, a tracking algorithm of a 3D model is proposed. Then, an analysis tool detects similarities within a 3D parametric model. Interactions with a single virtual object
are also studied and techniques to simplify user interactions are developed. Finally, we address the problem of transmitting these models.
We propose a compact and progressive model for plants and develop streaming strategies specific for such 3D progressive content over lossy networks. These streaming strategies are further used for previewing remote 3D objects, and a framework for navigating in 3D virtual environment with a light device is proposed.
This thesis deals with different aspects concerning the detection, fitting, and identification of elliptical features in digital images. We put the geometric feature detection in the a contrario statistical framework in order to obtain a combined parameter-free line segment, circular/elliptical arc detector, which controls the number of false detections. To improve the accuracy of the detected features, especially in cases of occluded circles/ellipses, a simple closed-form technique for conic fitting is introduced, which merges efficiently the algebraic distance with the gradient orientation. Identifying a configuration of coplanar circles in images through a discriminant signature usually requires the Euclidean reconstruction of the plane containing the circles. We propose an efficient signature computation method that bypasses the Euclidean reconstruction; it relies exclusively on invariant properties of the projective plane, being thus itself invariant under perspective.
La mise en correspondance stéréoscopique est un des principaux problèmes de la vision par ordinateur. Elle consiste à trouver dans deux images d'une même scène, prises à des positions différentes, les couples de pixels qui sont les projections d'un même point de la scène. Durant ces vingt dernières années, de nombreuses méthodes locales et globales ont été proposées pour résoudre ce problème. Plus récemment, grâce à un protocole d'évaluation de référence dans la communauté, une catégorie de méthodes fondées sur les régions a montré des performances intéressantes dans le cadre de la stéréovision binoculaire dite « small-baseline » (dont les images sont prises à des positions proches). Une contribution de ce travail porte sur un type particulier de méthode locale appelé propagation de germes. La zone de recherche des correspondants est réduite aux voisinages d'appariements fiables appelés germes, en faisant l'hypothèse que, généralement, deux pixels voisins ont des correspondants proches. Cela permet de réduire les calculs et d'éviter certaines ambiguïtés. Cependant, le succès de ce type de méthode est fortement dépendant du choix de ces germes. Dans les travaux présentés, nous proposons une étude de l'étape de sélection des germes. Nous nous concentrons sur la mise en correspondance de points d'intérêt. Il s'agit de points de l'image ayant des caractéristiques intéressantes pour une application donnée. Dans notre cas, nous avons besoin de pixels qui peuvent être mis en correspondance de manière sûre. Nous comparons quatorze détecteurs bien connus associés à cinq mesures de corrélation. Certaines de ces mesures sont conçues pour être robustes à un des principaux problèmes de la mise en correspondance stéréoscopique : les ruptures de profondeur. En outre, cette étude donne des conseils sur la manière de choisir les paramètres des différentes méthodes afin de trouver les meilleurs germes possibles selon des critères donnés. Ensuite, ces germes sont utilisés avec deux approches de propagation et les résultats sont évalués.
Une autre contribution porte sur une nouvelle approche de mise en correspondance stéréoscopique dense fondée sur les régions. Différentes segmentations couleur sont utilisées et plusieurs instances d'un modèle de surface sont calculées pour les différentes régions selon des disparités initiales tirées au sort. Pour chaque pixel, chaque instance donne une disparité qui est considérée comme un vote. Finalement, la disparité qui reçoit le plus de voix est sélectionnée comme disparité finale. Cette approche est relativement simple à implémenter et s'avère efficace en donnant des résultats compétitifs vis-à-vis de l'état de l'art.
Pour assurer des missions de manière autonome dans un environnement qui n'est pas parfaitement connu, un robot mobile doit pouvoir disposer de modèles de cet environnement, et notamment pour pouvoir s'y localiser. Pour ceci, il peut naturellement exploiter les données que ses capteurs lui fournissent, mais aussi des informations fournies par d'éventuels capteurs déportés, ou bien provenant d'un autre robot, et même d'un système d'information géographique. L'information commune à ces différentes sources est la géométrie, qui est une caractéristique intrinsèque de l'environnement, et qui permet donc de comparer et fusionner ces différentes sources. L'extraction d'informations géométriques structurées à partir de données perçues par un robot est l'objectif principal de cette thèse.
Après une analyse des contributions existantes, et particulièrement des approches dites de cartographie et localisation simultanées (SLAM), nous proposons une approche qui se base sur l'extraction d'amers correspondant à des primitives géométriques plus riches que les points habituellement utilisés, et sur la structuration du modèle d'amers hétérogènes résultant, structuration qui permet notamment la mise en correspondance de modèles de l'environnement.
La première partie de la thèse porte sur les opérateurs d'extraction, de suivi et de mise en correspondance de différent types d'amers perçus par vision : points d'intérêt, facettes localement planes et segments de droite. L'exploitation de ces différents types d'amers dans une approche de SLAM hiérarchique est présentée et analysée.
Dans une seconde partie, nous présentons une méthode de structuration d'un modèle d'amers hétérogènes et épars en un graphe, dont les noeuds et arêtes sont définis par des attributs de différentes natures (attributs numériques). Une méthode de mise en correspondance entre deux tels graphes est présentée : elle ouvre la voie à de nombreuses fonctions nécessaires à un robot mobile, telles que la mise en correspondance des données perçues entre plusieurs robots ou avec une modèle initial de l'environnement.
Le calibrage consiste à déterminer les propriétés, appelées paramètres internes,
d'un capteur d'images, typiquement un appareil photographique ou une caméra
numériques. Les paramètres internes de la caméra sont au nombre de cinq et
le plus important est la distance focale. Le calibrage s'effectue généralement
avec une mire, plane ou tridimensionnelle.
Le calibrage est un problème qui a fait l'objet de nombreuses études et pour lequel
des solutions ont été apportées, mais l'emploi de mires est contraignant, par exemple
lorsque la distance focale peut varier entre deux acquisitions. Il est alors plus intéressant
d'autocalibrer, c'est-à-dire de calibrer sans mire, uniquement avec les informations
contenues dans les images de la scène acquise. Les problèmes d'autocalibrage plan, dans le cas d'une
scène plane, et d'autocalibrage 3D, dans le cas d'une scène 3D, sont des problèmes
non linéaires, difficiles à résoudre. L'autocalibrage est une phase essentielle de
nombreuses applications de vision (reconstruction 3D, réalité augmentée, métrologie, etc.)
car elle permet de retrouver certaines propriétés de la scène (parallélisme, angles, rapports
de longueurs, etc.) nécessaires dans ces applications. Or, il est possible de
"rater son autocalibrage", c'est-à-dire d'obtenir des résultats erronés ou pas de résultat
du tout. En effet, des difficultés surgissent à deux niveaux.
Premièrement, le choix de la modélisation mathématique introduit des mouvements critiques
de la caméra pour lesquels l'autocalibrage est impossible. Il est donc important
de connaître ces mouvements et nous les avons étudiés pour l'autocalibrage 3D sous
certaines hypothèses.
Deuxièmement, la résolution du problème passe par l'utilisation de méthodes locales
d'optimisation qui ne parviennent généralement pas à trouver le minimum global de
la fonction de coût à minimiser, à cause de la haute non linéarité du problème.
Nous avons alors adapté le problème afin de pouvoir utiliser l'optimisation globale
par intervalles, une méthode qui garantit l'obtention de ce minimum global. Cette
méthode utilise l'analyse d'intervalle, une arithmétique dans laquelle les réels
sont remplacés par des intervalles. La contrepartie est une explosion du temps
de calcul. Il est donc important de porter l'attention sur le passage en intervalles
de la fonction de coût, c'est-à-dire de pouvoir déterminer de bons encadrements de
cette fonction.
Les applications possibles sont toutes celles où l'autocalibrage intervient. Nous
avons illustré nos travaux avec des mosaïques rectifiées (autocalibrage plan) et
des reconstructions 3D de bâtiments (autocalibrage 3D). Les paramètres internes
dans ces cas sont des solutions garanties, obtenues en moins d'une minute.
Cette thèse présente plusieurs méthodes de recalage pour les
applications de réalité augmentée. Nous présentons d'abord deux
applications utilisant des méthodes de composition 2D (recalage
homographique et déformation non-rigide).
Nous proposons ensuite une approche de suivi visuel 3D utilisant un
modèle par points de l'objet. La méthode consiste à interpréter des
mises en correspondance entre points d'intérêt en termes de variation
des paramètres de pose 3D. Pour cela nous calculons des champs de
mouvement 2D inférés par les mouvements élémentaires 3D. Nous adaptons
la technique de reconstruction par splatting développée par la
communauté d'informatique graphique et l'utilisons pour l'approximation
dense des champs de mouvement calculés en chaque point. Afin d'éliminer
la dérive de l'estimation, nous utilisons un jeu d'images clés dont la
pose est déterminée hors ligne. Nous exploitons les processeurs
graphiques (GPU) pour les parties critiques de l'algorithme.
Mon HDR s'intitule "de l'analyse aux usages d'objets visuels" et s'inscrit dans les thématiques de l'équipe VORTEX. Elle décrit des procédures d'analyse et d'extraction d'objets visuels, plusieurs approches pour composer ces objets et, finalement, des mécanismes d'accès contextuel à ces compositions. Entre Informatique et Mathématiques Appliquées, je souligne la place privilégiée de l'apprentissage artificiel dans ces travaux. Les approches "supervisées" et "par renforcement", avec leurs formalismes éprouvés, sont celles que j'ai le plus exploitées avec les doctorants et collègues de l'équipe.
Ces travaux portent sur la perception et la compréhension de l'espace et du milieu par un robot autonome interagissant : (1) avec un environnement humain pour se déplacer de façon autonome/sûre, (2) avec les humains partageant le milieu pour développer ses propres capacités et agir (à terme...) en acteur sociable.
S'agissant des capteurs extéroceptifs utilisés, nous privilégions la vision embarquée sur un robot mobile. Une préoccupation majeure est d'intégrer des percepts multiples et incertains à tous les niveaux de la perception (données sensorielles, représentations, fonctions). Dans ce cadre, ces travaux s'articulent autour de deux thèmes complémentaires de la problématique énoncée en préambule.
Le premier thème se focalise sur la perception de l'espace pour la navigation autonome en milieu intérieur par vision monoculaire embarquée. Nos travaux ont mis l'accent sur une méthodologie complète de détection, reconnaissance et localisation sur amers visuels validée par des expérimentations réelles sur le robot Diligent. Ces amers sont capturés automatiquement par le robot dans les différentes représentations métriques et topologiques de son environnement de travail. La navigation consiste alors à exploiter ces modèles pour se localiser métriquement ou qualitativement, sur la base de données visuelles, éventuellement télémétriques. À terme, ces représentations seront enrichies par des informations sémantiques capturées en interaction avec l'homme.
Cet apprentissage supervisé, la perspective d'un robot sociable, nous ont amené à démarrer le second thème sur la perception par le robot de l'homme pour leur interaction. Nos travaux ont porté ici sur la détection, le suivi, la reconnaissance de l'homme par vision monoculaire couleur. Parmi ces fonctions, la problématique du suivi est centrale puisque la plupart des tâches robotiques coordonnées avec l'homme nécessite de caractériser la relation d'une plateforme mobile aux agents humains a priori mobiles. Nous avons ainsi prototypé puis intégré plusieurs fonctions de suivi 2D ou 3D de l'homme (ou de ses membres corporels) par le choix conjoint de stratégies de fusion de données visuelles et de filtrage particulaire répondant aux modalités d'interaction envisagées pour nos plateformes robotiques en milieu humain.
Les travaux de cette thèse s'articulent principalement autour de la détection de surfaces planes à partir de séquences d'images faiblement calibrées. La détection de telles surfaces offre des possibilités pour l'atterrissage autonome de drones, la coopération air/sol par la fusion de modèles de traversabilité ou encore la cartographie aérienne.
Considérant d'abord le contexte d'images aériennes faiblement localisées (GPS métrique, centrale inertielle bas coût...), nous exploitons les propriétés des homographies, qui définissent le déplacement entre deux images de points appartenant à un même plan du monde. Nous avons utilisé cette propriété pour segmenter les régions des images contenant la projection d'un plan. Un soin particulier à été donné à l'évaluation de différents algorithmes d'estimation linéaire robuste dans le cadre de l'estimation d'homographie à partir de points appariés. Des données de synthèse ont été utilisées afin de mettre en évidence l'influence des paramètres de l'environnement sur la qualité des estimées. Ces résultats ont été par la suite confrontés à des données réelles.
Ces techniques permettent de segmenter les points appariés selon qu'ils appartiennent ou non à une zone plane. Afin de produire une description dense (continue) des zones détectées, nous avons proposé une amélioration du score de corrélation normalisée croisée. En considérant un modèle adaptatif de l'influence des variances des niveaux de gris sur les scores de corrélation, nous avons introduit une méthode de segmentation automatique de zones planes offrant de bons résultats.
L'introduction de modèles probabilistes nous a permis de fusionner les observations au fur et à mesure du déplacement de la caméra, et de construire des grilles locales qui représentent la probabilité de planéité sur des zones.
Enfin dans l'optique de la coopération entre robots aériens et terrestres, nous avons étendu ces travaux au contexte de la robotique terrestre et de la fusion de modèles aéro-terrestres.
Le visage joue un rôle prépondérant en langue des signes, notamment par le sens porté par ses expressions. Peu d'études existent sur les expressions faciales en langue des signes ; cela est dû au manque d'outil de description. Dans cette thèse, il s'agit de développer des méthodes permettant la description la plus précise et exhaustive possible des différents mouvements faciaux observables au cours d'une séquence vidéo de langue des signes.
Le formalisme des modèles à apparence active (Active Appearance Models - AAM) est utilisé ici pour modéliser le visage en termes de déplacements d'un certain nombre de points d'intérêt et en termes de variations de texture. Quand il est associé à une méthode d'optimisation, ce formalisme permet de trouver les coordonnées des points d'intérêt sur un visage. Nous utilisons ici une méthode d'optimisation dite « à composition inverse », qui permet une implémentation efficace et l'obtention de résultats précis.
Dans le contexte de la langue des signes, les rotations hors-plan et les occultations manuelles sont fréquentes. Il est donc nécessaire de développer des méthodes robustes à ces conditions. Il existe pour cela une variante robuste des méthodes d'optimisation d'AAM qui permet de considérer une image d'entrée éventuellement bruitée. Nous avons étendu cette variante de façon à ce que la détection des occultations puisse se faire de manière automatique, en supposant connu le comportement de l'algorithme dans le cas non-occulté. Le résultat de l'algorithme est alors constitué des coordonnées 2D de chacun des points d'intérêt du modèle en chaque image d'une séquence vidéo, associées éventuellement à un score de confiance. Ces données brutes peuvent ensuite être exploitées dans plusieurs applications.
Nous proposons ainsi de décrire une expression par une combinaison linéaire de déformations faciales unitaires. Une telle description est indépendante de l'identité du visage observé et permet donc d'envisager des applications d'animation faciale d'un personnage virtuel 3D. Une autre application originale consiste à traiter une vidéo de manière à empêcher l'identification d'un visage sans perturber la reconnaissance de ses expressions.
In this thesis we give new means for a machine to understand complex and dynamic visual scenes in real time. In particular, we solve the problem of simultaneously reconstructing a certain representation of the world's geometry, the observer's trajectory, and the moving objects' structures and trajectories, with the aid of vision exteroceptive sensors. We proceeded by dividing the problem into three main steps: First, we give a solution to the Simultaneous Localization And Mapping problem (SLAM) for monocular vision that is able to adequately perform in the most ill-conditioned situations: those where the observer approaches the scene in straight line. Second, we incorporate full 3D instantaneous observability by duplicating vision hardware with monocular algorithms. This permits us to avoid some of the inherent drawbacks of classic stereo systems, notably their limited range of 3D observability and the necessity of frequent mechanical calibration. Third, we add detection and tracking of moving objects by making use of this full 3D observability, whose necessity we judge almost inevitable. We choose a sparse, punctual representation of both the world and the moving objects in order to alleviate the computational payload of the image processing algorithms, which are required to extract the necessary geometrical information out of the images. This alleviation is additionally supported by active feature detection and search mechanisms which focus the attention to those image regions with the highest interest. This focusing is achieved by an extensive exploitation of the current knowledge available on the system (all the mapped information), something that we finally highlight to be the ultimate key to success.
Cette thèse aborde le problème de localisation et cartographie simultanée pour un robot mobile. Lorsque le robot évolue dans un environnement inconnu, il doit construire une carte au fur et à mesure qu'il explore le monde, tout en se localisant dans celle-ci. De l'anglais Simultaneous Localisation And Mapping, le SLAM est une brique essentielle de l'architecture d'un robot autonome. Plusieurs éléments sont nécessaires à la résolution du SLAM, en particulier la perception de l'environnement permet d'observer les éléments de référence (appelés amers) qui constituent la carte.
Une méthode d'initialisation pour des amers de type point est proposée, elle s'appuie sur un mécanisme de génération puis de sélection d'hypothèses. Une architecture SLAM pour un robot terrestre est décrite dans son ensemble, en particulier une caméra panoramique est utilisée et permet de percevoir l'environnement sur 360 degrés. Cette architecture a été implémentée sur un robot de type ATRV.
Une carte de points 3D est pertinente pour la localisation d'un robot, mais donne une information limitée sur la structure de l'environnement. Un algorithme permettant d'utiliser des segments de droite est proposé, et testé sur des données réelles.
Les travaux abordés dans cette thèse visent le développement d'un système de mesure de champs de température utilisant des caméras silicium. Deux laboratoires co-encadrent ces travaux. Le Centre de Recherche Outillages, Matériaux et Procédés (CROMeP) de l'École des Mines d'Albi-Carmaux s'intéresse à l'optimisation des outillages de mise en forme ; cette étude nécessite la connaissance des sollicitations subies, liées aux champs de températures. Le laboratoire CIMI (Conception d'Imageurs Matriciels Intégrés) de SupAéro est spécialisé dans l'étude et le développement de détecteurs CMOS-APS fortement intégrés.
Plusieurs équipes ont montré l'intérêt d'utiliser des caméras silicium pour représenter et mesurer des champs de température. Nous nous distinguons de leurs travaux par l'approche adoptée pour la modélisation radiométrique du système, sur une large gamme de températures entre 400 et 1000°C. Nous proposons un modèle qui intègre une longueur d'onde effective variant avec la température et qui est paramétré par un unique jeu de coefficients indépendant du temps d'intégration. Ceci permet d'optimiser en ligne les performances du système.
D'autre part, ce modèle offre une erreur sur la température corps noir inférieure au degré, et fournit une procédure d'étalonnage rapide utilisant uniquement quatre températures de référence. Nous étudions également différents phénomènes qui perturbent la mesure en quantifiant l'erreur de mesure induite. Ces caractérisations, effectuées sur des caméras CCD et CMOS, se traduisent par l'introduction d'étapes de correction.
Enfin, nous comparons les performances des caméras silicium CCD et CMOS et des caméras de thermographie infrarouge. Nous présentons également une première application de mesures couplées dimensionnelles/thermiques, basée sur un unique capteur de stéréo-vision silicium.
Un des problèmes classiques en vision par ordinateur est la reconstruction tridimensionnelle d'une scène à partir d'une seule image. Dans cette thèse, nous nous intéressons à ce problème par le biais de deux méthodes de reconstruction, à savoir le shape from shading et le shape from contour qui utilisent, respectivement, l'information photométrique et une partie de l'information géométrique contenues dans l'image. Dans un premier temps, nous remettons en question certaines des hypothèses nécessaires à ces deux méthodes, afin d'en obtenir des modélisations réalistes. Ceci nous permet, dans un deuxième temps, de généraliser les méthodes de résolution existantes et d'en proposer de nouvelles.
Ces contributions théoriques nous amènent à nous intéresser, en guise d'application, à la numérisation des documents. Si le procédé classique, qui utilise un scanner à plat, est satisfaisant pour les situations courantes, il présente deux faiblesses : d'une part, lorsqu'il s'agit d'un livre, la manipulation répétitive consistant à tourner une page puis à plaquer le livre contre la vitre du scanner est relativement fastidieuse ; d'autre part, l'image numérisée comporte des défauts (caractères flous ou déformés, effets de parallaxe, papier non encré de couleur non uniforme) si le document est « bombé », comme c'est le cas pour un livre épais. Pour pallier ces deux faiblesses, nous proposons de remplacer le scanner par un appareil photographique numérique, puis de corriger les défauts de la photographie en utilisant l'information tridimensionnelle de la scène. Nous obtenons des résultats très satisfaisants sur images réelles.