|
Vision par ordinateur en Midi-Pyrénées |
Le calibrage consiste à déterminer les propriétés, appelées paramètres internes,
d'un capteur d'images, typiquement un appareil photographique ou une caméra
numériques. Les paramètres internes de la caméra sont au nombre de cinq et
le plus important est la distance focale. Le calibrage s'effectue généralement
avec une mire, plane ou tridimensionnelle.
Le calibrage est un problème qui a fait l'objet de nombreuses études et pour lequel
des solutions ont été apportées, mais l'emploi de mires est contraignant, par exemple
lorsque la distance focale peut varier entre deux acquisitions. Il est alors plus intéressant
d'autocalibrer, c'est-à-dire de calibrer sans mire, uniquement avec les informations
contenues dans les images de la scène acquise. Les problèmes d'autocalibrage plan, dans le cas d'une
scène plane, et d'autocalibrage 3D, dans le cas d'une scène 3D, sont des problèmes
non linéaires, difficiles à résoudre. L'autocalibrage est une phase essentielle de
nombreuses applications de vision (reconstruction 3D, réalité augmentée, métrologie, etc.)
car elle permet de retrouver certaines propriétés de la scène (parallélisme, angles, rapports
de longueurs, etc.) nécessaires dans ces applications. Or, il est possible de
"rater son autocalibrage", c'est-à-dire d'obtenir des résultats erronés ou pas de résultat
du tout. En effet, des difficultés surgissent à deux niveaux.
Premièrement, le choix de la modélisation mathématique introduit des mouvements critiques
de la caméra pour lesquels l'autocalibrage est impossible. Il est donc important
de connaître ces mouvements et nous les avons étudiés pour l'autocalibrage 3D sous
certaines hypothèses.
Deuxièmement, la résolution du problème passe par l'utilisation de méthodes locales
d'optimisation qui ne parviennent généralement pas à trouver le minimum global de
la fonction de coût à minimiser, à cause de la haute non linéarité du problème.
Nous avons alors adapté le problème afin de pouvoir utiliser l'optimisation globale
par intervalles, une méthode qui garantit l'obtention de ce minimum global. Cette
méthode utilise l'analyse d'intervalle, une arithmétique dans laquelle les réels
sont remplacés par des intervalles. La contrepartie est une explosion du temps
de calcul. Il est donc important de porter l'attention sur le passage en intervalles
de la fonction de coût, c'est-à-dire de pouvoir déterminer de bons encadrements de
cette fonction.
Les applications possibles sont toutes celles où l'autocalibrage intervient. Nous
avons illustré nos travaux avec des mosaïques rectifiées (autocalibrage plan) et
des reconstructions 3D de bâtiments (autocalibrage 3D). Les paramètres internes
dans ces cas sont des solutions garanties, obtenues en moins d'une minute.
À partir des méthodes développées au CROMeP/EMAC et au LAAS-CNRS, concernant la mesure de forme (stéréovision/stéréo-corrélation, vidéogrammétrie par corrélation) et la modélisation 3D par recalage/fusion d'images 3D dans un nuage de points 3D, nous souhaitons développer un système multi-caméras (au moins 4 caméras) pour inspecter des structures aéronautiques statiques de grande taille (typiquement panneau de 5mx3mx1m), à partir de l'analyse des images acquises à un instant donné. Il s'agit de pouvoir détecter à la fois des écarts à la forme nominale souhaitée (comparaison du nuage acquis avec un modèle CAO) et des défauts plus localisés (par exemple impacts).
Le visage joue un rôle prépondérant en langue des signes, notamment par le sens porté par ses expressions. Peu d'études existent sur les expressions faciales en langue des signes ; cela est dû au manque d'outil de description.
Dans cette thèse, il s'agit de développer des méthodes permettant une description la plus précise et exhaustive possible des différents mouvements faciaux observables au cours d'une séquence vidéo de langue des signes.
En particulier, les rotations hors-plan et les occultations manuelles étant fréquentes dans ce type de vidéos, il est nécessaire de développer des méthodes robustes à ces conditions.
Le formalisme des modèles déformables de visage est utilisé pour l'extraction et le suivi des déformations faciales.
Les principales applications envisagées sont l'anonymisation de vidéo en langue des signes, traitement vidéo permettant de modifier la partie identitaire d'un visage sans en modifier les expressions porteuses de sens et l'animation faciale d'un avatar pilotée par la vidéo.
Une des problématiques de la vision par ordinateur est la reconstruction tridimentionnelle d'une scène à partir d'une seule image. Dans cette thèse, nous nous intéressons à cette thématique par le biais de deux méthodes de reconstruction que sont le shape from shading qui utilise l'information photométrique de l'image, et le shape from contour qui utilise l'information géométrique contenue dans l'image. Dans un premier temps nous proposons de remettre en question certaines des hypothèses nécessaires à ces deux méthodes afin d'obtenir des modélisations réalistes du problème. Ceci nous permettra dans un deuxième temps de généraliser les méthodes de résolution existantes et d'en proposer de nouvelles.
Ces contributions théoriques vont nous permettre de considérer une application pratique, à savoir la numérisation rapide de livres. Si le procédé classique, à l'aide d'un scanner à plat est satisfaisant pour les situations courantes, il présente deux faiblesses : d'une part, lorsqu'il s'agit d'un livre, la manipulation répétitive consistant à tourner une page puis à retourner le livre afin de le plaquer sur la vitre du scanner peut devenir relativement fastidieuse ; d'autre part, l'image numérisée comporte des défauts (caractères flous ou déformés, effets de parallaxe, papier non encré de niveau de gris non uniforme) si le document est "bombé", comme c'est le cas pour un livre ouvert. Pour pallier ces deux faiblesses, nous proposons de remplacer le scanner par un appareil photographique, puis de corriger les défauts géométrique et photométrique présent dans l'image en utilisant l'information tridimensionnelle de la scène. Nous montrons que ces deux techniques permettent d'obtenir des résultats très satisfaisants sur images réelles.