Offre de Stage




Fiber surface segmentation:
Segmentation semi-automatique
de données bivariées



Encadrant:
Julien Tierny




Le stage en une image


Figure 1: Le but de ce stage est d'imaginer, de mettre en oeuvre et d'évaluer un algorithme d'analyse de données bivariées pour la segmentation semi-automatique par surfaces fibrées.
L'exemple ci-dessus illustre une simulation en chimie quantique générant des données bivariées en sortie: à chaque point de l'espace 3D est associé un couple de valeurs (densité électronique, "rho", et gradient réduit "s"). L'histogramme 2D de ces données (au centre, "rho" est représenté sur les abscisses et "s" sur les ordonnées) est obtenu en évaluant pour des intervalles élémentaires de "rho" et "s" le nombre de points 3D se projetant dans chaque intervalle.
L'extraction d'une isosurface de "rho" (régions grises à gauche) correspond à l'ensemble des points situés sur la droite verticale au centre. Cette extraction permet d'extraire les zones d'influence des atomes mais pas de les différencier entre eux. L'extraction d'une isosurface de "s" (régions bleues à gauche) correspond à l'ensemble des points situés sur la droite horizontale au centre. Cette extraction permet d'extraire les zones correspondant à des interactions chimiques mais pas de les différencier entre interactions covalentes ou non-covalentes.
L'extraction de surfaces fibrées (à droite) correspond à l'ensemble des points situés sur les courbes de couleur au centre, placées manuellement par l'utilisateur sur les caractéristiques proéminentes de l'histogramme 2D. Leur extraction permet de distinguer les types d'atomes (en rouge: oxygène, en gris: carbone) et les types d'interaction (en bleu: interactions covalentes, en vert: interactions non-covalentes).
Dans ce stage, nous souhaitons développer de nouveaux algorithmes pour la segmentation automatique de l'histogramme 2D de données bivariées pour la génération automatique de surfaces fibrées pertinentes.


Contexte général

La visualisation scientifique [1] est une branche de l'informatique qui étudie la génération de représentations graphiques, intelligibles et interactives de données scientifiques. Ces données (cf. Figure 2) peuvent être issues de simulations numériques (en mécanique des fluides, en conception mécanique, en chimie, en cosmologie, etc.) ou d'acquisitions (applications médicales, sismologie, etc.). Ces données peuvent être définies en 2D ou en 3D et varient souvent dans le temps.

Figure 2: Exemples de visualisations de données scientifiques (de gauche à droite): Extraction d'isosurfaces avec le logiciel Paraview sur une simulation d'écoulement d'oxygène liquide; Rendu volumique d'un scan IRM; Extraction des lignes intégrales sur une simulation d'écoulement d'air en aérodynamique; Visualisation du tenseur de diffusion au sein de cellules cérébrales.

En tant que telle, la visualisation est une composante essentielle de la démarche scientifique moderne et elle joue un rôle majeur dans les activités de recherche et développement où elle permet:
 · L'exploration visuelle de données scientifiques pour la formulation d'hypothèses;
 · L'analyse géométrique pour l'interprétation de résultats numériques;
 · La communication de résultats scientifiques avec des résultats graphiques et interactifs.

L'analyse et la visualisation de données scientifiques sont des sujets très suivis dans le domaine industriel, notamment dans des applications relevant de la modélisation et de la simulation numérique (en France: EDF, CEA, Dassault Systèmes par exemple).

En pratique, les appareils modernes d'acquisition ou les simulations numériques actuelles fournissent des résultats de simulation si complexes (en terme de taille et de géométrie) qu'il est nécessaire de mettre au point des techniques d'analyse interactives ou automatiques permettant d'aider l'utilisateur dans son interprétation. On parle alors de Geometric Big Data et tout comme le Big Data traditionnel, des besoins importants d'analyse sont exprimés en pratique et il est nécessaire de développer des méthodes géométriques sophistiquées pour y répondre.
Ce sujet de stage s'insère dans le cadre de l'analyse et l'exploration de données de simulation 2D ou 3D bivariées.

Contexte scientifique


Figure 3: L'analyse topologique de fonctions scalaires permet de détecter de manière robuste les points d'intérêt dans les résultats de simulation. Dans cet exemple de mécanique des fluides, la fonction visualisée (gradient de couleur à gauche) est la vorticité du flux en présence d'un obstacle (à gauche). L'analyse topologique de cette fonction permet d'en extraire les extrema (sphères bleues: minima, sphères vertes: maxima) à plusieurs échelles d'importance (de bas en haut) pour extraire de manière fiable le centre de chaque tourbillon (en bas).

Pour appréhender la complexité des résultats de simulation et aider l'utilisateur dans son interprétation visuelle, il est nécessaire de mettre au point des techniques sophistiquées d'analyse géométrique, pour représenter de manière synthétique la structure du phénomène étudié. Dans ce contexte, les techniques d'analyse topologique [2] ont démontré leur intérêt et leur généricité dans de nombreuses tâches de visualisation et d'analyse:
 ·Pour la comparaison de résultats via des signatures topologiques (diagrammes de persistance);
 ·Pour le calcul en temps optimal d'isosurfaces;
 ·Pour la simplification d'isosurfaces;
 ·Pour l'extraction et l'analyse de structures d'intérêt (cf. Figure 3) en chimie, thermo-dynamique, mécanique des fluides, etc.
 ·Pour le suivi de structures d'intérêt au cours du temps, etc.

Dans ce cadre, un résultat de simulation est représenté par une fonction scalaire qui associe une valeur réelle (température, pression, etc.) à chaque point de l'espace 3D. Les points critiques de cette fonction (points où les dérivées s'annulent) correspondent très souvent à des structures d'intérêt dans les applications: atomes en chimie quantique, tourbillons en mécanique des fluides, points chauds en thermodynamique [BWT11], etc. Ces points critiques correspondent par ailleurs à des configurations où la topologie des ensembles de niveaux (isosurfaces) évolue. Ces évolutions peuvent être globalement capturées et représentées par des structures d'abstraction comme l'arbre de contour [CSA00], [CSP04], le graphe de Reeb [TGS09] ou le complexe de Morse-Smale [GBH08]. De plus, ces structures peuvent être interactivement simplifiées avec la notion de persistance homologique [EH09], pour ne conserver que les points critiques les plus importants.

Des algorithmes efficaces ont été proposés dans la littérature pour construire ces abstractions et certaines implémentations sont disponibles en open-source. Grâce à la généralité et la robustesse de ses algorithmes, l'analyse topologique de données est aujourd'hui une méthodologie reconnue et appliquée avec succès dans divers contextes applicatifs et utilisée dans divers domaines scientifiques et industriels.

Problématique

Comme décrit ci-dessus, l'analyse topologique de données est une méthodologie ayant atteint une certaine maturité. Cependant, le développement actuel des performances des super-calculateurs autorise aujourd'hui de nouveaux usages qui n'étaient pas envisageables auparavant. Ces nouveaux usages engendrent de nouveaux types de données qui requièrent de revoir en profondeur l'intégralité des algorithmes d'analyse topologique.


Figure 4: Le supercalculateur TERA-100 du CEA (ci-dessus), premier système pétaflopique conçu et mis en oeuvre en Europe, développe une puissance de calcul de l'ordre de 1.05 10^15 opérations par seconde. Cette cadence de calcul autorise de nouveaux usages en terme de simulation numérique, engendrant des types de données inédits nécessitant de revoir en profondeur les algorithmes d'analyse existants. Image CEA.

En particulier, il est à présent concevable de modéliser des processus macroscopiques complexes en simulant de manière conjointe plusieurs phénomènes physiques (par exemple: simulation conjointe de thermodynamique, de mécanique des fluides et de résistance des matériaux). On parle alors de simulations multi-physiques. De telles simulations ne calculent plus l'évolution d'une seule grandeur physique en tout point de l'espace 3D, mais de plusieurs grandeurs physiques, pouvant être radicalement différentes.
L'analyse de ce type de données, dont l'émergence s'amplifie actuellement, devient un véritable enjeu scientifique.

Par conséquent, il est nécessaire de revoir en profondeur l'analyse topologique de données pour pouvoir l'étendre aux fonctions multivariées. Nous avons entrepris cette généralisation dans des travaux récents au cas des fonctions bivariées, avec la notion de surface fibrée [CGT15, KTC16], généralisant la notion d'isosurface des fonctions univariées aux fonctions bivariées, ainsi que la notion d'espace de Reeb [EHP08, TC16], généralisant la structure appelée graphe de Reeb [TGS09], largement utilisée en analyse topologique.
La généralisation de la construction géométrique de base qu'est l'isosurface permet d'entreprendre une généralisation complète de l'analyse topologique (étudiant notamment la topologie des isosurfaces) aux fonctions bivariées.

Comme illustré Figure 1, l'extraction de surfaces fibrées permet de calculer la pré-image de courbes dessinées par l'utilisateur dans l'espace d'arrivée de la fonction (en particulier en superposition avec l'histogramme 2D de la fonction). Cette approche s'est avérée efficace pour la segmentation de données bivariées provenant de simulations ou mêmes d'acquisition (Figure 5).


Figure 5: Surfaces fibrées extraites sur un scan CT d'une dent. Dans divers tâches de segmentation de données acquises, il est souvent utile de considérer la norme du gradient de la valeur acquise, afin de discriminer les transitions entre différentes paires de matériaux. Dans cet exemple, la valeur acquise correspond aux abscisses de l'histogramme 2D, tandis que la norme de son gradient correspond aux ordonnées. L'utilisateur a ensuite simplement entouré des zones proéminentes de l'histogramme 2D de la fonction bivariée, générant ainsi des surfaces fibrées représentant la frontière entre chaque type de matériau composant la dent (nerf, émail dentaire, dentine).

Cependant, cette approche repose actuellement sur une interaction utilisateur "trial and error" où l'utilisateur modifie sa courbe itérativement jusqu'à obtenir une surface fibrée capturant précisément la géométrie de sa région d'intérêt. Dans ce stage, nous souhaitons mettre en oeuvre de nouveaux algorithmes d'analyse de l'histogramme 2D, permettant d'extraire automatiquement des courbes caractéristiques au sein de cet histogramme pour l'extraction automatique de surfaces fibrées.
Une direction privilégiée consistera à étudier la topologie de la fonction de projection des données vers l'histogramme, notamment en s'appuyant l'algorithme rapide de calcul d'espaces de Reeb [TC16], mis au point récemment par l'encadrant du stage.

Organisation du stage

Le stage pourra se dérouler selon les étapes suivantes:

 · Etape 1: Etudier la bibliographie sur l'analyse topologique de données [EH09],[2] et certains résultats préliminaires sur l'analyse de fonctions bivariées [EHP08, CGT15, KTC16], [TC16];

 · Etape 2: Imaginer et mettre en oeuvre un algorithme de segmentation automatique d'histogrammes 2D de fonctions bivariées;

 · Etape 3: Utiliser l'approche décrite dans [KTC16] pour l'extraction des surfaces fibrées correspondant aux courbes calculées à l'étape précédente;

 · Etape 4: Validation de l'approche globale sur une variété de jeux de données provenant de divers contextes applicatifs;


Les programmes d'expérimentations seront écrits en C++, en utilisant la bibliothèque de visualisation 3D Visualization ToolKit (VTK) avec une intégration dans le logiciel ParaView sous la forme de plug-ins.

Durée du stage: Le stage peut durer de 16 à 24 semaines, selon les disponibilités du stagiaire.

Rémunération: Il s'agit d'un stage rémunéré (rémunération académique standard, environ 500 euros par mois).

Thèse de Doctorat: Ce stage est proposé dans l'optique d'une continuation en thèse de doctorat, dont le sujet principal porterait sur l'extension de l'analyse topologique aux fonctions bivariées.

Perspectives

Ce stage peut servir aux étudiants en informatique de première expérience professionnelle dans le domaine de la visualisation interactive de données 3D. Aussi, ce stage est une bonne opportunité pour découvrir le monde de la recherche académique, avec une continuation possible en Thèse de Doctorat.
Ce stage ouvre donc de nombreuses perspectives de carrière, dans l'académique comme dans le milieu de l'entreprise, dans des activités de recherche et développement en modélisation 3D, simulation, analyse et visualisation.

Profil

Nous recherchons un(e) étudiant(e) très motivé(e)! Curiosité, ouverture d'esprit, créativité, et ténacité sont les aptitudes de caractère que nous recherchons. Ce stage s'adresse aux étudiants en dernière année de Master en Informatique (ou mathématiques appliquées et domaines connexes) ou aux étudiants en dernière année d'école d'ingénieurs. Le stagiaire devra être à l'aise avec la programmation en C++. Un intérêt pour l'informatique, la 3D et les mathématiques est requis.

Lieu

Ce stage aura lieu au sein du département Calcul Scientifique du laboratoire d'informatique (LIP6) de Sorbonne Universites UPMC, en plein coeur de Paris (arrêt Jussieu, lignes 7 et 10).

Candidatures

Nous invitons les candidats à nous faire parvenir leur lettre de candidature accompagné d'un CV mis à jour à Julien Tierny (julien dot tierny at lip6 dot fr).

Contact

Nous vous encourageons à nous contacter par email pour toute question ou pour discuter davantage du sujet.

Références

 · [1] Cours en ligne sur la visualisation scientifique.
 · [2] Cours en ligne sur l'analyse topologique de données.
 · [BWT11] Bremer P.T., Weber G., Tierny J., Pascucci V., Day M., Bell J., "Interactive Exploration and Analysis of Large-scale Simulations using Topology-based Data Segmentation", IEEE Transactions on Visualization and Computer Graphics, 2011.
 · [CGT15] Carr H., Geng Z., Tierny J., Chattopadhyay A., Knoll A., "Fiber Surfaces: Generalizing Isosurfaces to Bivariate Data", Computer Graphics Forum, Proc. of EuroVis 2015.
 · [CSA00] Carr H., Snoeyink J., Axen U., "Computing Contour Trees in All Dimensions", Proc. of ACM Symposium on Discrete Algorithms, 2000.
 · [CSP04] Carr H., Snoeyink J., van de Panne M., "Simplifying Flexible Isosurfaces Using Local Geometric Measures", Proc. of IEEE VIS, 2004.
 · [EH09] Edelsbrunner H., Harer J., "Computational Topology - An Introduction", American Mathematical Society, 2009.
 · [EHP08] Edelsbrunner H., Harer J., Patel A., "Reeb spaces of piecewise linear mappings", Proc. of ACM Symposium on Computational Geometry, 2008.
 · [GBH08] Gyulassy A., Bremer P.T., Hamann B., Pascucci V., "A Practical Approach to Morse-Smale Complex Computation: Scalability and Speed", IEEE Transactions on Visualization and Computer Graphics, Proc. of IEEE VIS 2008.
 · [KTC16] Klacansky P., Tierny J., Carr H., Geng Z., "Fast and Exact Fiber Surfaces for Tetrahedral Meshes", IEEE Transactions on Visualization and Computer Graphics, 2016.
 · [TC16] Tierny J., Carr H., "Jacobi Fiber Surfaces for Bivariate Reeb Space Computation", IEEE Transactions on Visualization and Computer Graphics (Proc. of IEEE VIS), 2016. Best Paper Award.
 · [TGS09] Tierny J., Gyulassy A., Simon E., Pascucci V., "Loop Surgery for Volumetric Meshes: Reeb Graphs Reduced to Contour Trees", IEEE Transactions on Visualization and Computer Graphics (Proc. of IEEE VIS), 2009.


Links

Encadrant

 ·
Julien Tierny

Affiliations

 · Sorbonne Universites UPMC
 · Computer Science Department (LIP6)

Hébergement

 · Cite Universitaire Internationale (furnished apartments)

Ville de Paris

 · Wikipedia entry
 · Public transportation


Updated on November 16th, 2016.