La cartographie sémantique pour l’exploration

Nous avons vu dans la section précédente comment décrire grâce à notre formalisme une modélisation et un espace informationnel structuré. L’objectif de cette section est donc de présenter notre démarche pour cartographier de tels espaces. Plus particulièrement, nous nous intéresserons à la cartographie sémantique pour l’exploration d’une base de connaissances annotée sémantiquement par une ontologie de domaine.

Positionnement de la problématique

Une base de connaissances annotée sémantiquement par une ontologie de domaine constitue un espace informationnel structuré par la sémantique du domaine. L’ontologie définit un ensemble de concepts ainsi que leurs relations. Dans notre cas, il existe une relation unique entre les concepts, celle de généralisation/spécialisation. L’ontologie explicite et décrit la sémantique du domaine. Pour se replacer par rapport à notre processus, l’ontologie constitue la modélisation du domaine et l’espace informationnel est structuré par cette ontologie.

La problématique est donc de définir la cartographie sémantique pour l’exploration d’un espace informationnel structuré selon une ontologie de domaine.

Si l’on reprend notre processus, on peut situer le problème comme suit :

Positionnement de la problématique par rapport à notre processus

La problématique est de définir les paradigmes de représentation et de visualisation pour répondre à nos besoins.

Pour la résoudre, nous avons appliqué une démarche en deux étapes. La première étape a été d’étudier et d’évaluer les différents paradigmes de cartographie existants. Pour cela, nous avons au préalable défini avec l’aide des utilisateurs les fonctionnalités attendues. La seconde étape a consisté quant à elle à réaliser plusieurs cartes interactives dont l’analyse des retours d’expérience nous a permis d’identifier de nouveaux critères pour définir une cartographie sémantique dédiée à l’exploration.

Le résultat a été la spécification et la réalisation de deux nouveaux paradigmes de visualisation dédiés à la cartographie de bases de connaissances annotées sémantiquement : le « EyeTree » et le « RadialTree ».

Contexte et besoins

Cette étude a été menée sur différentes bases de connaissances constituées de fonds documentaires indexés sur une ontologie de domaine. L’utilisation d’une ontologie permet d’indexer et de classer les éléments de la base de connaissances. L’indexation repose sur l’analyse des contenus textuels (et péris textes ou métadonnées dans le cas des documents multimédias) au regard du vocabulaire associé à l’ontologie. Pour plus de détails sur les ontologies de domaine considérées ainsi que sur l’annotation sémantique voir la section sur « La démarche Ousia ».

La structuration de l’espace informationnel sur l’ontologie permet de considérer chaque concept comme un répertoire virtuel contenant les éléments de la base de connaissances portant sur le concept. Dans le cadre de ces travaux, l’ontologie est une arborescence de concepts (hiérarchie simple) construite selon la relation de généralisation/spécialisation.

Indexation des documents sur une ontologie de domaine

Pour l’exploration de bases de connaissances, nous avons identifié plusieurs besoins que la cartographie doit satisfaire pour répondre à notre problématique :

Naviguer selon la sémantique du domaine : c’est-à-dire pouvoir accéder à l’information en parcourant les liens hiérarchiques entre concepts. Ainsi, l’exploration s’effectue selon la modélisation du domaine ce qui permet à l’utilisateur de la comprendre, de l’assimiler et de l’exploiter et par voie de conséquence, il peut appréhender plus facilement l’ensemble de l’espace informationnel.

Proposer une vision à plusieurs échelles : permettre à l’utilisateur de s’approprier l’information nécessite de lui fournir les moyens pour l’appréhender dans sa globalité mais aussi dans ses particularités. C’est pourquoi, il est nécessaire d’offrir aux collaborateurs simultanément une vision globale et synthétique de l’espace informationnel et une vision particulière et détaillée de ce même espace.

Ces besoins sont l’expression de la difficulté qu’ont les utilisateurs à évoluer dans un espace informationnel important. Notre approche consiste donc à appliquer notre démarche de cartographie sémantique afin d’apporter des solutions à ce type de problèmes.

Cartographie de concepts et critères de cartographie

Le domaine de la visualisation de connaissances offre plusieurs paradigmes pour cartographier une structure hiérarchique de concepts. Ils sont généralement classables en deux familles : les cartes conceptuelles (concept mapping) et les cartes heuristiques (mind mapping) [Neumann et al., 2005]. Ces deux familles sont décrites dans la section sur « Les approches par modélisations semi‑formelles ».

Ces techniques sont avant tout utilisées pour visualiser une structure conceptuelle et non pour aider les utilisateurs à explorer une base de connaissances. Particulièrement appréciées dans les scénarii d’apprentissage [Neumann et al., 2005], ces cartes représentent les graphes sous forme de diagramme nœud-lien dans une vue uniforme. Le nombre de concepts simultanément affichables est par conséquent restreint.

Besoins et critères d’évaluation

Pour résoudre cette problématique, nous avons tout d’abord étudié et évalué les différents paradigmes de visualisation existants. Pour cela, nous avons au préalable défini avec l’aide des utilisateurs les fonctionnalités attendues. Notre approche repose sur la prise en compte des retours d’expérience (voir à la page 83). Cette approche est très différente des expérimentations directes pour évaluer la pertinence d’une visualisation comme avec [Kobsa, 2004; Pirolli et al., 2003] ou [Barlow & Padraic, 2001].

De l’expression des besoins nous avons pu identifier, pour notre problématique, trois critères d’évaluation des différents paradigmes de visualisation à base d’arborescence de concepts.

  1. Visualisation de l’organisation des concepts : dans la mesure où la conceptualisation du domaine joue un rôle central dans l’accès aux connaissances, il est important de pouvoir visualiser la structure globale de l’ontologie et ce quelle que soit sa taille. Étant donné que nous privilégions la relation hiérarchique de « généralisation – spécialisation », il est important que la disposition des concepts dans la carte respecte le mieux possible cette sémantique et ce dans un espace qui peut être réduit. La métaphore graphique à utiliser doit donc exprimer au mieux cette sémantique.
  2. Association d’informations aux concepts : à chaque concept sont associées une liste de documents et une liste de termes. Il est donc nécessaire de pouvoir accéder et visualiser ces informations. La représentation des nœuds, en termes de variables graphiques comme la taille, la forme ou la couleur, doit être porteuse de sens. Un utilisateur doit pouvoir accéder rapidement et intuitivement aux informations associées à un concept.
  3. Interaction & navigation : l’utilisateur doit pouvoir naviguer au sein de son espace informationnel sans se perdre. À tout moment il doit pouvoir se localiser et identifier où il doit aller.

Nous avons ensuite mis en œuvre les principaux paradigmes connus (par exemple les arbres hyperboliques, les « Treemaps », etc.) pour les soumettre aux utilisateurs afin d’identifier les caractéristiques essentielles à prendre en compte.

Cartographies de concepts

Pour les domaines considérés lors de cette étude, il nous a été demandé de réaliser différents navigateurs graphiques d’accès aux documents en s’appuyant sur la modélisation du domaine (c’est-à-dire de pouvoir parcourir l’ensemble de la base en suivant les liens hiérarchiques de généralisation/spécialisation entre concepts). Un concept peut ainsi être interprété comme un « répertoire » contenant les documents qui s’y réfèrent.

Étant donné que la construction de la base de connaissances privilégie la relation de généralisation/spécialisation et en accord avec notre approche, nous avons retenu les techniques graphiques de type nœud-lien appliquées aux données hiérarchiques. En effet, ces techniques ont l’avantage de représenter explicitement la structure de l’arbre et par conséquent, elles expriment mieux la sémantique recherchée.

Cette contrainte nous a donc amené à écarter des techniques de cartographie par pavage (voir en page 55) comme les Tree-Maps les Cushion treemaps et les Beamtrees, ainsi que les disques d’informations. Les parties suivantes présentent les principaux paradigmes réalisés et étudiés pour cette étude.

Prototype 1 : les listes indentées

Principe. Une des visualisations d’arborescences les plus utilisées est l’affichage des répertoires telle qu’elle est utilisée pour les répertoires de fichiers dans les systèmes d’exploitation (Windows, Unix) ou dans des environnements de développements d’ontologies (Protégé[1], Oiled [Bechhofer et al., 2001]).

Cette visualisation exploite :

  • Une structure d’arbre dépliable pour représenter une hiérarchie de répertoires ;
  • Des icônes de dossier pour représenter les répertoires ;
  • Différentes icônes pour représenter les fichiers.

Généralement, pour la gestion de fichiers, la vue est découpée verticalement en deux avec à gauche la hiérarchie des répertoires et à droite, une zone pour afficher le contenu du répertoire.

 

Prototype 1 : représentation en liste indentée (treeview simple)

Retour d’expérience. Cette technique est directement appropriable par l’utilisateur. Les répertoires sont étiquetés par les noms des concepts et le déploiement d’un nœud en nœuds plus spécifiques correspond bien à une interprétation naturelle de la relation de spécialisation. De plus, elle permet d’associer aux nœuds un nombre important d’informations qui peuvent être visualisées dans une zone dédiée (par exemple liste de documents).

Enfin, les interactions et la navigation au sein de l’arbre sont faciles et efficaces et l’utilisateur maîtrise son parcours qui reste visible à tout moment. Ceci est principalement dû au fait que les utilisateurs sont habitués à ce type de représentation.

Cependant dans le cadre d’applications concrètes où les ontologies peuvent être de taille importante, il devient difficile d’avoir une vue globale de la structure de l’arbre, a fortiori s’il est complètement déplié. L’utilisateur a alors du mal à naviguer au sein de la base de connaissances.

Prototype 2 : les arbres de cônes

Principe. Afin de palier à la critique émise sur les listes indentées, nous avons réalisé un deuxième navigateur basé sur le paradigme des arbres de cônes. Les arbres de cônes, tout comme les listes indentées sont des arbres de type nœud-lien.

Le principe consiste à dessiner l’ensemble de la hiérarchie en 3 dimensions (et non une vue partielle). Chaque nœud constitue le sommet d’un cône dont les fils se répartissent sur un cercle qui en constitue la base.

 

Prototype 2 : les arbres de cônes

Retour d’expérience. Si une telle visualisation donne un aperçu global de la structure de l’arborescence en termes de répartition des concepts et si elle semble séduisante par son interactivité, l’utilisateur est confronté à un phénomène d’occlusion et l’accès aux nœuds cachés par la structure nécessite de nombreuses manipulations de l’arbre.

Le parcours de la relation de généralisation/spécialisation est complexe. L’utilisateur n’est pas habitué à évoluer dans un espace informationnel à trois dimensions et se perd rapidement à l’intérieur d’un tel espace. L’effort cognitif est important et la prise en main de l’outil nécessite un long apprentissage.

Prototype 3 : les arbres hyperboliques

Principe. L’idée ici n’est plus de vouloir visualiser de manière uniforme tous les nœuds, mais d’en visualiser certains de façon détaillée tout en permettant l’accès (visuel) aux autres nœuds.

Les arbres hyperboliques utilisent une technique graphique de visualisation non uniforme de type « fisheye » qui permet de placer dans la carte un nombre important de nœuds (voir à la page 52).

Ce type de carte utilise une géométrie non euclidienne : la géométrie hyperbolique. La représentation de la hiérarchie des concepts est un arbre radial visualisé sur un plan hyperbolique. Grâce à la géométrie de ce plan, l’utilisateur a l’impression que la taille des nœuds et la distance entre chaque nœud sont inversement proportionnelles à leur distance au centre du disque. Ainsi, les nœuds sont toujours visibles sinon accessibles, et il suffit à l’utilisateur de glisser au centre ceux qu’il souhaite voir plus en détails.

On obtient ainsi une vue de type « focus + context » où le focus est toujours au centre du disque.

Prototype 3 : les arbres hyperboliques

Il existe des variantes en trois dimensions, mais elles ont l’inconvénient d’apporter des effets d’occlusion éliminant ainsi l’avantage de la « vision globale » offert par celle qui est en deux dimensions.

Retour d’expérience. Si de prime abord la forte interactivité des arbres hyperboliques séduit, elle souffre de plusieurs défauts qui peuvent en limiter sa réelle utilisation. Dû aux effets de la déformation, les étiquettes associées aux nœuds ne sont pas alignées et parfois se superposent. Mais c’est principalement son utilisation qui pose problème. En effet, lors de la manipulation de la structure, les éléments à la frontière de l’espace de visualisation se retrouvent projetés de façon « imprévisible ». Ces effets ont tendance à perturber l’utilisateur qui cherche en permanence à rétablir la situation engendrant un effort cognitif plus important et une prise en main assez délicate.

Ces effets de projection sont dus à la géométrie utilisée. En effet, les éléments sont représentés dans un plan hyperbolique qui n’est pas commun à nos sens. C’est pourquoi, le résultat des transformations appliquées au plan n’est pas prévisible « naturellement ».

Critères de cartographie

Selon notre approche de la cartographie sémantique, nous avons analysé les retours d’expérience des utilisateurs. Ils nous ont permis d’identifier, dans le cadre de notre application, quatre critères principaux pour la réalisation d’une cartographie sémantique :

  • Utiliser une technique de type « focus + context » pour permettre à l’utilisateur de se concentrer sur certains éléments tout en facilitant l’accès aux autres éléments ;
  • Utiliser une géométrie euclidienne pour ne pas perturber la perception naturelle des manipulations du plan ;
  • Proposer une vue globale de la modélisation (l’ontologie) permettant à l’utilisateur de facilement appréhender l’ensemble de l’espace informationnel ;
  • Pouvoir parcourir la base de connaissances tout en gardant un point fixe de référence.

Suite à ces retours d’expérience nous avons également pu identifier deux profils distincts d’utilisateurs : les « novices » et les « experts ». Les « novices » ont une certaine connaissance des concepts du domaine sans connaître exactement leur organisation ; alors que les « experts » ont une bonne maîtrise de l’ontologie de leur domaine. Ces deux profils n’ont pas les mêmes attentes concernant la vision globale de l’ontologie. Pour les novices, il est nécessaire de leur proposer une carte permettant une appréhension globale de cette modélisation. En revanche, il est nécessaire de proposer aux experts une carte de l’ontologie pour se situer rapidement dans l’espace informationnel.

Ce constat nous a donc amenés à définir deux paradigmes de cartographies différents dédiés à la cartographie de bases de connaissances annotées sémantiquement :

Synthèse

La problématique de cette partie était de définir la cartographie sémantique pour l’exploration d’un espace informationnel structuré selon une ontologie de domaine.

Pour résoudre cette problématique, nous avons appliqué une démarche en deux étapes. La première étape a été d’étudier et d’évaluer les différents paradigmes de visualisation existants. Pour cela, nous avons au préalable défini avec l’aide des utilisateurs les fonctionnalités attendues. La seconde étape a consisté quant à elle à réaliser plusieurs cartes interactives dont l’analyse des retours d’expérience nous a permis d’identifier de nouveaux critères pour définir une cartographie sémantique dédiée à l’exploration.

Le résultat a été la spécification et la réalisation de deux nouveaux paradigmes de visualisation dédiés à la cartographie de bases de connaissances annotées sémantiquement : le « EyeTree » et le « RadialTree ». La réalisation de ces deux propositions est présentée avec les autres réalisations associées à cette étude (voir à la page 186).