La visualisation d’informations

L’approche proposée par la communauté de la visualisation d’informations (souvent aussi nommée « InfoVis » ou « IV ») trouve ses origines dans l’étude des interfaces homme‑machine (IHM). Pour cette communauté, la problématique de la visualisation (et par conséquent de la cartographie) peut être résumée à la question suivante :

« Comment représenter un grand nombre d’informations sur un écran ? »

Différence avec la visualisation scientifique

En 1999 est paru un recueil d’articles élaboré par S. K. Card, J. D. Mackinlay et B. Shneiderman nommé « Readings in information visualization : using vision to think » [Card et al., 1999d]. Dans ce livre, ces auteurs ont écrit un article d’introduction qui est une synthèse, reconnue par leurs pairs, sur le domaine de la visualisation d’informations [Card et al., 1999b].

Pour commencer, ils définissent la visualisation (en générale) par :

« La visualisation est l’utilisation de représentations visuelles interactives et informatisées de données pour amplifier la cognition ».

La visualisation a donc pour objectif de représenter graphiquement des données pour permettre aux utilisateurs des cartes de mieux raisonner. Il est possible de remarquer l’héritage des IHM avec le caractère nécessairement informatisé de la visualisation.

Ensuite, les auteurs subdivisent le domaine de la visualisation en deux classes selon la nature des données. Dans la première classe, ils regroupent sous le nom de « visualisation scientifique » toutes les visualisations de phénomènes physiques. La cartographie géographique entre dans cette classe. Dans la seconde, ils regroupent cette fois sous le nom de « visualisation d’informations » toutes les visualisations de données abstraites (non liés à des phénomènes physiques).

Ils définissent la visualisation d’informations comme :

« La visualisation d’informations est l’utilisation de représentations visuelles interactives et informatisées de données abstraites pour amplifier la cognition ».

Pour les auteurs, on ne peut pas cartographier de la même manière des données scientifiques et des données abstraites.

Pour comprendre cette discrimination entre visualisation de données physiques et visualisation de données abstraites, il est nécessaire de comprendre la difficulté liée à la représentation de données abstraites par rapport à des données scientifiques.

La visualisation scientifique est un outil qui permet de manipuler un grand nombre de données scientifiques afin de permettre de « voir » des phénomènes issus de ces données. La visualisation scientifique est donc basée sur des données physiques (la terre, des molécules, le corps humain) déjà localisées dans un espace. Pour Card, Mackinlay et Shneiderman tant que les informations et les données que l’on souhaite représenter sont dérivées de données physiques, alors elles possèdent une représentation graphique intrinsèque. C’est le cas par exemple avec une carte géographique qui représente des villes ; la localisation physique des villes sur le globe terrestre fournit la position relative des points correspondants aux villes sur la carte. Les représentations graphiques sont alors « à l’image » des phénomènes observés. Pour les données abstraites, la difficulté est de leur trouver une représentation et plus particulièrement une répartition dans l’espace de la carte.

Pour illustrer cette particularité, supposons que l’on souhaite cartographier un ensemble de concepts. La difficulté n’est pas de trouver une représentation pour chaque concept (par exemple un rectangle ou un cercle) mais bien de les répartir dans l’espace de la carte sachant que la répartition aura un impact important sur la signification perçue.

Il est donc facile de comprendre que les données abstraites n’ont pas de représentation graphique intrinsèque. C’est pourquoi, la principale problématique de la visualisation d’informations est de déterminer quelles représentations choisir pour véhiculer quel message.

La section suivante, présente un exemple de visualisation d’informations.

Exemple de visualisation d‘informations

Pour comprendre la difficulté de manipuler de grands ensembles de données abstraites et l’intérêt de passer par une cartographie, prenons un exemple réel : l’étude de l’émergence et de l’évolution d’un domaine scientifique [Börner et al., 2005].

L’objectif de ces travaux était d’effectuer de la veille sur un domaine scientifique donné. Plus particulièrement, il s’agissait pour les auteurs de proposer un système pour étudier l’impact dans le temps de chaque auteur sur le domaine donné.

Pour leur étude, les auteurs ont analysé un ensemble de données qui illustre la naissance et la croissance d’un nouveau domaine des sciences de l’information entre 1974 et 2004 : la visualisation d’informations. L’ensemble des données contient tous les articles de la bibliothèque d’ACM liés à la recherche sur la visualisation d’informations : soit 614 articles écrits par 1036 auteurs uniques entre 1974 et 2004.

Pour réussir à comprendre la structure du domaine et son évolution, les auteurs ont exploité les informations contenues dans le jeu de données ; ils ont basé leur étude principalement sur le nombre de publications pour chaque auteur ainsi que leurs citations. Le jeu de données est structurable en un graphe de coauteurs. Même limité à ce graphe, le nombre d’informations est immense.

Dans ce contexte-là, comment appréhender le domaine étudié ? Comment déterminer l’auteur qui influence le plus le domaine étudié ? Tout le monde a conscience que la réponse est dans le jeu de données et plus particulièrement dans le graphe. Mais comment manipuler ce graphe ? Un traitement simple permet de calculer l’auteur qui a le plus publié ou alors, l’auteur qui est le plus cité ou bien encore, le binôme d’auteurs qui est le plus cité et ainsi de suite.

Face à ce jeu de données, les auteurs ont calculé un ensemble de métriques pour chaque auteur (du jeu de données) en fonction de leur nombre de publications et leur nombre de citations. Voici quelques résultats avec les dix premiers auteurs de chaque métrique : le degré (degré du sommet correspondant à chaque auteur dans le graphe), la force de productivité (nombre de papiers produits), la force de citation (nombre des citations reçues) et la centralité (chemins les plus courts qui traversent cet auteur dans le graphe).

 

Exemple de cartographie : construction de métriques.

Mais l’influence d’un auteur (ou un binôme) ne peut pas se résumer à la somme de ces quelques mesures. Les auteurs ont donc pondéré chacun de ces résultats pour obtenir un poids global. Une fois cette pondération effectuée pour chaque auteur, il faut ensuite la comparer à celle des autres auteurs.

Une approche « basique » sous forme de table de données permet de répondre à des questions liées à un, voir deux auteurs (vision locale). Mais au-delà comment faire ? Comment appréhender tout le domaine pour comprendre l’ensemble des interactions entre les auteurs ? Comment avoir une vision globale ?

Pour répondre à leurs besoins et face à la grande quantité d’informations, les auteurs ont choisi de cartographier l’espace informationnel constitué du jeu de données. Ils ont obtenu plusieurs représentations graphiques du graphe.

Ainsi, ils ont obtenu une série de cartes représentant le graphe pour différentes périodes :

Exemple de cartographie en visualisation d’informations [Börner et al., 2005] : partie a & b. 

Exemple de cartographie en visualisation d’informations [Börner et al., 2005] : partie c.

Chaque carte ne contient que les auteurs les plus influents (selon les paramètres de la cartographie) ainsi que leurs relations. Sans même lire la légende associée à la carte, il est possible d’identifier immédiatement les auteurs les plus influents mais aussi les différentes communautés. Dans la dernière carte, on peut lire que les personnes les plus influentes sont celles qui constituent le trio : Mackinlay, Card et Robertson.

Ce petit exemple permet donc bien de comprendre le gain offert par la cartographie de données abstraites en visualisation d’informations face à un grand nombre d’informations.

Modèle de référence de la visualisation d’informations

Tous les auteurs s’accordent à dire que la visualisation d’informations est un processus qui permet de passer de données à une forme graphique. Card, Mackinlay et Shneiderman ont proposé une modélisation plus fine de ce processus qui est devenue rapidement le « modèle de référence » de la visualisation d’informations [Card et al., 1999b].

Voici le schéma de leur modèle ; les flèches représentent des flots de données :

Modèle de référence de la visualisation d’informations.

Dans ce modèle, la visualisation est décrite comme un processus qui passe par des « états de données » différents. Le premier correspond aux données brutes à traiter. Elles sont dans un format propre (par exemple un fichier de calcul ou un document textuel).

L’état suivant est obtenu par une transformation des données brutes pour obtenir une structure de table de données. Les tables de données sont définies comme un ensemble de relations représentées sous forme de matrice dont les tuples (colonnes de la matrice) définissent des variables et les valeurs des tuples définissent des cas (lignes de la matrice).

Cette dernière est ensuite transformée en un ensemble de structures visuelles par une opération de mappage visuel. Cette opération consiste à associer aux éléments de la table de données, un ou plusieurs objets graphiques (les structures visuelles).

Et enfin, les structures visuelles sont transformées en vue par une opération de transformation de vue. Les opérations permettant de passer d’un état de données à un autre ne sont pas uniques ; c’est pourquoi, il est possible de construire un très grand nombre de vues à partir d’un même ensemble de données brutes.

La phase essentielle de ce modèle est la transformation des tables de données en structures visuelles : le mappage. En effet, les tables de données contiennent des données abstraites alors que les structures visuelles sont des éléments graphiques faisant varier des propriétés visuelles perçues par la vision humaine (les variables visuelles). L’opération de mappage est l’opération qui permet de passer d’un monde de données à un monde de formes visuelles.

Par la suite, Ed H. Chi a proposé une taxonomie des techniques visuelles basées sur ce modèle [Chi & Riedl, 1998; Chi, 2000]. Dans ce dessein, il a considéré quatre niveaux dans le modèle. Ces niveaux, il les nomme des « niveaux d’abstraction des données dans le modèle de référence » :

  • Données,
  • Abstraction analytique (correspondant aux tables de données),
  • Abstraction visuelle (correspondant aux structures visuelles) et,
  • Vue.

Il a ensuite décomposé toutes les techniques visuelles connues en une succession d’opérations atomiques permettant de passer des données à la carte. Les opérations permettent alors de passer d’un niveau à un autre (non nécessairement de natures différentes). Les passages entre des niveaux de natures différentes permettent alors de définir des classes d’opérations correspondant au modèle de référence :

  • Les opérations de transformations des données : elles permettent la sélection et la transformation d’un ensemble de données pour le visualiser. Les données sont stockées dans une table de données ;
  • Les opérations de mappage : passage d’une table de données à un ensemble de structures visuelles ;
  • Les opérations de transformations visuelles : les structures visuelles sont rendues visibles. Ces opérations déterminent la perception de la carte.

Par la suite d’autres travaux ont repris cette approche du processus de visualisation. La littérature parle généralement de « pipeline de la visualisation ». On peut notamment citer les travaux de [dos Santos & Brodlie, 2004] qui introduisent deux étapes intermédiaires dans le modèle de référence : une étape d’analyse suivie d’une étape de sélection des données à cartographier.

La section suivante présente la deuxième approche pour cartographier des données abstraites.