Tibco Spotfire : Chargement des données On demand

La fonctionnalité de chargement des données On Demand permet d’utiliser un dataset de grande taille, sans ralentir Spotfire.

Prenons un exemple ; pour une base de données comprenant 9 millions d’entrées, si vous chargez tout en mémoire dans Spotfire, à l’utilisation l’exécution fera fortement ralentie. Vous pouvez être dans le cas où votre dataset est tout simplement trop grand pour être chargé in memori.

La solution consiste à charger uniquement les données dont vous avez besoin dans votre viz, grâce à la fonctionnalité « On demand ».

Ci-dessous un tutoriel pour utiliser cette fonctionnalité. Tutoriel effectué avec Spotfire 7.5

(Pour les captures d’écran de la démonstration j’ai utilisé un petit dataset, mais le principe de fonctionnement est identique.)

Créer la connexion à la base de données

Cliquer sur Add Data Connection, sélectionnez vos données,

Les différentes méthodes de chargement

L’option « Keep data table external » n’est à utiliser si vous avez vraiment trop de données et qu’elles ne peuvent pas être chargées en mémoire. Les performances seront moins bonnes, car à chaque fois que vous changez quelque chose dans votre visualisation une nouvelle requête est envoyée à la base de données, exécutée sur le serveur distant avant de renvoyer les résultats à Spotfire. Imaginons que les requêtes sont liées à des jobs map/reduce, les temps de chargement peuvent être très long (plusieurs minutes…)

L’option « Import data table » importe toutes les données en mémoire vive (dans votre ordinateur), et sauvegarde les données dans le fichier « .dxp ». Cette option est beaucoup plus rapide pour travailler sur les données, mais dans le cas d’un gros volume de données, il faut filtrer les données à charger, en utilisant l’option Load on demand.

 

Naviguez ensuite pour ne garder que les données dont vous avez besoin.

 

 

L’inconvenant de cette méthode est si vous avez besoin de modifier votre source (ici par exemple changer de nom d’action), il faut recommencer la manipulation. Nous allons donc utiliser des filtres pour y pallier.

 

Utiliser les filtres pour charger les données à la demande

Pour utiliser les filtres vous devez utiliser une variable déjà présente dans une colonne de vos données, mais celle-ci ne peut pas venir des données chargées depuis le On Demand. Vous devez donc ajouter une nouvelle table avec vos données.

Pour notre exemple, avons importé une table avec les valeurs des actions ce jour, qui sert de filtre pour la valeur de l’action du dataset.

Si « Load automatically » est coché, lorsque vous modifierez le filtre, les données seront automatiquement chargées. Selon le temps de chargement, il peut être intéressant de ne pas cocher cette case, dans cas, après modification d’un filtre une icône de rafraichissement apparaitra à côté du graph (voir la 3 ème capture).

Dans l’option Limit By, sélectionner « Filtering Sheme ».

 

Et voilà ! En filtrant vos données au travers du filtre, seulement les données utiles sont chargées au travers du « On demand », permettant de garder de bonnes performances.

Proudly powered by WordPress
Theme: Esquire by Matthew Buchanan.