Gestion des collections
Une collection est un ensemble de documents à caractère publique ou privée. Elle peut gérer des contenus qui proviennent de plusieurs sources de données (données des connecteurs) et les mapper avec des champs de l’index. Après connexion à l'interface d'administration, la première page affichée est la page «Gestion des collections» (Cf. Figure 4). Elle liste les collections disponibles avec pour chacune :
- Son nom;
- Une brève description;
- Une icône pour modifier les champs renseignés lors de l'ajout d'une collection;
- Une icône pour la supprimer.
- Le bouton «Ajouter une collection» ouvre la page pour l'ajout d'une nouvelle collection (Cf.Ajout d'une nouvelle collection).
Ajout d'une nouvelle collection
L'ajout d'une nouvelle collection, via le bouton «Ajouter une collection» de la page «Gestion des collections», ouvre une page pour renseigner les informations de la collection à créer (Cf. figure 4.1) : Nom : identifiant interne de la collection; Langues : définit les langues de la collections. Par défaut, les deux langues officielles sont choisies. Il suffit de décocher la case se trouvant devant une langue pour la supprimer. Il est à noter qu’il est possible de spécifier plus de langues dans Constellio via ses fichiers de configuration et d’afficher ces langues au niveau de l’interface; Titre : le nom affiché pour désigner la collection; Description : un bref descriptif de la collection. Les champs «Titre» et «Description» doivent être remplis dans la ou les langues spécifiées dans le champ «Langues». Après l'ajout d'une collection, tous ces champs -à l'exception du champ «Nom»- peuvent être modifiés via l'icône de modification associée à la collection (Cf. figure 4).
Gestion d'une collection
Cliquer sur le nom d'une collection permet d'afficher le menu de configuration de celle-ci. Ce menu est composé des sous-menus suivants (Cf. figure 4.2) :
- Indexation : est affiché à l’accueil de la gestion d’une collection (Cf. figure 4.2) et donne un résumé sur l’état de la collection;
- Connecteurs : ce sous-menu permet de gérer les connecteurs associés à la collection;
- Facettes : gestion des facettes d’une collection. Une facette permet de raffiner un résultat de recherche selon ses différentes valeurs;
- Champs d'index : gestion des champs de l'index;
- Catégorisation : permet de créer des catégories de documents en fonction d’information identifiée dans des champs grâce à des expressions régulières;
- Statistiques sur l'utilisation de la collection;
- Sécurité : pour la gestion des utilisateurs et des groupes d’utilisateurs d’une collection;
- Capsules : ce sous-menu sert à associer des capsules aux termes de recherche;
- Liens référencés : liste des liens modifiés par les utilisateurs autorisés (Cf. section);
- Synonymes : définition de synonymes;
- Correcteur : paramétrage du correcteur orthographique.
Les sous-menus cités ci-dessus sont détaillés dans les sections 4.2.1 à 4.2.10.
Connecteurs d'une collection
Afin d’alimenter une collection, il est nécessaire de lui associer une ou plusieurs sources de données. Cela se traduit par l’ajout d’une ou de plusieurs instances de connecteurs à la collection. Chaque instance de connecteur a un type particulier qui détermine le type de la source de données. Les types de connecteurs disponibles dans la version actuelle de Constellio sont :
- Connecteur web : alimente la collection avec des pages web;
- Connecteur de bases de données : procure des documents à partir d’une base de données avec des requêtes SQL;
- Connecteur de système de fichiers : fournit des documents à partir d’un système de fichiers.
Il important de noter que tous les types de connecteurs GSA peuvent être téléchargés et ajoutés à Constellio. Quelques exemples sont disponibles sur la page suivante:
http://code.google.com/p/googlesearchapplianceconnectors/ La gestion des connecteurs est accessible :
- Via le menu indexation, lors de la création de la collection, en cliquant sur le lien «Gérer les connecteurs»;
- Ou à travers le sous-menu «Connecteurs».
La page de la gestion des connecteurs liste tous les instances de connecteurs associées à la collection (Cf. figure 4.2.1-a). Chaque instance est décrite par une ligne donnant :
- Son nom;
- Un lien «Redémarrer la traversée» pour lancer la mise à jour des documents à partir de la source de données associée au connecteur;
- Deux icônes pour modifier ou supprimer l’instance du connecteur ( , ).
Afin d'associer une nouvelle instance de connecteur à une collection, il suffit de cliquer sur le bouton «Ajouter». Une page s'affiche avec les informations sur le connecteur (Cf. figure 4.2.1-b) :
- Type : choisir un des types de connecteurs disponibles ajoute des champs spécifiques au type choisi pour les renseigner. Les champs spécifiques pour les types de connecteurs disponibles sont détaillés dans le tableau 4.2.1;
- Nom du connecteur;
- Horaire des traversées : cette partie détermine les horaires pendant lesquels les documents seront chargés ainsi que le flux de chargement de ces documents. Par défaut, la traversée des documents est désactivée. Elle peut être activée en spécifiant les horaires de traversées en ajoutant un ou plusieurs intervalles de temps. L’intervalle 00:00 à 00:00 signifie que la traversée se fait en tout temps.
La validation d’ajout de l’instance du connecteur se fait avec le bouton «Sauvegarder». Il est à noter qu'une collection peut être liée à plusieurs instances du même type de connecteur. Un exemple est la connexion à plusieurs bases de données via différentes instances de DBConnector.
Connecteur Web (http-connector)
| Paramètre | Description |
| URLs de départ | Liste des pages à indexer; les liens cités dans ces pages sont aussi visités. Cependant, le saut de page en page est limité par le champ «Profondeur maximale» |
| Expressions d'inclusion | Ce champ permet de restreindre le télé-versement à certains types de documents. Ce champ est optionnel. |
| Expressions d'exclusion | Permet d’exclure des documents du télé-versement. Ce champ est optionnel. |
| Délai de rafraîchissement (en jours) | Nombre de jour avant la prochaine traversée des documents. |
| Profondeur maximale | Nombre maximum de liens à suivre à partir d’une URL de départ. |
| Tâches simultanées | Définit le nombre de Threads lancés simultanément pour alimenter Constellio. |
| URLs à la demande | Les URL renseignées dans ce champ sont visitées en priorité. |
Connecteur de courriels (mailbox-connector)
| Paramètre | Description |
| Machine hôte | Nom du serveur d’accès aux courriels. Par exemple pour un compte compte@gmail.com, il faut spécifier imap.gmail.com. |
| Protocole | Protocole d’accès à la machine hôte. Pour l’exemple précédent, il faut choisir imaps comme protocole. |
| Adresse courriel | Exemple compte@gmail.com |
| Mot de passe | Mot de passe du compte donné dans le champ «Adresse courriel». |
| Répertoires à indexer | Ce champ est optionnel. Lorsque ce champ n’est pas renseigné, tous les répertoires du compte donné sont indexés. Si on souhaite restreindre l’indexation à certains répertoires de la boite courriel, il suffit de les renseigner dans ce champ. |
| Répertoires à exclure | Ce champ est optionnel. Lorsque ce champ n’est pas renseigné, tous les répertoires du compte donné sont indexés. Si on souhaite exclure certains répertoires de la boite courriel de l’indexation, il suffit de les renseigner dans ce champ. |
Connecteur de bases de données (DBConnector)
| Paramètre | Description |
| Username | Nom de l’utilisateur de la base de données. L’utilisateur doit avoir accès aux tables spécifiées dans le champ «SQL Query». |
| Password | Mot de passe de l’utilisateur donné au premier champ. |
| JDBC Connection URL | Adresse de connexion à la base de données. Par exemple l’URL 'jdbc:mysql://127.0.0.1:3306/basetest' spécifie une base de données MySQL installée sur la machine locale (127.0.0.1) sur le port 3306. Le nom de la base de l’exemple est «basetest». |
| Database Name | Nom de la base de données («basetest» dans l’exemple d’URL). |
| Connector Hostname | L’adresse de la machine qui héberge la base de données (127.0.0.1 dans l’exemple d’URL). |
| JDBC Driver Classname | Le nom du pilote JDBC (sans l’extension «java»). |
| SQL Query | Requête SQL qui définit les enregistrements à fournir au système de recherche. Il est possible de regrouper plusieurs tables avec JOIN ou UNION. |
| Primary Keys (separated by comma) | Les clés primaires des tables utilisées dans la requête SQL séparées par des virgules. |
| Stylesheet for serving results | Une feuille de style XSLT pour définir l’apparence du résultat. Ce champ est optionnel. |
Connecteur de système de fichiers (FileConnectorType)
| Paramètre | Description |
| Start paths | Désigne le chemin vers le répertoire de départ pour le parcours des documents. Ce chemin suit le formatage SMB sans le nom de domaine ni le nom de l’utilisateur ou son mot de passe. Par exemple //ServeurName/Reperoire/Rep1 désigne le répertoire Repertoire/Rep1 sur le serveur ServeurName. |
| Include patterns | Ce champ permet de restreindre le télé-versement à certains types de documents. |
| Exclude patterns | Permet d’exclure des documents du télé-versement. Ce champ est optionnel. |
| Domain | Le nom de domaine du serveur désigné dans le champ «Start paths». Ce champ est optionnel. |
| User name | Le nom d’utilisateur qui peut avoir accès aux documents désignés par le champ «Start paths». |
| Password | Mot de passe de l’utilisateur donné. |
'' Les valeurs de ces champs sont des expressions régulières suivant la syntaxe java (http://download.oracle.com/javase/1.4.2/docs/api/java/util/regex/Pattern.html). De plus la méthode utilisée est «find», c'est-à-dire, qu’il suffit qu’un sous-ensemble des termes du champ recherché vérifie l’expression régulière pour que le champ soit accepté. Pour plus de détails voir : http://download.oracle.com/javase/1.4.2/docs/api/java/util/regex/Matcher.html#find%28%29
Facettes
Les facettes permettent de catégoriser des résultats soit sur la base de champs prédéfinis ou sur la base de requêtes. L'accès au sous-menu «facettes» de la gestion d'une collection, permet de créer, modifier ou supprimer les facettes de cette collection. La liste des facettes disponibles est affichée avec les informations suivantes pour chacune (Cf. figure 4.2.2) :
- Nom de la facette;
- Libellés des valeurs : ce champ permet de définir des libellés pour les valeurs d’une facette. Lorsqu’un libellé est défini pour une valeur donnée, il la remplace dans la liste des valeurs affichées de la facette;
- Deux flèches bleues ( , ) permettent de définir l'ordre d'affichage des facettes dans le résultat de recherche;
- Une icône pour modifier la facette ( );
- Une icône pour supprimer la facette ( ).
L'ajout d’une facette se fait avec le bouton «Ajouter», une fenêtre s'affiche pour renseigner le nom et le type de la facette. Deux types sont disponibles :
- Field Facet : facette lié à un champ de l'index;
- Query Facet : facette liée à une requête.
La validation d'ajout de facette se fait avec le bouton «Sauvegarder».
Champs d'index
Le sous-menu «Champs d'index» affiche les métadonnées (ou champs) de l'index. Une ligne descriptive est associée à chaque métadonnée avec :
- Son nom;
- Une case à cocher «Indexed » pour activer l’indexation de la métadonnée correspondante;
- Une case «Stored» qui indique à l'index qu'il faut sauvegarder la métadonnée;
- Une case «Multi Valued» qui indique que le champ peut supporter plusieurs valeurs;
- Une icône ( ) pour modifier la métadonnée.
La liste déroulante «Query Parser Operator» définit l’opérateur à appliquer entre les champs lors de la recherche. Deux choix d’opérateurs sont possibles : opérateur «ou» et opérateur «et». L'ajout de nouveau champ se fait avec le bouton «Ajouter» (en bas de la liste des champs de l'index). Cliquer sur ce bouton ouvre une nouvelle fenêtre (Cf. figure 4.2.3-b) avec :
- Un champ «Field name» pour renseigner le nom de la métadonnée;
- Les cases à cocher : Indexed, Stored, Multi Valued pour préciser si le champ sera indexé, sauvegardé et s’il peut supporter plusieurs valeurs respectivement;
- Une liste déroulante «Type de champ» : permet de choisir un des types de champs définis via la section «Gestion du serveur» (Cf. détails en section 5.3). Si le champ recherché n'est pas disponible dans la liste déroulante, il est possible de l'ajouter à celle-ci avec le lien «Ajouter un type de champ»;
- Une partie Métas incluant un bouton «Ajouter» qui permet d'ajouter un champ d'un connecteur pour peupler le champ de l'index; il est donc possible de supporter pour un champ d’index plusieurs champs de connecteurs.
- Une partie «Copy fields» : permet de copier des champs dans le nouveau champ crée afin de les rendre accessibles en recherche à partir de ce nouveau champ crée.
Notons enfin, que les champs dynamiques (ceux pour lesquels la case dynamique est cochée) ont un traitement particulier :
- le champ «Field name» représente une expression régulière;
- ils doivent être copiés dans un champ de type «text».
La confirmation d'ajout se fait via le bouton «Sauvegarder».
Catégorisation
Une catégorisation permet de créer des sous-ensembles ou des regroupements de contenu définis avec des expressions régulières à partir des contenus des champs d’index. La gestion des catégorisations est accessible via le sous-menu «Catégorisation». Ce dernier, affiche la liste des catégorisations crées pour une collection donnée. Une ligne descriptive est associée à chaque catégorisation avec son nom et deux icônes pour la modifier ou la supprimer.
La définition d’une nouvelle catégorisation se fait avec le bouton «Ajouter» (en bas de la liste des catégorisations). Cliquer sur ce bouton, ouvre une nouvelle fenêtre (Cf. figure 4.2.4-(a)) permettant de donner un nom à la catégorisation, choisir le champ à peupler et définir les règles. L'ajout de règles se fait avec le bouton «Ajouter», qui ouvre une fenêtre (Cf. figure 4.2.4-(b)) pour spécifier le nom de la règle (champ valeur). La validation avec le bouton «Sauvegarder», ouvre une autre fenêtre (Cf. figure 4.2.4-(c)) pour la définition des expressions régulières à appliquer au champ de l'index :
- Champ source : spécifie le champ de l'index sur lequel l'expression régulière sera appliquée
- Expression régulière;
- Liste des expressions régulières définies avec la possibilité de les modifier ou supprimer;
- Un bouton «Ajouter» pour ajouter un autre champ pour peupler la catégorisation.
La validation de la création de la catégorisation se fait avec le bouton «Sauvegarder».
Statistiques sur l'utilisation de la collection
Plusieurs statistiques sont sauvegardées et accessibles via le sous-menu «Statistiques» de la gestion d'une collection (Cf. exemple illustré par la figure 4.2.5):
- Journal de toutes les requêtes. Pour chaque requête sont donnés sa date, le nombre de résultats retournés ainsi que le temps de réponse;
- Journal des requêtes les plus populaires avec/sans résultats et avec/sans clic de souris. Les informations sur la fréquence, le nombre de résultats retournés/cliqués et le meilleur résultat cliqué sont fournies pour chaque requête.
Sécurité
L'accès à la page «Sécurité», via le sous-menu «Sécurité» de la page de gestion d'une collection, permet de donner/supprimer les droits de Recherche ou d'administration -à des utilisateurs ou à des groupes d'utilisateurs- sur une collection. L'ajout de droits se fait avec le bouton «Ajouter» qui affiche la fenêtre illustrée par la figure 4.2.6. Il suffit, ensuite, de choisir un groupe/un utilisateur dans la liste déroulante «Groupe»/«Utilisateur» et cocher les cases «Recherche» et/ou «Administration» pour affecter ces droit au groupe/à l'utilisateur sélectionné. La validation se fait avec le bouton «Sauvegarder».
Capsules
Une capsule, est un contenu informationnel saisie par un administrateur, elle s’affiche au début des résultats de recherche. Elle a pour objectif l’orientation de l’utilisateur au niveau de la recherche. Une capsule peut être associée à un ou plusieurs mots clés. Par exemple, une capsule peut proposer à l'utilisateur, pour une requête donnée, un ou plusieurs liens vers des résultats différents (ex. associer au mot Québec les liens : ville de Québec, salle de cinéma à Québec, etc.). L'accès au sous-menu «Capsules» liste les capsules existantes avec la possibilité de les modifier ou supprimer. Le bouton «Ajouter», donne la possibilité de définir une nouvelle capsule. Il ouvre la fenêtre illustrée dans la figure 4.2.7 qui contient :
- Le titre identifiant la capsule (dans les deux langues);
- La description qui sera proposée à l'utilisateur suite à la recherche d'un des mots clefs spécifiés dans le champ «Mots-clés» (dans les deux langues);
- «Mots-clés» : liste des mots qui génèreront l'affichage de la capsule.
La validation de l'ajout se fait via le bouton «Sauvegarder».
Liens référencés
Le sous-menu «liens référencés» permet d'accéder à la liste des liens référencés d'une collection. Ceux-ci, sont définis après une recherche, par les utilisateurs ayant le droit d'administration sur une collection, afin d'améliorer le résultat de la recherche. Chaque réponse (ou lien) fournie par le moteur de recherche, pour une requête donnée, peut être altérée de deux façons (Cf. figure 4.2.8-a) :
- ou bien en changeant son ordre d'apparition via les flèches «Élever» ou «Rétablir»;
- ou en la supprimant complètement des réponses avec l’icône «Exclure».
Ces réponses se retrouvent dans la liste des «liens référencés» et peuvent être modifiées ou supprimées (Cf. figure 4.2.8-b).
Synonymes
Le sous-menu «Synonymes» de la gestion d'une collection permet de définir des synonymes et par conséquent obtenir les mêmes résultats de recherche pour ces synonymes. Cliquer sur le bouton «Ajouter» ouvre une fenêtre avec un champ texte «Synonymes» où l'on peut désigner une liste de synonymes séparés par des sauts de ligne (Cf. figure 4.9). Le bouton «Sauvegarder» confirme cette définition.
Correcteur