Compte-rendu de la réunion du 9 septembre 2003
Réunion tenue au CNES
Prochaine réunion : Le mardi 15 janvier 2004 au siège du CNES à Paris
Informations générales
Événements passés, publications, initiatives…
Compte-tenu de l'annulation de la réunion de mai dernier en raison des événements sociaux, ce point est particulièrement riche.
- 12-13 mars 2003 : journées CNAM ” La Qualité des Données à l'ère de l'Information” ; Marie-Anne Chabin a assisté à une des deux journées - à noter une intervention d'Isabelle Boydens, auteur de l'excellent ouvrage “Informatique, normes et temps”, Ed Bruylant, 1999 qui fera l'objet d'une présentation par Marie-Anne Chabin lors de la prochaine réunion . Au cours de son intervention, Isabelle Boydens a traité des “Enjeux opérationnels d'une étude de la sémantique des bases de données”, détaillant notamment diverses méthodes d'amélioration de la qualité des données (data cleaning, data tracking) et soulignant la pertinence du “stemma codicum” utilisé habituellement pour reconstituer la généalogie des manuscrits médiévaux, dans le contexte des bases de données. Elle a abordé la définition de “donnée” et de “donnée correcte”, la question de la gestion des versions et de la réutilisation des données.
- Lancement de la traduction française de l'OAIS (BnF-CNES)
- Forum Documation (18-19 mars 2003) : conférences archivage et Records management
- Très grand nombre de conférences autour de XML (et notamment Office 2003)
- Pérenniser l'information sous forme numérique : normes technologies, initiatives, retour d'expériences, questions non résolues en 2003 (C. Huc)
- Stratégies pour la conservation à long terme des informations numériques (Jean-Daniel Zeller - archiviste principal des hôpitaux universitaires de Genève)
- Le bulletin de la Direction des Archives de France sur l'archivage électronique.Consultable sur : http://www.archivesdefrance.culture.gouv.fr/fr/publications/index.html.
- Au sommaire du N° 11 : ERPANET : séminaires passés et à venir, la dématérialisation des dossiers de personnel dans une préfecture, le DLM-Forum devient un groupement d'intérêt économique européen, de l'ATICA à l'ADAE, lu pour vous : Unicode, écriture du monde ?
- Au sommaire du N° 12 : PDF/A : Vers un format PDF d'archivage ? discussion sur ce projet important, possibilité d'exporter le DPF en XML, les projets d'administration électronique, heurs et malheurs de la signature électronique, le programme d'archivage numérique de la Bibliothèque du Congrès
- 3ème journée des archives de l’Université catholique de Louvain-la-Neuve, Belgique : ” Les archives électroniques, un défi pour l’avenir ? ” 8 et 9 mai 2003 ; un Compte-rendu de ces journées est disponible auprès de Delphine Vidart.
- Semaine de la sécurité des Archives - Conférences organisées par LRA (Les Rencontres d'Affaire) http://www.lra.fr/docarchi/html/semaine.html
- Sécurité des archives papier : responsabilités, prévention, plan d'urgence - Les 23 et 24 juin 2003, Paris
- Meilleures pratiques d'archivage électronique sécurisé - Les 25 et 26 juin 2003, Paris
- Visite du site d'archivage de Novarchive - Le 27 juin 2003, Rosny-sur-Seine
- Joël Poivre y a participé. Un certain nombre de participants du secteur privé, qui dénote une véritable prise de conscience de la problématique par les entreprises.
- Françoise Banat-Berger signale l'informatisation du 'livre foncier' en Alsace (40000 registres papiers) avec une exigence très forte au niveau sécurité (signature électronique) et de pérennité. Une prochaine présentation à PIN des procédures de signatures utilisées pour ce projet est à envisager.
- Le Projet PATCH (‘Permanent Access Toolbox for digital Cultural Heritage’) a été proposé au titre de projet intégré dans le cadre du 6ème PCRD. La KB (Bibliothèque Royale des Pays-Bas) était leader. La BnF et le CNES étaient respectivement responsables des 'Work package' préservation du Web et préservation des données scientifiques. Le projet n'a finalement pas été retenu. Il en résulte qu'il n'y a à ce jour aucun projet traitant de la pérennisation de l'information numérique dans le 6ème PCRD.
- Offre d'archivage électronique légal sécurisé : http://www.jarchive.com
- Ecole d'été CEA-EDF-INRIA : des cours sur XML et le Web content management seront prochainement disponibles en Smile sur un serveur Web à définir.
- ERPANET a fait plusieurs ateliers dont l'un sur la préservation des bases de données (cf. site Erpanet.org), activité qui va continuer
- Julien Masanès signale le site http://bibnum.bnf.fr pour la mise en ligne de travaux du département de la bibliothèque numérique de la BnF (notamment ou peut-on trouver de l'information sur les formats numériques)
Événements à venir pour le dernier trimestre 2003
- 17-18 octobre prochain : colloque à Florence (organisé par la présidence italienne de l'UE) l'avenir des ressources numériques en Europe
- Didier Courtaud indique l'organisation par le CEA d'une prochaine présentation publique d'un projet démontrant qu'on peut stocker un teraoctet dans une base de données XML native.
- Un séminaire Aristote est prévu le jeudi 11 décembre 2003 sur le thème ' Le monde de la bureautique : XML, standardisation des documents, logiciels libres : pour ou contre ?
- Responsables scientifiques : Didier Courtaud (Aristote) et Pascal Souhard (ADAE) –
- Le texte de présentation du séminaire est le suivant : XML, suites de bureautique, logiciels libres : ces termes font les gros titres de la presse spécialisée. Tout un chacun dit être conforme à XML, donc être tout à fait standard. Mais rapidement de nombreuses questions se posent : l’interopérabilité, dont on s’aperçoit vite qu’elle n’est pas garantie même entre documents dits ” XML ”, la pérennité, voire la sécurité …. A tel point qu’une entité de standardisation, OASIS, oeuvre sur les standards des documents de bureautique. Suites bureautiques des grands constructeurs, suites en logiciels libres : que choisir? Et même faut-il choisir, peut-on choisir ?
- Sans prétendre vous donner “la ” solution, le séminaire vous apportera des éclairages et des points de vue sur toutes ces questions, sans craindre d'être iconoclaste à l’occasion. Il se fera l'écho aussi bien des standardisateurs que des fournisseurs et des utilisateurs, petits, grands, entités coordinatrices. XML
- Pour plus de précisions sur les inscriptions, consulter le site de l'association Aristote
- Il est vivement recommandé d'y participer car ce sujet touche de très près les préoccupations de PIN.
- Un autre séminaire est prévu le 22 avril 2004 sous la responsabilité de Julien Masanès. Il aura pour thème 'Internet : la mémoire courte ? '
- Le texte de présentation du séminaire est le suivant : Internet est aujourd’hui devenu le principal espace de publication et d’échange d’information. Le volume d’information publié sur le Web dépasse depuis plusieurs années celui de l’ensemble des livres et périodiques publiés. Dans les entreprises, dans la recherche, Internet sert de plate-forme aux échanges et de principale mode d’accès à l’information. Cette situation nouvelle pose de manière aiguë le problème de la conservation et de la mémoire dans un environnement où aucune trace ne subsiste au-delà de la durée de vie active de l’information (c’est-à-dire jusqu’à effacement des serveurs). Si des siècles de pratique ont permis de définir des outils et des méthodes pour la constitution d’archives des supports traditionnels de l’information, l’utilisation massive des réseaux et des systèmes d’information ouverts oblige à les repenser, les redéfinir, voire pour certains aspects à inventer de nouvelles pratiques d’archivage. Ce séminaire tentera de faire le point sur le domaine émergent de l’archivage d’Internet, conçu à la fois comme espace de publication et comme espace de convergence de systèmes d’information hétérogènes.
D'une manière plus générale, Didier Courtaud a précisé :
- qu'un appel à contribution est systématiquement lancé sur les séminaires
- que les séminaires en question auront lieu à Paris
- Et que Aristote se conforme à la grille de conférence mise en place par Renater visant à établir sur tout le territoire des salles de conférences équipées (voir la liste des sites offerts http://www.renater.fr/GC/
PRESENTATIONS
Avancement des travaux du sous-groupe SAPIN (J. POIVRE, DAF)
Grands progrès des travaux du groupe sur le manuel d'archivage des documents bureautiques.
Le stade est quasi final quant à l'architecture de l'ouvrage et son contenu. Le texte a été enrichi par des éléments pratiques et des exemples concrets, toujours dans le but de fournir des conseils pratiques.
Un dernier draft est prévu fin septembre. L'objectif reste la publication avant fin décembre.
Les formats de données vidéo-numérique (Jean VARRA - INA)
Présentation synthétique des approches en matière de stockage des données audio et vidéo et des critères essentiels en matière de pérennsiation : normalisation et indépendance des formats par rapport aux systèmes d'exploitation.
Une vue globale des formats existants (tant en vidéo qu'en audio) précisant les caractéristiques propres de chaque format est proposée.
Description rapide du format MXF qui est aujourd'hui le format d'échange normalisé. Une description plus détaillée sera envisagée pour l'avenir.
Didier Courtaud pourra ultérieurement présenter l'expérience du CEA dans ce domaine.
Le coût de archivage électronique
Présentation par Claude Huc d'une introduction au débat sur le coût de l'archivage.
Il apparaît notamment dans cette première réflexion que contrairement à bien des idées reçues, le coût du stockage ne représente qu'une partie mineure du coût total. (10 à 15% du coût global). L'évaluation du coût de stockage est ici facilitée par l'existence d'un service indépendant en charge du stockage, ce qui n'est envisageable qu'au-delà d'une certaine masse critique. Les coûts déterminants se situent en premier lieu au niveau de la fonction 'ingest' (versement) et, dans une mesure un peu moindre, au niveau de l'ensemble 'data management et access' pour le service aux utilisateurs de l'archive.
Une tentative de projection de coût à la BnF sur la partie 'web' fait également apparaître des coûts élevé sur la partie 'ingest-data management'
L'évaluation d'une structure nationale en suisse pour l'archivage des documents numériques a été de 4,6 Meuros d'investissement.
Marie-Anne rappelle qu'il y a des prestataires qui proposent des coûts avec des critères très différents. (par fichier, par volume de données…). L'ordre de grandeur se situe autour de 0,70-0,80 Euros par document et par an.
Deux références de travaux sur le sujet ont été transmises par Joël Poivre :
- RLG DigiNews, août 2003, The Cost to Preserve Authentic Electronic Records in Perpetuity: Comparing Costs across Cost Models and Cost Frameworks par Shelby Sanett http://www.rlg.org/preserv/diginews/diginews7-4.html#feature2
- Comparison of methods and costs of digital preservation, http://www.ukoln.ac.uk/services/elib/papers/tavistock/hendley/hendley.html British Library Research and innovation, report n° 106, 1998 http://www.ukoln.ac.uk/services/elib/papers/tavistock/hendley/hendley.html
Une autre référence a été transmise (par courriel) par Jean-Daniel Zeller : http://www.nla.gov.au/padi/topics/5.html Il s'agit d'une page de synthèse sur le serveur du PADI (Preserving Access to Digital Information - Bibliothèque nationale d'Australie), cette page contenant elle même un certain nombre de références sur le sujet.
Revue document numérique (M-A Chabin)
Les éditions Hermès-Lavoisier ont publié il y a deux ans un numéro spécial de la revue Document numérique consacré l'archivage numérique. Ce numéro est épuisé. Depuis deux ans, le chemin parcouru est important.
Il a donc été décidé de publier un nouveau numéro en 2004 sur le thème 'archivage et pérennisation'.
La préparation de ce numéro est coordonnée par Marie-Anne Chabin. Plusieurs membres du groupe PIN ont été invités et ont accepté de faire partie du Comité de Rédaction. Un appel à proposition d'article sera lancé très prochainement. Son orientation sera plus pratique que théorique. Ce numéro de la revue pourra donc être une tribune pour le groupe PIN dans laquelle les membres du groupe présenteraient leurs expérimentations. A noter que la revue prévoit un autre numéro consacré à “Sécurité/authenticité et documents”
Les autres numéros de la revue qui seront préparés en parallèle sont consacrés :
- Au aspects juridiques de l'archivage
- A la recherche dans le contenu
Le projet de constitution d'une base de connaissance sur les formats de représentation de l'information
Proposition d'appproche méthodologique
Il s'agit ici de définir un ensemble de critères d'évaluation des formats de données au regard de la pérennisation. Ces critères doivent être hiérarchisés et sans ambiguïté.
Présentation de la version initiale des critères d'évaluation par C. Huc.
Après discussion, il a été convenu de préparer une seconde version prenant incluant les évolutions suivantes
- Prise en compte des propositions de Jean-Daniel Zeller sur ce texte
- Reprendre la définition du critère de base qui apparaît obscure :
Eléments opaques dans l'information de représentation. Il n'est donc plus possible de restituer
- Critère 2 sur les formats normalisés ou standardisés : séparer la phrase en deux partie : “Dans ces formats normalisés, on doit proscrire l'usage…..”
- Ajouter un critère complémentaire relatif à la facilité de transcodage du format vers d'autres formats couramment utilisés,
- Ajouter un critère complémentaire sur la performance de l'implémentation (voir plus loin l'exemple de PNG)
Application au format png (Nicolas Lormant CNES/SILOGIC)
Présentation de synthèse de l'étude réalisée par N. Lormant pour le compte du CNES.
Au niveau des restrictions d'usage des spécifications, il conviendrait de documenter obligatoirement les 'chunks' privés dans PNG ou de les proscrire.
Sur la base de la même spécification de format, il apparaît de grands écarts de performances techniques en fonction des implémentations. C'est le cas des outils d'Adobe pour la création de fichier PNG et pour lesquels, tout en restant conforme à la spécification, le taux de compression obtenu est très inférieur à celui d'autres implémentations également conformes à la spécification. Dans cette optique, il convient d'ajouter un critère supplémentaire pour l'évaluation des formats de données qui traduirait la performance de l'implémentation et qui éventuellement recommanderait ou déconseillerait certains logiciels.
Poursuite des travaux sur PDF
Le CNES va lancer un travail d'étude sur PDF/A. Julien indique qu'une personne de la BnF travaille sur PDF. Cette personne est en relation avec le groupe PDF/A
Format registries
La question est de savoir comment mutualiser les efforts entre les archives numériques.
Julien a présenté une description des initiatives américaines dans ce sens, incluant plusieurs volets :
- Identification (types mime)
- Vérification (valider qu'un format est bien du type qu'il prétend être)
- Fourniture de l'information de spécification -
- Evaluation par rapport à la pérennité : ce point n'est pas retenu pour l'instant et donc laisse la place à l'initiative
Pour l'instant, l'initiative américaine est au stade de projet. La France (BnF) et la Grande-Bretagne sont présentes dans cette initiative. L'objectif est la mise en place d'un service souple, base de données et services, la fonction évaluation pourrait être reprise ailleurs.
Il serait intéressant dans ce cadre de prendre contact en Grande-Bretagne avec Neil Beagrie du JISC (d'ailleurs inscrit sur le forum de PIN), qui travaille à la mise en place d'une infrastructure de services pour l'archivage long terme des informations numériques.
Serveur
L'idée d'organiser les fiches d'évaluation des formats sous forme de DTD XML organisées au sein d'une base sera approfondie lorsqu'il y aura une matière suffisante en terme d'évaluation.
Comment structurer un programme d'enseignement sur l'archivage ?
Une première discussion s'est engagée sur le sujet. Il apparaît que dans le futur, les contenus de l'enseignement devrait inclure des parties techniques (relatifs à l'informatique) et méthodologique.
La sélection initiale actuelle des archivistes est aujourd'hui fondamentalement littéraire et peu appropriée à la prise en charge des problèmes nouveaux posés par le numérique.
La question n'est pas simple, les obstacles à une telle évolution sont nombreux. L'évolution du cursus universitaire vers le modèle européen (3 - 5 - 8) est également à prendre en compte dans cette réflexion puisque le DESS se retrouvera correspondre à la deuxième année de magistère.
L'objectif d'un enseignement nouveau(fonction publique et/ou secteur privé) doit être précisément défini,
Quels recrutement initial ? Quels sont les contenus nécessaires ? Quels sont les contenus existant qu'il conviendrait d'associer différemment ?
La réflexion ne fait que démarrer sur le sujet.
Remarque de C. Huc :Cette réflexion devrait s'appuyer sur une analyse préalable du rôle, des responsabilités du futur archiviste du numérique.
Préparation de la prochaine réunion
Nous avons noté les sujets suivants, envisageables à l'ordre du jour d'une prochaine réunion :
- Présentation de l'ouvrage d'Isabelle Boydens “Informatique, normes et temps” par Marie-Anne Chabin (20-30 minutes)
- Les procédures de signatures utilisées pour l'informatisation du 'livre foncier' en Alsace (contact Françoise Banat-Berger)
- Présentation de l'expérience du CEA dans le domaine des formats vidéo (Didier Courtaud)
Prochaine réunion : Jeudi 15 janvier 2004