Compte-rendu de la réunion du 20 septembre 2007

INFORMATIONS GENERALES

Réunion tenue au CNES, 25 participants.

Tour de table, présentation de l'ordre du jour.

Prochaine réunion : mardi 15 janvier 2008 au CNES

EVENEMENTS PASSES

Echec de la la tentative de normalisation de OOXML au niveau de l'AFNOR et au niveau de l'ISO : rappel par Didier Courtaud du contexte de 'guerre' entre les tenants de la norme ISO Open Document Format (ODF) utilisée par la suite libre Open Office et les tenants de la proposition de norme Open Office XML (OOXML) de l'ECMA soutenue par Microsoft.

Formation PIN à l’ENSAM : 10 au 14 septembre 2007. Le bilan de la formation est à l'ordre du jour de la réunion .

L'initiative '100 years archive task force' http://www.snia-dmf.org/100year/ de la SNIA (Storage Networking Industry Association). Plusieurs notes ont été publiées par ce groupe de travail dont une note intitulée 'Towards self-describing self-contained data format' en avril 2007.

L'initiative européenne 'Alliance for a permanent access to the records of science' se veut être, à terme, le pôle fédérateur de l'ensemble des activités et des projets européens dans le domaine de la pérennisation de l'information numérique (http://www.alliancepermanentaccess.eu/).

EVENEMENTS A VENIR

Octobre 2007, Conférence internationale : Ensuring Long-term Preservation and Value Adding to Scientific and Technical Data – PV 2007 :

Voir le compte-rendu de la réunion PIN du 23 avril 2007 pour plus de détails. Deux interventions de membres du groupe PIN sont prévues.

8 au 10 novembre 2007, Architectes : colloque européen à Paris “Architecture et archives numériques” http://archivesarchitecture.gaudi-programme.eu/index.php?r=40. Françoise Banat-berger présente la première conférence inaugurale.

15 novembre 2007, Alliance : conférence européenne à Bruxelles (http://www.alliancepermanentaccess.eu/index.php?id=6). Le texte de présentation de cette conférence est le suivant : “The Alliance for Permanent Access organizes the international conference Permanent Access to the Records of Science in Europe. This conference, which will be on invitation only, will take place in Brussels on 15 November 2007.

The first international conference was held at the Koninklijke Bibliotheek, national library of the Netherlands, in The Hague on 1 November 2004. It enabled representatives and experts from EU member states, third countries and the European Commission to discuss the issue of permanent access and the creation of electronic archiving and access systems for scientific publications and data.

Since then key European players in science and scientific information have joined to establish the Alliance for Permanent Access to the Records of Science, thereby creating a critical mass of major stakeholders to develop a coordinated European solution for the problems of access to the digital records of science.

Among the founding members are organisations like CERN, ESA, the European Science Foundation, the Science and Technology Facilities Council from the UK, the Max Planck Gesellschaft from Germany and the Centre National d’Etudes Spatiales from France, libraries like the British Library, the Deutsche Nationalbibliothek and the Koninklijke Bibliotheek, the International Association of Scientific, Technical and Medical Publishers, and several national coalitions for digital preservation.”

19 au 23 novembre, ATHENS (Advenced Technical Higher Education Network/ Socrates : programme d'enseignement européen. Comme chaque année, un cours d'une demi-journée sur la pérennisation de l'information numérique est prévu.

20 au 23 novembre, journées réseau (JRES) à Strasbourg (http://www.jres.org/). Plusieurs interventions sur l'archivage pérenne sont prévues .

BILAN DE LA FORMATION ORGANISEE PAR LE GROUPE PIN

L'analyse des fiches d'évaluation fait apparaître une bon niveau de qualité du contenu, des participants et des intervenants. La formation est perçue comme peut-être un peu trop dense. Sur la plan du confort, le café serait le bienvenu.

Une analyse des cas concrets, des retours d'expérience sur les cas pratiques et les projets et réalisations en cours, sur les difficultés de mise en pratique sera nécessaire dans le futur.

La question de l'archivage du web 2.0 (archivage des intranets, des wiki, les blogs…) serait à développer. Cette question va cependant à l'encontre du besoin d'une formation un peu moins dense. Une journée spécifique distincte de la session d'une semaine pourrait être prévue pour cela.

Le Comité de Direction d'Aristote souhaite faire connaître la formation et la rendre plus accessible à un public plus large (demande du président d’Aristote) ?

En pratique, le véritable besoin aujourd'hui paraît être d'élaborer un cursus de longue durée pour une formation universitaire. Un groupe de travail se mettra en place au sein du groupe PIN sur ce sujet. Plusieurs volontaires se sont proposés pour participer à ce travail. Une téléconférence sera organisée sur le sujet courant novembre.

PRESENTATIONS

LES IDENTIFIANTS POUR LES OBJETS NUMERIQUES

Présentation par Emmanuelle Bermès (BnF).

A la BnF, quand on veut numériser un document, on lui associe un code barre qui permet d’identifier le document tout au long de la chaîne de numérisation. C’est un système interne propre à la BnF.

Dans le modèle OAIS, l’information d’identification fait partie de l’information de pérennisation (PDI).

Les catégories d'identifiants sur le web : URL, URN, URI :

  • URL (Uniform Resource Locator) : localisation (par exemple l'adresse d’une personne dans l’annuaire),
  • URN (Uniform Resource Name) : nom (par exemple nom d’une personne dans l’annuaire),
  • URI (Uniform Resource identifier) : identifiant (combinaison de tous ces éléments pour aboutir à une identification unique non ambigue).

Il existe des signifiants dont la syntaxe permet de connaître la nature de la ressource (pratiques pour l’accès) et des identifiants opaques (plus adaptés pour la pérennisation).En effet le sens de la ressource peut changer au fil des ans. Dans ce cas, les identifiants signifiants deviennent obsolètes.

Examen des propriétés essentielles des identifiants :

Unicité des identifiants :

  • Est-ce qu’une même ressource située à plusieurs endroits doit avoir le même identifiant ? → Problème impossible à résoudre sur le web.
  • Un identifiant est pérenne si l’institution qui attribue l’identifiant en garantit la pérennité.

Granularité des identifiants : Quel niveau de granularité choisir ?

Adaptabilité, extensibilité des identifiants :

  • Pouvoir s'adapter à des cas non prévus au départ.
  • Capacité à prendre en compte des identifiants provenant d’un système externe.

Visibilité des identifiants :

  • Utilisable par un navigateur.
  • “Résolveur” pour accéder à la ressource à partir de l’identifiant.

Indépendance :

  • Identifier les problèmes qui pourraient menacer la pérennité des identifiants.

Aucun système ne répond à tous ces besoins.

Tous ces systèmes respectent la syntaxe des URI : SCHEME – NAMING AUTHORITY – NAME.

Les principaux systèmes existants : Handle-DOI, OAI, PURL, POI, URN, INFO, ARK.

ARK (Archival Resource Key http://www.cdlib.org/inside/diglib/ark/ est le format choisi par la BnF. ARK est une spécification.

Un identifiant ARK composé d’une adresse de serveur d’accès, d’un identifiant pérenne et d’un qualifieur. L’adresse du serveur d’accès et le qualifieur n'ont pas vocation à être pérennes.

“12148” représente l’autorité nommante BnF. Ce numéro est attribué par la Californian Library.

L’identifiant pérenne est non signifiant mais peut se décomposer en différents champs qui ont un sens pour la BnF. Il permet de nommer 7,1 13 soit 3,5 millions de fois le nombre de documents de la BnF (20 millions d’objets). Par exemple, si le 1 er caractère est un « c », il désigne une référence du catalogue ; si c’est un « b », il désigne un objet numérique.

Les qualifieurs sont signifiants. Ils désignent des services (numéro de page, affichage d’une notice, affichage d’un calendrier).

Lorsqu’un objet entre dans l’archive numérique, on lui attribue un identifiant. Les identifiants antérieurs de l’objet sont stockés dans les métadonnées. Les applications d’accès et de gestion des droits se basent sur les identifiants.

Le système des codes barre sera remplacé par l’attribution d’identifiants ARK lorsque le système SPAR sera opérationnel et que la numérisation de masse débutera. A noter que la BnF utilise les identifiants ARK pour nommer des fichiers ou des répertoires. Pour que cela soit possible, cela implique que les règles syntaxiques appliquées aux identifiants soient compatibles avec les règles relatives au nommage des fichiers et des répertoires dans les systèmes d'exploitation utilisés.

LES TRAVAUX EN COURS POUR NORMALISER LE PROCESSUS DE CERTIFICATION DES ARCHIVES

Présentation par Claude Huc (Aristote).

Présentation d'un historique des travaux de normalisation relatifs à l'archivage et à la certification des archives. Les travaux sur la certification s’appuient tous sur la terminologie du modèle OAIS.

Contrairement aux normes ISO 9000, 9001, 9011, 19011, 27001, la norme sur la certification des archives sera spécifique à un domaine et offrira donc un niveau d’exigences beaucoup plus précis.

Une présentation des critères de certification est à envisager dans le futur.

PRESERVATION DE DONNEES NUMERIQUES : LE CAS DE LA CREATION ARTISTIQUE NUMERIQUE CONTEMPORAINE

Présentation par Jérôme Barthélémy et Alain Bonardi (IRCAM). Le besoin essentiel est de pouvoir remonter des oeuvres musicales en garantissant une certaine authenticité

Présentation de l’historique de la musique électronique au 20 ième siècle. Apparition des premiers instruments dès 1908.

Le logiciel MaxMSP fournit au compositeur un environnement graphique pour du traitement du signal en temps réel. Il existe aussi un logiciel équivalent libre.

L’œuvre interactive dépend de son implémentation (logiciel et matériel). L’œuvre se présente sous forme d'ensemble de fichiers.

Il faut maintenir les patchs pour pouvoir remonter les œuvres en garantissant l’authenticité des œuvres (quasiment impossible : pas de système de notation, déformations lors des migrations). La difficulté essentielle est celle de la description des patchs.

L’IRCAM participe au projet européen CASPAR (Cultural, Artistic, Scientific Knowledge for Preservation, Access and retrieval). Des bancs de test sont développés dans ce cadre.

Plusieurs stratégies sont envisagées pour répondre à différents scénarios. Le scénario majeur étant celui de la disparition du logiciel Max/MSP. Démonstration d’un outil développé par l’IRCAM pour analyser les patchs et construire une carte du patch (analyse de la structure, des fichiers utilisés) et apporter des éléments de solution à leur conservation. Ce logiciel aide au portage des patchs. C’est aussi un outil d’aide à la documentation.

LE PROJET SPAR - SYSTEME DE PRESERVATION ET D'ARCHIVAGE REPARTI DE LA BNF

Présentation de Laurent Duplouy (BnF).

Présentation du contexte actuel de la BnF : existence d'une grande diversité de supports numériques, de formats, de durée de conservation, de procédures et de moyens sans cohérence de l'ensemble. L'objectif de SPAR est de mettre en place une Archive OAIS couvrant l'ensemble des besoins. Les utilisateurs de cette Archive seront des services de la BnF, comme par exemple la bibliothèque Gallica, qui mettent les documents à la disposition du public.

L'archive SPAR sera implantée sur deux sites géographiquement distants.

Le cahier des charges de SPAR a été préparé par cinq groupes de travail : fonctions, communauté d’utilisateurs, modèle d’information, gestion des risques, gestion des droits. L'ensemble des départements de la BnF ont été associés à ce travail.

SPAR doit prendre en compte plusieurs politiques de versement (droits, formats, volumétrie, flux), plusieurs politiques d’archivage (stratégie de préservation, durée), et plusieurs politiques d’accès (restrictions, délais). Les différentes sources de données numériques sont appelées des filières. A chaque filière correspond une politique de versement et de préservation.

Une première évaluation des outils et systèmes existants a permis de dégager plusieurs solutions (dont le STAF du CNES).

Une deuxième évaluation plus fine a permis de mettre en évidence les aspects couverts et non couverts par chaque solution. Aucune solution ne couvre tous les besoins mais la solution open source FEDORA en couvre une bonne partie.

→ Le cahier des charges est orienté open source mais ne l’impose pas.

SPAR sera réalisé de manière itérative (ajout de modules pour chaque nouvelle filière). La première version devrait permettre d'archiver la numérisation de conservation fin 2008.

SPAR devra permettre des opérations massives de transformation de formats (migration et non émulation). Lors d’une opération de transformation, on conserve quand même la version précédente des objets pour un retour arrière en cas de problème → SPAR conserve 3 versions d’un objet numérique : la version d’origine, la version transformée N et la version transformée N-1.

SEMINAIRE ARISTOTE ORGANISE PAR LE GROUPE PIN EN AVRIL 2008

Ce séminaire aura pour titre : la pérennisation de l'information numérique : les changements spectaculaires du paysage national et du contexte européen

Voir le résumé.

Un certain nombre de services d'archivage numérique développés dans les institutions publiques et dans les entreprises privées devrait pouvoir être présentés à ce séminaire.

Un état des lieux des projets européens devrait pouvoir également être présenté.

SUJETS POUR LA PROCHAINE REUNION

  • Le SIPAD (Système d'Information, de Préservation et d'Accès aux Données scientifiques) du CNES.
  • L'état de l'art sur les supports optiques (J.M. Fontaine).
  • A compléter.

THEMES DES PROCHAINES REUNIONS

  • l'étude de la DCSSI sur l'archivage sécurisé,
  • présentation et démonstration de l'utilisation des moteurs sémantiques dans le cadre de la mémoire d'entreprise (Mario Delail, CNES),
  • la signature électronique en pratique,
  • les formats, les profils d'utilisation et les outils de contrôle et validation (TIFF ?) - prévoir une journée complète et inviter des éditeurs de logiciels de validation,
  • les retour d'expérience, état d'avancement des réflexions, des projets dans les institutions publiques et privées,
  • l'émergence de produit du marché,
  • l'archivage des bulletins de paye,
  • les critères de certification,

Date de la prochaine réunion : Mardi 15 janvier 2008 au CNES.

 
public/reunion_pleniere/cr/cr_20070920.txt · Dernière modification: 2011/03/15 15:34 par rouchon     Haut de page
Recent changes RSS feed Creative Commons License Donate Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki Design by Chirripó