Compte-rendu de la réunion du 23 avril 2007
INFORMATIONS GENERALES
Accueil par Catherine Lupovici.
Réunion tenue à la BnF, 37 participants.
Tour de table, présentation de l'ordre du jour.
Prochaine réunion : Jeudi 20 septembre 2007 au CNES.
EVENEMENTS PASSES
PDF standard ISO ? 29 janvier 2007 : Standard de facto dans les documents électroniques, PDF pourra devenir un standard ISO, Adobe va communiquer l’intégralité de sa spécification PDF 1.7 à l’AIIM (Association for Information and Image Management), la fédération des professionnels de la gestion de contenu, afin qu'elle soit publiée par l’ISO (International Organization for Standardization). “L’annonce de ce jour représente une suite logique dans l’évolution de la technologie PDF qui, de standard de facto devient un standard de jure [de droit]”, a indiqué Kevin Lynch, vice-président senior et architecte logiciel en chef chez Adobe. http://silicon.fr/fr/silicon/news/2007/01/29/adobe-offre-sp-cification-pdf-l.
Colloque de Louvain : 20-21 avril 2007 Colloque à l’université catholique de Louvain (Belgique) sur l’erreur archivistique.
Mise à niveau de la norme NF Z 42-013 : il s'agit de ne pas ré-écrire la norme mais de la toiletter afin notamment de l'élargir aux supports autres que les supports optiques WORM ; d'introduire des éléments supplémentaires sur les mécanismes d'intégrité et d'horodatage ; de mettre à jour sur les formats. La révision de la norme a été inscrite à l'ordre du jour de l'AFNOR, commission CN 171. L'idée des promoteurs de ce renouvellement est d'avoir un texte plus à jour en attendant une nouvelle norme ISO sur l'archivage électronique dont le périmètre se situerait entre le RM et l'OAIS (???).
La réunion du DLM forum à Berlin s'est déroulée durant la semaine du 24-26 avril 2007. Une des questions abordées a été le projet MOREQ 2, à savoir des spécifications d' un ERMS (un outil de RM) plus précis que celles données dans MOREQ 1 avec la perspective d'avoir des critères permettant de certifier des outils de RM. La société en train de travailler sur MOREQ 2 doit également fournir des jeux de tests à la base de ces futurs audits et certifications. L'écriture de Moreq 2 est en cours et on peut participer en faisant des commentaires sur les différentes parties qui sont mises progressivement en ligne : http://www.moreq2.eu/ (cliquer sur “panellists”).
Les travaux en cours sur Moreq2 (voir plus haut).
Publications
“Archiver, et après ?” : Marie-Anne Chabin vient de faire paraître un nouveau livre, intitulé “Archiver, et après ?” (160 pages, 19 euros). Pour en savoir plus : http://www.djakarta.fr/Archive17/Maq.pdf.
Autres publications
Marilyn Deegan and Simon Tanner, eds., Digital Preservation http://www.cilip.org.uk/aboutcilip/newsandpressreleases/archive2006/news060906.htm@ , Facet Publishing, 2006. ISBN 978-1-85604-485-1.
Uwe Borghoff et al., Long-Term Preservation of Digital Documents: Principles and Practices http://www.springer.com/east/home?SGWID=5-102-22-153743734-0&changeHeader=true&SHORTCUT=www.springer.com/3-540-33639-7, Springer Verlag, 2006. ISBN: 978-3-540-33639-6.
Julien Masanès , ed., Web Archiving http://www.springer.com/west/home?SGWID=4-102-22-72040423-0&changeHeader=true&SHORTCUT=www.springer.com/3-540-23338-5, Springer Verlag, 2006. ISBN 978-3-540-23338-1.
EVENEMENTS A VENIR
30-31 mai 2007, Nice, réunion sur les nouvelles technologies dans les collectivités territoriales avec un volet sur l'archivage : 7ème assises nationales du Net et des TIC pour les collectivités. Dans ce cadre un forum est organisé sur l'archivage électronique dans les collectivités, qui est animé par Cecurity.com et auquel nous participons ainsi que le conseil général de la Moselle et le conseil régional du Nord Pas de Calais.
30-31 mai 2007, Montpellier, journées ABES (Agence Bibliographique de l’Enseignement Supérieur) : http://www.abes.fr/abes/documents/abes/journeesAbes/Programme%20en%20ligne.pdf
19 au 21 juin 2007, Itiforum : 3 jours de colloque :
- 19 juin – continuité d’activité
- 20 juin – data center
- 21 juin ILM et archivage
- fonctionnel (RSSI, juristes, archivistes, documentalistes)
- IT (infrastructures, stockage, archivage)
Pour le 21/6, deux sessions en parallèle :
- Droit, ILM, Pratiques, cas
- Normes, Moreq, Politiques, Etat des lieux
10 au 14 septembre 2007, formation PIN à l’ENSAM : programme en ligne sur le serveur de PIN, préparation à mettre en route.
Octobre 2007, Conférence internationale : Ensuring Long-term Preservation and Value Adding to Scientific and Technical Data – PV 2007 : International Conference – 9-11 octobre Oberpfaffenhofen près de Munich, Allemagne. http://www.pv2007.dlr.de
“After three very successful events, PV 2002 at CNES in Toulouse, France, PV 2004 at ESA/ESRIN in Frascati, Italy and PV 2005 at DCC in Edinburgh, UK, the conference series continues to address prospects in the domain of scientific and technical data preservation and value adding.
PV 2007 focuses on the various aspects introduced by the heterogeneity of scientific and technical data:
- Management and preservation of heterogeneous data and dynamically evolving information.
- Handling heterogeneous data in value adding applications.
- Ensuring access to and usability of heterogeneous data for diversified applications”.
4 thèmes traditionnels pour les symposiums PV :
- Assurer la préservation à long terme des données.
- Les services à valeur ajoutée.
- Les retours d’expérience.
- Prospective future.
Standard d’échange DAF/DGME : publié en mars 2006 : un processus de normalisation au niveau de l’UNCFACT est en cours. Le projet est porté par une dizaine de pays, avec un leader qui est la France. Un questionnaire a été élaboré et diffusé pour préciser le périmètre de standard. D’ici juin 2007, on prévoit l’élaboration d’une modélisation de ce standard. Le standard français sera mis à jour en conséquence.
8 au 10 novembre 2007, Architectes : colloque européen à Paris “Architecture et archives numériques”.
PRESENTATIONS
LE PROJET DU SYSTEME D'ARCHIVAGE DE L'INFORMATION GEOGRAPHIQUE A L'IGN
Présentation par Patrick Leboeuf et Yann Le Disez (IGN).
Lancement d’un appel d’offres fin mai pour mise en place début 2008. Il existe un système ancien qui est saturé. Les données sont copiées sur des CD (en plusieurs exemplaires). Diffusion des données par le serveur « géoportail ».
Objectif : archiver les données sur un système d’archivage pérenne, avec réplication sur un deuxième site et des technologies de stockage différentes sur chaque site. L’IGN a en effet une mission d’archivage patrimonial.
L’architecture du nouveau système devra respecter le modèle OAIS :
- Station de production → produit des données et des Métadonnées XML,
- Module Versement,
- Module d’archivage.
Eléments de dimensionnement :
- données raster (images) : 130 To d’ici 2010,
- autres (données vecteurs) : 6 To en 2010.
Utilisation de la norme ISO 19115 pour les Métadonnées. Reprise des anciennes Métadonnées. Quelques difficultés liées à l’évolutivité de la norme et aux spécificités de chaque pays (définition d’un profil français en cours). Collaboration avec d’autres organismes (BRGM) sur ces normes et profils.
Le nombre de formats et de systèmes de projection est limité dans l’archive. Par contre, beaucoup plus de possibilités pour la diffusion. Par ailleurs, toutes les projections calculées sur un produit raster sont sauvegardées (car les temps de calcul peuvent être très longs) mais une seule projection est archivée.
Demande du retour d’expérience du groupe PIN par rapport à certaines options :
- faut-il tripler site et technologies de stockage ?
- dématérialisation en cours des photos aériennes → multiplication par 10 des volumes à partir de 2010 (ce sera des peta-octets). Impact sur l’architecture ?
LE PROJET Pil@e : LES POINTS CLES DE LA PLATE-FORME D'ARCHIVAGE ELECTRONIQUE DEFINIS LORS DES SPECIFICATIONS FONCTIONNELLES
Présentation par Françoise Banat-Berger (DAF) et Gabriel Ramanantsoavina (DGME).
Origine : étude en 2005 sur les coûts d’une plate-forme d’archivage électronique.
Objectif : automatisation à titre probatoire du site de Fontainebleau (Archives Nationales) avant ouverture d’un nouveau site en 2011.
Enjeux :
- tester le standard d’échange de données pour l’archivage,
- tester le traitement de données de différentes natures,
- tester des mécanismes de vérification automatique, de contrôle d’intégrité, etc…
Difficultés du projet :
- Aspects organisationnels délicats.
- Difficultés techniques : implémentation inexistante du standard d’échange.
Le marché a été attribué en septembre 2006 à la société Cecurity.Com, éditrice du coffre-fort électronique communicant (CFEC). L’infrastructure informatique est fournie par IBM.
2 tranches :
- Specifications fonctionnelles (jusqu’en mars 2007)
- Réalisation (de mars 2007 à avril 2008)
Mise en place d’un comité d’utilisateurs
Conformité à l’OAIS :
- Paquet SIP : XML, conversion des documents
- Paquet AIP : produit à partir du SIP (qui est conservé pour traçabilité)
- Paquet DIP
Métadonnées : certaines sont générées automatiquement, d’autres sont saisies
Création de profils spécifiques aux domaines d’utilisation et définis au fur et à mesure des programmes de dématérialisation entrepris dans les administrations
Importance du contrat spécifiant les modalités de transfert entre système producteur, système versant et système d’archivage (contrat correspondant au protocole de versement du Modèle OAIS)
Définition d’une table des formats possibles en entrée, des formats d’archivage et des conversions possibles.
Messagerie : on garde 1 seul niveau de hiérarchie. Les pièces jointes sont décompressées et stockées au même niveau.
Architecture :
- 2 sites identiques, avec archivage en double + sauvegarde sur chaque site è 8 copies d’un même fichier.
- Sur un même site, tous les éléments sont redondés .
- Réplication gérée par le coffre-fort électronique .
- Volumes de quelques Téra-octets .
Réversibilité du coffre-fort électronique + sources du coffre-fort déposés.
PRESENTATION GENERALE DU DEPOT LEGAL D'INTERNET A LA BNF : CADRE JURIDIQUE, DOCUMENTAIRE ET FONCTIONNEL
Présentation par Gildas Illien (BnF).
Le Projet en est phase de production, après une phase d’expérimentation. Il s’appuie sur une extension du dépôt légal par la loi du 1 er août 2006.
Mise en place de robots de collecte qui aspirent le Web à partir d’une liste de sites de départs (graines). La collecte réalisée par une société californienne : Internet Archive. Les données sont livrées par avion sous forme d’une baie « Petabox » (très grande capacité de stockage). Le volume pour une collecte annuelle est de l’ordre de 130 Téra-octets pour 10 milliards de fichiers.
Enjeux principaux :
- Masse d’information : 700.000 sites « .fr » début 2007 .
- Formats de fichiers hétérogènes et instables .
- Frontières : notion de site national, de site public/privé ?
- Profondeur et complétude de la recherche.
Pour qu’un site soit archivable, il faut qu’il respecte les recommandations du W3C.
Plusieurs types de collectes :
- Collectes automatiques à grande échelle.
- Collectes ciblées pilotées par des bibliothécaires.
- Dépôts organisés avec les producteurs.
Coopérations avec les bibliothèques régionales et un consortium international (IIPC).
PRESENTATION DE LA FILIERE DE PRODUCTION ET PRINCIPAUX ENJEUX POUR LA PRESERVATION. PRESENTATION DETAILLEE DU FORMAT WARC (Web ARChive file format).
Présentation de Clément Oury (BnF).
Projet « Internet en campagne » sur la collecte des sites électoraux : ce sont des sites très dynamiques mais très volatiles (par exemple, si un candidat n’est plus candidat, le site disparaît).
Objectif du projet : réaliser un circuit complet de collecte en vue de l’internalisation des collectes larges (sous-traitées actuellement).
Les sites Web électoraux utilisent toutes les technologies du web (web 2.0, Wiki, blogs, …).
Mise en place d’un processus de collecte :
- Sélection : les bibliothécaires identifient des listes d’URL.
- Validation de la faisabilité de la capture.
- Planification de la collecte.
- Collecte par le robot Heritrix (logiciel libre) avec surveillance fine du comportement du robot. Respect des règles de politesse pour éviter de provoquer l’écroulement des sites.
- Contrôles (de réception, de complétude, qualité) et itérations.
- Indexation des sites en utilisant des produits d’Internet Archive.
- Sauvegarde.
- Visualisation.
Formats spécifiques :
- Format WARC : format ARC enrichi pour être plus adapté à l’archivage du Web, en cours de normalisation par l’ISO.
- fichier composé d’enregistrements, chaque enregistrement contient le fichier collecté sur le Web accompagné de Métadonnées.
- Fichiers d’index.
- Fichiers de Métadonnées.
Par contre, dans les données collectées, on trouve tous les formats (1500 types MIME recensés). Mais 5 formats dominent.
Questions ouvertes pour le long terme : visualisation des formats par exemple à long terme.
Etat des lieux des processus.
Quels formats pour l’archivage de la Toile ?
Les perspectives pour un archivage à long terme.
LA GESTION DES RISQUES POUR LA CONSERVATION DES DOCUMENTS NUMERIQUES
Présentation de Emmanuelle Bermès (BnF).
Méthodologie de gestion des risques : démarche complémentaire de l’OAIS. C’est une des manières permettant de mettre en place la planification de la préservation. Cette approche est en relation avec la certification des archives (audit de l’archive en fonction de la méthodologie de gestion des risques). Voir notamment le Tutorial DRAMBORA : http://www.digitalpreservationeurope.eu/announcements/drambora/
APPEL A PROPOSITION DE SEMINAIRES ARISTOTE 2007-2008 LE PROJET DU SYSTEME
Création et gestion d’un projet d’archivage numérique.
SUJETS POUR LA PROCHAINE REUNION
- Les travaux de normalisation en cours sur la certification des services d’archive numérique.
- L’identification des objets numériques
- A compléter.
THEMES DES PROCHAINES REUNIONS
- l'étude de la DCSSI sur l'archivage sécurisé,
- la signature électronique en pratique,
- les formats et les outils de contrôle et validation (TIFF ?),
- …
Date de la prochaine réunion : Jeudi 20 septembre 2007 au CNES.