Compte-rendu de la réunion du 4 janvier 2013
INFORMATIONS GENERALES
Réunion tenue au CNES, 37 participants.
Compte-rendu rédigé par Danièle Boucon (CNES), Olivier Rouchon (CINES).
Tour de table, présentation de l'ordre du jour.
Prochaine réunion : Vendredi 12 Avril 2013, à la BnF.
EVENEMENTS PASSES
iPRES 2012, 2 au 5 Octobre, Toronto (Canada)
CR2PA Le stockage numérique pas cher, mythe ou réalité, 11 Octobre, Gentilly (France)
PASIG 2012, 17 au 19 Octobre, Dublin (Irlande)
http://www.tge-adonis.fr/article/les-presentations-des-journees-oais-sont-en-ligne pour l’archivage de la recherche en SHS, 23 au 24 Octobre, Lyon (France)
Conférence EUDAT 2012, 23 au 24 Octobre, Barcelone (Espagne)
APA conference 2012, 5 au 7 Novembre, Rome (Italie)
LNE - Journée technique ”Archivage des données numériques : conception - organisation - support”, 6 Décembre, Paris (France)
Trusted Digital Repositories & Trusted Professionals, 10 au 12 Décembre 2012, Florence (Italie)
Infrastructure, Intelligence, Innovation: driving the Data Science agenda 8th International Digital Curation Conference 2013, 14-16 January 2013, Amsterdam (Netherlands)
EVENEMENTS A VENIR
Infrastructure, Intelligence, Innovation: driving the Data Science agenda, Digital Curation Conference 2013, 14-16 Janvier 2013, Amsterdam (Netherlands)
Collaborative approaches to managing File Formats, 28 Janvier 2013, Londres (UK)
Colloque "Quand l'archivage devient électronique...", 5-6 Février 2013, Paris (France)
SPRUCE Hackathon « Unified characterization », 11-12 Mars, Leeds (UK)
Forum AAF]**, 20-22 Mars, Angers (France) **[[http://www.imaging.org/ist/conferences/archiving/index.cfm|Archiving 2013, Washington (Etats Unis)
ECLAP 2013 Conference on Information Technologies for Performing Arts, Media Access and Entertainment, 8-10 Avril 2013, Porto (Portugal)
Conférence ICA 213, 26-29 Juin 2013, La Barbade
Open Repositories 2013, 8-12 Juillet 2013, Charlottetown (Canada)
PV 2013, 4-6 Novembre, Rome (Italie)
FORMATIONS
Formation PIN-INP “Préservation et communication de l'information numérique”, 8 au 11 Avril, Paris (France)
PUBLICATIONS
- Novembre 2012 - article Big Data dans le Journal du CNRS
- Décembre 2012 – David Rosenthal (LOCKSS) – les coûts et perspectives de la préservation numérique à long terme
- Janvier 2013 - NORME AFNOR NF461 basée sur NF Z42013 (certification des offres de SAE). Parallèle avec tiers archiveur papier.
PRESENTATIONS
SIAF/CINES/Numen : Etude sur le format de fichiers PDF
Présentation par Nick Parker (Numen).
3 étapes :
- publication d’un guide sur format PDF sur versions et ses specs, guide disponible sur le site du SIAF
- outils de conversion au format PDF (devrait être disponible sous peu)
- outils de validation (1er semestre 2013)
PDF de base : de 1.0 à 1.7 (adobe) Normalisation : sur versions de PDF : 1.4, 1.7 (ISO 32000-1)→ norme publique gérée par ISO. Liens entre version acrobat et version PDF, acrobat 7.0 ⇒ PDF 1.6 (PDF/A-2) PDF/A-3 très similaire à PDF/A-2. Jungle de normes → normes maintenant basées sur 32000-1, devrait générer moins de normes et des évolutions moins rapides.
Fonctionnalités :
- structure
- fond de page (polices ..)
- annotations (ce qu’on ajoute sur le texte)
Niveau 1 :
- Compression : PDF/A-2 : JPEG2000 : compression puissante et sans perte
- Métadonnées
- Structure logique du doc : hiérarchie de texte dans le doc (similaire au XML).
- Contenu facultatif (couches), ex version linguistique différente
- Fichiers embarqués
Niveau 2 :
- Fond de page : couleur, polices, transparence (PDF/A-2), impression
Niveau 3 :
- Sommaire (signets)
- Annotations : fonction très complexe ; ajoutées sur la page (n’apparaissent pas à l’impression).
- Liens hypertexte (PDF/A-1 : le lecteur peut rendre les liens inactifs, peut être rendu actifs en désactivant le mode PDF/A-1 dans les options).
- Formulaires
- Multimédia (PDF/A-2), interdit pas PFD/A.
- Illustrations 3D (interdit par PDF/A-2) ; PRC intégré dans 2.0 pour la prise en compte de java.
- Programmation (interdit par PDF/A)
Questions PDF/A
PDF/A-2 ne remplace pas le PDF/A-1, il s’ajoute. PDF/A-3 : utilisé à la place de PDF/A-2 (possibilité d’embarquer des fichiers est la seule différence).
Normes b : dans le cas de scans d’image (seul le rendu possible, mais à la base on ne peut pas faire mieux). Sinon il faut cibler le niveau PDF-xa.
Outils encore un peu jeunes, mais évoluent. Logiciels de ref : adobe, calas : non compatibles entre eux.
SIAF : Evaluation des archives
Présentation par Mélanie Rebours (SIAF) des travaux réalisés en 2012 par un groupe de travail autour de la réflexion sur les pratiques d’évaluation des archives (papier surtout et numérique), pour mettre en place des critères de qualité scientifiques pour permettre de prendre de bonnes décisions en matière de pérennisation d’informations, et rédiger une circulaire : élimination, ou tri (échantillonnage d’une partie censée être représentative de l’ensemble de départ).
Intervention de statisticiens : comment constituer des échantillons représentatifs.
Travail terminé, qui va être soumis pour commentaires à un cercle élargi. Ailleurs : des travaux existent, mais besoin de cibler le besoin pour ne pas rester trop général.
SIAF : seuls 5 à 10% des infos seraient gardés in fine.
Méthodologie éditée (circulaire évaluation et sélection des archives).
Méthode appliquée a priori au moment de l’établissement du tableau de gestion, ou a posteriori au moment du sort final (fin période DUA).
Intéressant :
- Réévaluation des fonds avec une périodicité régulière (reprendre choix précédemment faits).
- Documenter les opérations de sélection.
Grille d’aide à l’évaluation :
- Les questions à se poser pour évaluer un fonds (check-list)
- Différentes approches (producteurs ou fonctions) et accentuer sur l’un de ces aspects
- Lien avec les normes de descriptions archivistiques : prépare la partie traitement …
⇒ Risques encourus à détruire/ne pas pérenniser.
Schématisation de la démarche.
ISAAC : outil pour aider les scientifiques à évaluer ou non l’intérêt de la pérennisation.
Projet européen TIMBUS : documentation des processus métier (documenter un processus de manipulation de données).
Panorama des projets européens pour la préservation des données scientifiques
Présentation par Olivier Rouchon (CINES) de qlques projets européens de préservation de données scientifiques ou de support à des initiatives d'archivage pérenne.
Organisation européenne CORDIS – Community Research
Initiative Horizon 2020
APARSEN : voir travaux sur identifiants pérennes.
SCIDIP-ES
En principe durée de vie d’un projet européen = 3 ans.
Le cycle de vie de la donnée scientifique au CNES et vision ESA/LTDP
Présentation par Danièle Boucon (CNES) d'après les informations fournies par Esther Conway (STFC).
Cf présentations, nombreuses questions : perte de données
CINES : le projet ISAAC pour l'archivage pérenne de données scientifiques
Présentation par Philippe Prat (CINES).
Information Scientifique Archivée au CINES
Machine JADE : capacité de 230 TeraFlops
Problématique du BIG DATA : tel volume de données que même l’indexation est impossible.
Les outils se rapprochent des données → web 2.0
Pas bonne organisation de rappatrier les données.
Saas : par exemple Gmail
Paas : par ex mise en place d’un RedHat, qui sert de plateforme pour intégration d’applications.
3 âges :
- Age courant : exploitation de la donnée
- Age intermédiaire : pus exploitation directe, mais encore utilisée.
- Age pérenne : il n’y a plus de travaux qui se font sur la donnée mais on veut la garder.
Donnée comprise si on peut la représenter.
Date de la prochaine réunion : 12 Avril 2013(salle du Belvédère, BnF site François Mitterand, Paris).
Sujets évoqués :
- Comparaison coût d’archivage papier/numérique
- Etude de marché sur les coffre-forts électroniques