Compte-rendu de la réunion du 12 mai 2009
Réunion tenue au CNES
Prochaine réunion 17 septembre 2009
INFORMATIONS GENERALES
Réunion tenue au CNES, 45 participants.
Tour de table, présentation de l’ordre du jour.
Evènement passés
- L. Duplouy : Démarrage des travaux sur le schéma national numérique. : Ministère de l’enseignement supérieur et Ministère de la culture et de la communication. Ce schéma concerne les réseaux des bibliothèques de ces deux ministères. Une partie du rapport sera consacrée à la conservation (normes, bonnes pratiques, systèmes et outils, cartographie des compétences, maitrise des couts…). Le rapport sera rendu début juillet. Il est envisagé, sur les bonnes pratiques, d’envoyer un questionnaire au groupe PIN.
- Décembre 2008, Toulouse - conférence du DLM forum : Publication des actes sur le site de la DAF (http://www.archivesdefrance.culture.gouv.fr/gerer/publications/actes/)
- Création du “Unified Digital Formats Registry (UDFR)” : l’objectif est d’unir les efforts de GDFR (Global Digital Format registry) et de Pronom (http://www.nationalarchives.gov.uk/PRONOM/Default.aspx) pour la construction et le maintien à jour d’un registre des formats de données numériques. Plus d'informations à cette adresse : http://www.gdfr.info/udfr.html
- Mars 2009 : publication de la nouvelle version de la norme AFNOR Z 42-013 : « Spécifications relatives à la conception et à l'exploitation de systèmes informatiques en vue d'assurer la conservation et l'intégrité des documents stockés dans ces systèmes ».
- Mai 2009 : Publication, pour enquête officielle, de la nouvelle version du Modèle OAIS.
- Normes : il a été proposé à l’ISO de porter à la normalisation le référentiel du CIA sur le Records management (c’est en quelque sorte un concurrent de MoReq)
Evènement à venir
- Normalisation : le format WARC va être publié à l’ISO (ISO 28500 :2009)
- Le prochain PASIG (Preservation and Archiving Special Interest Group) se tiendra à Malte du 24 au 26 juin
- Formation organisée par le groupe PIN : 4 jours du 29/9/2009 au 2/10/2009 avec l’INP
Au sein du Groupe PIN
- Mailing list : 99 personnes se sont réinscrites depuis la remise à plat de la liste,
- Constitution du groupe d’animation de PIN. Une téléconférence tous les 1,5 mois environ,
- Laurent Duplouy prendra en charge les activités serveur (serveur web et wiki),
- Le futur animateur du groupe PIN au niveau de l’association Aristote sera Olivier Rouchon du CINES,
- La BnF adhère à l’association Aristote
Point sur les projets d'archivage pérenne en cours
- BnF (SPAR) : livraison de la tranche ferme de l’appel d’offre pour fin 2009 ; premiers tests d’ingestion de jeux d’essai en cours.
- DAF (pil@e) : déploiement sur la plateforme de production (2 sites) ; quelques ajustements techniques en cours (sécurité) avant exploitation.
- CINES (PAC) : trois nouveaux projets d’archives en cours ; audit de fonctionnement terminé en vue d’une certification du service d’archives à horizon 2011.
- CNES (SIPAD-NG) : renouvellement d’une partie de l’infrastructure de stockage (robots), et migration physique des données (plusieurs centaines de To).
TRAVAUX DU GROUPE FORMATION
Point avancement : Charlotte Fabre. L’objectif est de mettre sur pied un mastère sur la pérennisation de l’information numérique. Des discussions ont été entreprises avec une grande Ecole sur ce projet. Les travaux en cours comprennent :
- Une enquête sur le niveau du besoin. Un questionnaire sera mis en ligne sur le site d’Aristote,
- La structuration du projet de mastère en module, l’identification du profil des enseignants, l’évaluation de la faisabilité
PRESENTATIONS
Le plan de reprise d'activités informatiques - Exemple de l'INIST
Présentation Angel Turri (INIST), responsable du service d’exploitation informatique au sein du DSI l’INIST Etude d’une vingtaine de jour par une société spécialisée (ARES), étude visant également à sensibiliser la direction de l’établissement. Comment définir la durée acceptable de l’interruption de service pour les utilisateurs correspondants ? Rapport besoin- coût. Forte exigence sur les données (données de la veille). Vulnérabilité de la salle de secours – quelle vulnérabilité en cas de catastrophe naturelle ? Problème du matériel : le matériel à remplacer n’est plus disponible. Stockage des données distant. Question sur la mutualisation des moyens de secours Situation actuelle en attente de budget, les briques du projet ont été définies Différence entre plan de continuité et plan de reprise ? Besoin d’un projet mené par la direction et non par la DSI. La sécurisation des données est absolument essentielle. Ce qui est important, c’est la continuité de l’accès au système d’information et non le remplacement du matériel : pouvoir continuer à accéder à toutes données du système d’information et s’assurer que la donnée est valide et n’a pas subi de modification. Difficulté de test en grandeur nature impliquant l’arrêt du système principal. Pour des raisons de confidentialité, la présentation d’Angel Turri ne peut pas être mise en ligne.
La corruption silencieuse des données
Présentation Christophe. Achard et Marc-Mendez-Bermond (DDN) (EDF, CEA, INEP3, Total….) Selon DDN, « La corruption silencieuse des données est un sujet tabou car les grands constructeurs n’ont pas trouvé de solution fiable ». Le disque SATA (qui ne fait pas de checksum) va présenter de bonne foi un bloc au file system qui ne sera pas bon. Si ce bloc porte sur une table d’un fichier, on risque de perdre le fichier. La densité des disques SATA va permettre 4 To par disque l’an prochain. Le disque RAID6 protège contre une double panne. On doit cependant pouvoir s’appuyer sur des technologies de fiabilité moindre tout en garantissant un service sûr. Le média n’est pas ultra fiable mais l’ensemble du système permet de garantir l’accès à la donnée. Le disque SATA est en quelque sorte l’approche « low cost » du disque. On reste cependant sur une expectative car la corruption silencieuse des données fait l’objet de plusieurs définitions différentes. La présentation de DDN montre une approche sur le sujet mais ne permet pas d’y voir beaucoup plus clair.
Les disques durs
Présentation de J.M. Fontaine (UPMC/CNRS/MCC) et Laurent Duplouy (BnF). L’objectif de cette présentation est de partager le niveau de connaissance qu’il est possible d’acquérir aujourd’hui. Rappels historiques, augmentations spectaculaire de la capacité, panorama du marché, zoom sur les technologies et les modes d’enregistrements. Description des principaux types de panne, mécaniques ou électriques, prévisibles et imprévisibles. Les paramètres de contrôle du disque dur et l'outil de contrôle SMART (Self-Monitoring, Analysis and Reporting Technology) qui permet de recueillir, en permanence, des informations sur l'état des différentes composantes du disque. Trois études sur les disques durs ont été analysées et commentées :
- ETUDE CARNEGIE MELLON U. DISK FAILURES IN THE REAL WORLD : WHAT DOES A MTTF OF 1,000,000 HOURS MEAN TO YOU ?
B. Schroeder, G. A. Gibson, Carnegie Mellon University – 2007, 100 000 disques analysés sur cinq ans. • Les taux fournis par les fabricants du temps moyen avant panne sous-estiment fortement la réalité, • Léger “effet de baignoire” concernant la mortalité infantile. L'augmentation des pannes commence à se manifester dès la 2ème année d'utilisation, • Le disque dur constitue l'une des premières origines des pannes des systèmes informatiques, mais de nombreux aspects concernant les avaries restent non expliqués
- ETUDE GOOGLE, FAILURE TRENDS IN A LARGE DISK DRIVE POPULATION
E. Pinheiro, W.-D. Weber, L. A. Barroso, Google Inc. , 2007, 100 0 HDD (SATA et PATA) sur 5 ans • Définition d'une avarie : une notion très complexe… • Le régime d'utilisation (faible, moyen, intensif) a une forte incidence notamment en début de vie (3 premiers mois) et après plusieurs années (5 ans) • Effets néfastes contrastés de la température : - Les basses températures (< 23°C) en début de vie du HDD (moins de 6 mois) - Les températures élevées (> 45°C) à partir de 3 ans d'utilisation • L'étude statistique de certains paramètres SMART révèle des indices pertinents de l'espérance de vie des disques : Scan errors, réallocation
- ETUDE WINSCONSIN-MADISON, AN ANALYSIS OF DATA CORRUPTION IN THE STORAGE STACK
L. N. Bairavasumdaram; G. R. Goodson, & Al Univ of Wisconsin-Madison, Network Appliance, Inc, Univ of Toronto. • Les disques de classe Nearline (SATA) sont beaucoup plus nombreux à présenter des défauts initiaux que les disques de classe Entreprise (FC), mais ils se montrent ensuite plus stable (durée d'observation de 17 mois). • Forte dépendance du vieillissement, avec des différences importantes : – Taille du disque : pas d’influence significative – Degré de fonctionnement : pas d’influence significative – Localisation spatiale : Le taux de regroupement des erreurs est très élevé – Localisation temporelle : à partir d’une 1ère erreur CM, d'autres erreurs sont détectées en moins d’une minute, d'où l'urgence des remplacements • Recommandation : il convient de prendre en considération les risques de simultanéité d'avaries.
Remarque : les études portent sur des disques déjà obsolètes. La présentation de Laurent Duplouy et de Jean-Marc Fontaine ne peut pas être mise en ligne pour des raisons de propriété intellectuelle.
La gestion des bandes magnétiques au CNES
Présentation Patrick Henquel (CNES). Le CNES vient de changer son infrastructure de stockage (nouvelle génération de silos STK SL8500 et nouvelles cartouches magnétiques : bandes T10K d’une capacité de 500 Go et bandes LTO4 d’une capacité de 800 Go). La politique de renouvellement, de relecture des cartouches, de recycle, de fusion n’est pas encore complètement définie avec ces nouvelles cartouches. On dispose d’une quantité importante d’information de surveillance disponible (nombre de fichiers, nombre de montage, date de la première erreur….). Le nouveau système permet le calcul d’empreintes MD5. Ce calcul est notamment utilisé pour les migrations. Craintes au plan industriel : suite au rachat de STK par SUN puis de SUN par Oracle, on s’interroge sur a place des technologies de stockage dans le nouveau groupe.
La gestion des bandes magnétiques au CINES
Présentation Olivier Rouchon/Marie Galez (CINES) Constat d’un différentiel entre la durée de vie du support et la durée de disponibilité des équipements de lecture/écriture. Le CINES dispose d’une robotique SUN-Storagetek 9310 La détection des erreurs se fait par tentative de lecture. Mise en place d’un traitement préventif pour les erreurs corrigeables et d’une minimisation des risques pour les erreurs non corrigeables (copies multiples). Centralisation des erreurs sur les lecteurs et sur les cartouches. Usage des empreintes pour valider la copie qu’on réutilise pour reconstituer une donnée primaire.
La gestion des bandes magnétiques à la BnF
Présentation Laurent Duplouy (BnF). Stockage principal et stockage de secours dans des silos Sun StorageTek SL8500 (Stockage principal 340 To par silo, stockage de secours 4,25 Po par robotique).
- 770 millions de fichiers enregistrés sur bandes avec calcul systématique d’empreinte (MD5). Accroissement 1millions de fichiers (200 à 300 Go) par jour
- Près de 8 000 médias manipulés par la robotique tous les jours (une bande utilisée toutes les 2 min.)
- Plus de 6 millions de fichiers audités tous les jours.
Contrôle de l’état des supports et des bandes par les contrôleurs via ACSLS et contrôle actif de l’état des lecteurs et des bandes via StorSentry. Audit permanent des fichiers livrés (audit = accéder au fichier, calculer l’empreinte et comparer à l’empreinte de référence) Audit au minimum une fois par an. Les principaux problèmes sont liés au très grand nombre de fichier.
Thème des réunions futures
- Formats : PDF, PNG, …, comment s’intégrer dans un travail global
- Présentation et démonstration de l'utilisation des moteurs sémantiques dans le cadre de la mémoire d'entreprise (Mario Delail, CNES),
- Les formats, les profils d'utilisation et les outils de contrôle et validation (TIFF ?) - prévoir une journée complète et inviter des éditeurs de logiciels de validation,
- Les retours d'expérience, état d'avancement des réflexions, des projets dans les institutions publiques et privées,
- L'émergence de produit du marché,
- Les critères de certification.
Date de la prochaine réunion
Jeudi 21 janvier 2010 au CNES.
Thème : Les applications logicielles utilisées pour l’archivage numérique.