Aller au contenu principal

Docuteam Dublin Core CSV 1.0

Docuteam Dublin Core CSV 1.0 est un format de paquet qui peut être traité par docuteam feeder.

Definition

  • Le paquet est un fichier .zip contenant un fichier CSV à côté d'un certain nombre d'autres fichiers et dossiers.
  • docuteam feeder génère un Matterhorn METS SIP en fonction des métadonnées contenues dans le fichier CSV et des chemins d'accès aux fichiers qui y sont également consignés.

Fichier CSV

  • encodage du texte : UTF-8
  • délimiteur : ;
  • séparateur de chaîne de caractères : "
  • le fichier CSV comprend les colonnes suivantes:
Labelrequisrépétabledescription
IDouinoLe fichier CSV doit contenir une colonne ID et une colonne ParentID qui reflètent la structure du SIP. Les ID peuvent être attribués de manière arbitraire et ne sont utilisés que pour représenter la hiérarchie.
ParentIDouinovoir ci-dessus
FileouinoChemin d'accès aux fichiers du paquet. Il peut être spécifié en absolu ou en relatif par rapport au fichier CSV. Une spécification mixte de chemins relatifs/absolus n'est pas autorisée.
ChecksumnonoAlgorithme: SHA-512
DescriptionLevelouinoNiveau de description archivistique
TitleouinoDublin Core Title
IdentifiernoouiDublin Core Creator
CreatornoouiDublin Core Creator
SubjectnoouiDublin Core Subject
DescriptionnoouiDublin Core Description
PublishernoouiDublin Core Publisher
ContributornoouiDublin Core Contributor
DatenoouiDublin Core Date
TypenoouiDublin Core Type
FormatnoouiDublin Core Format
SourcenoouiDublin Core Source
LanguagenoouiDublin Core Language
RelationnoouiDublin Core Relation
CoveragenoouiDublin Core Coverage
RightsnoouiDublin Core Rights

  • Les champs répétés sont enregistrés entre crochets et séparés par des virgules [Topic1,Topic2].
  • Si le contenu du champ lui-même contient des crochets ou des virgules, ceux-ci doivent être codés comme suit : "[""Topic avec ,"",""Topic avec []""]".
  • Si une colonne de somme de contrôle est présente, docuteam feeder comparera ces sommes de contrôle avec les sommes de contrôle générées pour le Matterhorn METS SIP, garantissant ainsi l'intégrité des fichiers.
  • Le nom du fichier .zip n'a pas d'importance.

Exemple simple

Fichier ZIP

SomeName.zip
├── metadata.csv
├── fileA.ext
├── fileB.ext

metadata.csv

ID ;ParentID  ;File       ;Checksum   ;DescriptionLevel  ;Title        ;Creator       ;Subject         ;Coverage  ;Date       ;Identifier ;Description ;Publisher ;Contributor ;Type ;Format ;Source ;Language ;Relation ;Rights
1 ; ; ; ;Fonds ;Transaction ;Department A ;[Topic1,Topic2] ;2020-2022 ; ; ; ; ; ; ; ; ; ; ;
2 ;1 ;fileA.ext ;6bf6b8... ;File ;fileA.ext ; ; ; ;2020-10-12 ; ; ; ; ; ; ; ; ; ;
3 ;1 ;fileB.ext ;987654... ;File ;fileB.ext ; ; ; ;2022-03-01 ; ; ; ; ; ; ; ; ; ;

structure résultante de Matterhorn METS SIP

Transaction
├── Transaction
| ├── fileA.ext
| ├── fileB.ext
├── mets.xml
  • Transaction est de niveau Fonds et comprend des métadonnées pour Title, Creator, Subject and Coverage.
  • fileA.ext et fileB.ext sont de niveau File et comprennent des métadonnées pour Title et Date.
  • Les sommes de contrôle dans Matterhorn METS ont été recalculées et comparées avec succès aux valeurs du fichier CSV.

Exemple étendu

Fichier ZIP

SomeName.zip
├── someOtherName.csv
├── fileA.ext
├── fileB.ext
├── FolderA
| ├── SubfolderA
| | ├── fileC.ext
| | ├── fileD.ext
| ├── fileE.ext

someOtherName.csv

ID ;ParentID  ;File                          ;Checksum   ;DescriptionLevel    ;Title        ;Creator       ;Subject         ;Coverage  ;Language ;Type ;Identifier ;Description ;Publisher ;Contributor ;Date ;Format ;Source ;Relation ;Coverage ;Rights
1 ; ; ; ;Fonds ;SomeTheme ;Department A ; ;2020-2022 ;EN ; ; ; ; ; ; ; ; ; ; ;
2 ;1 ; ; ;Series ;Transaction1 ; ;[Topic1,Topic2] ;2020 ;EN ; ; ; ; ; ; ; ; ; ; ;
3 ;2 ;fileA.ext ;6bf6b8... ;Document ;fileA.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
4 ;2 ;fileB.ext ;987654... ;Document ;fileB.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
5 ;1 ; ; ;Series ;Transaction2 ; ;[Topic1,Topic3] ;2022 ;EN ; ; ; ; ; ; ; ; ; ; ;
6 ;5 ;FolderA\SubfolderA\fileC.ext ;77453b... ;Document ;fileC.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
7 ;5 ;FolderA\SubfolderA\fileD.ext ;836247... ;Document ;fileD.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
8 ;5 ;FolderA\fileE.ext ;9db428... ;Document ;fileE.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;

structure résultante de Matterhorn METS SIP

SomeTheme
├── SomeTheme
| ├── Transaction1
| | ├── fileA.ext
| | ├── fileB.ext
| ├── Transaction2
| | ├── fileC.ext
| | ├── fileD.ext
| | ├── fileE.ext
├── mets.xml

Adaptations

Un paquet soumis au format Docuteam Dublin Core CSV 1.0 à docuteam feeder est converti en un Matterhorn METS SIP avec l'étape Submission: create SIP from CSV. Cette étape comprend un fichier de mappage avec de nombreuses options d'adaptation :

  • encodage du texte
  • délimiteur
  • séparateur de chaîne de caractères
  • autres en-têtes CSV et différentes correspondances de champs entre les colonnes csv et les éléments de métadonnées METS Matterhorn
  • Spécification de l'exécution ou non d'une vérification de la somme de contrôle

Les ajustements apportés à ce fichier de correspondance permettent donc d'adapter le format du paquet au cas d'utilisation spécifique.