Docuteam Dublin Core CSV 1.0
Docuteam Dublin Core CSV 1.0 est un format de paquet qui peut être traité par docuteam feeder.
Definition
- Le paquet est un fichier .zip contenant un fichier CSV à côté d'un certain nombre d'autres fichiers et dossiers.
- docuteam feeder génère un Matterhorn METS SIP en fonction des métadonnées contenues dans le fichier CSV et des chemins d'accès aux fichiers qui y sont également consignés.
Fichier CSV
- encodage du texte : UTF-8
- délimiteur :
;
- séparateur de chaîne de caractères :
"
- le fichier CSV comprend les colonnes suivantes:
Label | requis | répétable | description |
---|---|---|---|
ID | oui | no | Le fichier CSV doit contenir une colonne ID et une colonne ParentID qui reflètent la structure du SIP. Les ID peuvent être attribués de manière arbitraire et ne sont utilisés que pour représenter la hiérarchie. |
ParentID | oui | no | voir ci-dessus |
File | oui | no | Chemin d'accès aux fichiers du paquet. Il peut être spécifié en absolu ou en relatif par rapport au fichier CSV. Une spécification mixte de chemins relatifs/absolus n'est pas autorisée. |
Checksum | no | no | Algorithme: SHA-512 |
DescriptionLevel | oui | no | Niveau de description archivistique |
Title | oui | no | Dublin Core Title |
Identifier | no | oui | Dublin Core Creator |
Creator | no | oui | Dublin Core Creator |
Subject | no | oui | Dublin Core Subject |
Description | no | oui | Dublin Core Description |
Publisher | no | oui | Dublin Core Publisher |
Contributor | no | oui | Dublin Core Contributor |
Date | no | oui | Dublin Core Date |
Type | no | oui | Dublin Core Type |
Format | no | oui | Dublin Core Format |
Source | no | oui | Dublin Core Source |
Language | no | oui | Dublin Core Language |
Relation | no | oui | Dublin Core Relation |
Coverage | no | oui | Dublin Core Coverage |
Rights | no | oui | Dublin Core Rights |
- Les champs répétés sont enregistrés entre crochets et séparés par des virgules
[Topic1,Topic2]
. - Si le contenu du champ lui-même contient des crochets ou des virgules, ceux-ci doivent être codés comme suit :
"[""Topic avec ,"",""Topic avec []""]"
. - Si une colonne de somme de contrôle est présente, docuteam feeder comparera ces sommes de contrôle avec les sommes de contrôle générées pour le Matterhorn METS SIP, garantissant ainsi l'intégrité des fichiers.
- Le nom du fichier .zip n'a pas d'importance.
Exemple simple
Fichier ZIP
SomeName.zip
├── metadata.csv
├── fileA.ext
├── fileB.ext
metadata.csv
ID ;ParentID ;File ;Checksum ;DescriptionLevel ;Title ;Creator ;Subject ;Coverage ;Date ;Identifier ;Description ;Publisher ;Contributor ;Type ;Format ;Source ;Language ;Relation ;Rights
1 ; ; ; ;Fonds ;Transaction ;Department A ;[Topic1,Topic2] ;2020-2022 ; ; ; ; ; ; ; ; ; ; ;
2 ;1 ;fileA.ext ;6bf6b8... ;File ;fileA.ext ; ; ; ;2020-10-12 ; ; ; ; ; ; ; ; ; ;
3 ;1 ;fileB.ext ;987654... ;File ;fileB.ext ; ; ; ;2022-03-01 ; ; ; ; ; ; ; ; ; ;
structure résultante de Matterhorn METS SIP
Transaction
├── Transaction
| ├── fileA.ext
| ├── fileB.ext
├── mets.xml
- Transaction est de niveau
Fonds
et comprend des métadonnées pourTitle
,Creator
,Subject
andCoverage
. - fileA.ext et fileB.ext sont de niveau
File
et comprennent des métadonnées pourTitle
etDate
. - Les sommes de contrôle dans Matterhorn METS ont été recalculées et comparées avec succès aux valeurs du fichier CSV.
Exemple étendu
Fichier ZIP
SomeName.zip
├── someOtherName.csv
├── fileA.ext
├── fileB.ext
├── FolderA
| ├── SubfolderA
| | ├── fileC.ext
| | ├── fileD.ext
| ├── fileE.ext
someOtherName.csv
ID ;ParentID ;File ;Checksum ;DescriptionLevel ;Title ;Creator ;Subject ;Coverage ;Language ;Type ;Identifier ;Description ;Publisher ;Contributor ;Date ;Format ;Source ;Relation ;Coverage ;Rights
1 ; ; ; ;Fonds ;SomeTheme ;Department A ; ;2020-2022 ;EN ; ; ; ; ; ; ; ; ; ; ;
2 ;1 ; ; ;Series ;Transaction1 ; ;[Topic1,Topic2] ;2020 ;EN ; ; ; ; ; ; ; ; ; ; ;
3 ;2 ;fileA.ext ;6bf6b8... ;Document ;fileA.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
4 ;2 ;fileB.ext ;987654... ;Document ;fileB.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
5 ;1 ; ; ;Series ;Transaction2 ; ;[Topic1,Topic3] ;2022 ;EN ; ; ; ; ; ; ; ; ; ; ;
6 ;5 ;FolderA\SubfolderA\fileC.ext ;77453b... ;Document ;fileC.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
7 ;5 ;FolderA\SubfolderA\fileD.ext ;836247... ;Document ;fileD.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
8 ;5 ;FolderA\fileE.ext ;9db428... ;Document ;fileE.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
structure résultante de Matterhorn METS SIP
SomeTheme
├── SomeTheme
| ├── Transaction1
| | ├── fileA.ext
| | ├── fileB.ext
| ├── Transaction2
| | ├── fileC.ext
| | ├── fileD.ext
| | ├ ── fileE.ext
├── mets.xml
Adaptations
Un paquet soumis au format Docuteam Dublin Core CSV 1.0 à docuteam feeder est converti en un Matterhorn METS SIP avec l'étape Submission: create SIP from CSV. Cette étape comprend un fichier de mappage avec de nombreuses options d'adaptation :
- encodage du texte
- délimiteur
- séparateur de chaîne de caractères
- autres en-têtes CSV et différentes correspondances de champs entre les colonnes csv et les éléments de métadonnées METS Matterhorn
- Spécification de l'exécution ou non d'une vérification de la somme de contrôle
Les ajustements apportés à ce fichier de correspondance permettent donc d'adapter le format du paquet au cas d'utilisation spécifique.