Docuteam Dublin Core CSV 1.0
Docuteam Dublin Core CSV 1.0 est un format de paquet qui peut être traité par docuteam feeder.
Definition
- Le paquet est un fichier .zip contenant un fichier CSV à côté d'un certain nombre d'autres fichiers et dossiers.
- docuteam feeder génère un Matterhorn METS SIP en fonction des métadonnées contenues dans le fichier CSV et des chemins d'accès aux fichiers qui y sont également consignés.
Fichier CSV
- encodage du texte : UTF-8
- délimiteur :
; - séparateur de chaîne de caractères :
" - le fichier CSV comprend les colonnes suivantes:
| Label | requis | répétable | description |
|---|---|---|---|
| ID | oui | no | Le fichier CSV doit contenir une colonne ID et une colonne ParentID qui reflètent la structure du SIP. Les ID peuvent être attribués de manière arbitraire et ne sont utilisés que pour représenter la hiérarchie. |
| ParentID | oui | no | voir ci-dessus |
| File | oui | no | Chemin d'accès aux fichiers du paquet. Il peut être spécifié en absolu ou en relatif par rapport au fichier CSV. Une spécification mixte de chemins relatifs/absolus n'est pas autorisée. |
| Checksum | no | no | Algorithme: SHA-512 |
| DescriptionLevel | oui | no | Niveau de description archivistique |
| Title | oui | no | Dublin Core Title |
| Identifier | no | oui | Dublin Core Creator |
| Creator | no | oui | Dublin Core Creator |
| Subject | no | oui | Dublin Core Subject |
| Description | no | oui | Dublin Core Description |
| Publisher | no | oui | Dublin Core Publisher |
| Contributor | no | oui | Dublin Core Contributor |
| Date | no | oui | Dublin Core Date |
| Type | no | oui | Dublin Core Type |
| Format | no | oui | Dublin Core Format |
| Source | no | oui | Dublin Core Source |
| Language | no | oui | Dublin Core Language |
| Relation | no | oui | Dublin Core Relation |
| Coverage | no | oui | Dublin Core Coverage |
| Rights | no | oui | Dublin Core Rights |
- Les champs répétés sont enregistrés entre crochets et séparés par des virgules
[Topic1,Topic2]. - Si le contenu du champ lui-même contient des crochets ou des virgules, ceux-ci doivent être codés comme suit :
"[""Topic avec ,"",""Topic avec []""]". - Si une colonne de somme de contrôle est présente, docuteam feeder comparera ces sommes de contrôle avec les sommes de contrôle générées pour le Matterhorn METS SIP, garantissant ainsi l'intégrité des fichiers.
- Le nom du fichier .zip n'a pas d'importance.
Exemple simple
Fichier ZIP:
SomeName.zip
├── metadata.csv
├── fileA.ext
├── fileB.ext
metadata.csv:
ID ;ParentID ;File ;Checksum ;DescriptionLevel ;Title ;Creator ;Subject ;Coverage ;Date ;Identifier ;Description ;Publisher ;Contributor ;Type ;Format ;Source ;Language ;Relation ;Rights
1 ; ; ; ;Fonds ;Transaction ;Department A ;[Topic1,Topic2] ;2020-2022 ; ; ; ; ; ; ; ; ; ; ;
2 ;1 ;fileA.ext ;6bf6b8... ;File ;fileA.ext ; ; ; ;2020-10-12 ; ; ; ; ; ; ; ; ; ;
3 ;1 ;fileB.ext ;987654... ;File ;fileB.ext ; ; ; ;2022-03-01 ; ; ; ; ; ; ; ; ; ;
Structure résultante de Matterhorn METS SIP:
Transaction
├── Transaction
| ├─ ─ fileA.ext
| ├── fileB.ext
├── mets.xml
- Transaction est de niveau
Fondset comprend des métadonnées pourTitle,Creator,SubjectandCoverage. - fileA.ext et fileB.ext sont de niveau
Fileet comprennent des métadonnées pourTitleetDate. - Les sommes de contrôle dans Matterhorn METS ont été recalculées et comparées avec succès aux valeurs du fichier CSV.
Exemple étendu
Fichier ZIP:
SomeName.zip
├── someOtherName.csv
├── fileA.ext
├── fileB.ext
├── FolderA
| ├── SubfolderA
| | ├── fileC.ext
| | ├── fileD.ext
| ├── fileE.ext
someOtherName.csv:
ID ;ParentID ;File ;Checksum ;DescriptionLevel ;Title ;Creator ;Subject ;Coverage ;Language ;Type ;Identifier ;Description ;Publisher ;Contributor ;Date ;Format ;Source ;Relation ;Coverage ;Rights
1 ; ; ; ;Fonds ;SomeTheme ;Department A ; ;2020-2022 ;EN ; ; ; ; ; ; ; ; ; ; ;
2 ;1 ; ; ;Series ;Transaction1 ; ;[Topic1,Topic2] ;2020 ;EN ; ; ; ; ; ; ; ; ; ; ;
3 ;2 ;fileA.ext ;6bf6b8... ;Document ;fileA.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
4 ;2 ;fileB.ext ;987654... ;Document ;fileB.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
5 ;1 ; ; ;Series ;Transaction2 ; ;[Topic1,Topic3] ;2022 ;EN ; ; ; ; ; ; ; ; ; ; ;
6 ;5 ;FolderA\SubfolderA\fileC.ext ;77453b... ;Document ;fileC.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
7 ;5 ;FolderA\SubfolderA\fileD.ext ;836247... ;Document ;fileD.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
8 ;5 ;FolderA\fileE.ext ;9db428... ;Document ;fileE.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
Structure résultante de Matterhorn METS SIP:
SomeTheme
├── SomeTheme
| ├── Transaction1
| | ├── fileA.ext
| | ├── fileB.ext
| ├── Transaction2
| | ├── fileC.ext
| | ├── fileD.ext
| | ├── fileE.ext
├── mets.xml
Adaptations
Un paquet soumis au format Docuteam Dublin Core CSV 1.0 à docuteam feeder est converti en un Matterhorn METS SIP avec l'étape Submission: create SIP from CSV. Cette étape comprend un fichier de mappage avec de nombreuses options d'adaptation :
- encodage du texte
- délimiteur
- séparateur de chaîne de caractères
- autres en-têtes CSV et différentes correspondances de champs entre les colonnes csv et les éléments de métadonnées METS Matterhorn
- spécification si une vérification de la somme de contrôle doit être effectué ou non
Les ajustements apportés à ce fichier de correspondance permettent donc d'adapter le format du paquet au cas d'utilisation spécifique.