Docuteam Dublin Core CSV 1.0
Docuteam Dublin Core CSV 1.0 ist ein Paketformat, das von docuteam feeder verarbeitet werden kann.
Definition
- Das Paket ist eine .zip-Datei, die eine CSV-Datei enthält nebst einer beliebigen Anzahl von anderen Dateien und Ordnern.
- docuteam feeder generiert ein Matterhorn METS SIP gemäss den Metadaten in der CSV-Datei und den ebenfalls darin festgehaltenen Dateipfaden.
CSV-Datei
- Textkodierung: UTF-8
- Trennzeichen:
;
- Zeichen zur Begrenzung von Feldern mit Sonderzeichen:
"
- die CSV-Datei enthält die folgenden Spalten:
Bezeichnung | obligatorisch | wiederholbar | Beschreibung |
---|---|---|---|
ID | ja | nein | Die CSV-Datei muss eine ID und eine ParentID-Spalte enthalten, die die Struktur des SIP widerspiegeln. Die IDs können willkürlich vergeben werden und dienen nur der Abbildung der Hierarchie. |
ParentID | ja | nein | siehe oben |
File | ja | nein | Pfad zu den Dateien im Paket. Kann entweder absolut oder relativ zur CSV-Datei angegeben werden. Eine gemischte Angabe von relativen/absoluten Pfaden ist nicht zulässig. |
Checksum | nein | nein | Algorithmus: SHA-512 |
DescriptionLevel | ja | nein | Stufe |
Title | ja | nein | Dublin Core Title |
Identifier | nein | ja | Dublin Core Creator |
Creator | nein | ja | Dublin Core Creator |
Subject | nein | ja | Dublin Core Subject |
Description | nein | ja | Dublin Core Description |
Publisher | nein | ja | Dublin Core Publisher |
Contributor | nein | ja | Dublin Core Contributor |
Date | nein | ja | Dublin Core Date |
Type | nein | ja | Dublin Core Type |
Format | nein | ja | Dublin Core Format |
Source | nein | ja | Dublin Core Source |
Language | nein | ja | Dublin Core Language |
Relation | nein | ja | Dublin Core Relation |
Coverage | nein | ja | Dublin Core Coverage |
Rights | nein | ja | Dublin Core Rights |
- Wiederholte Felder werden in eckige Klammern gesetzt und mit Kommas getrennt
[Topic1,Topic2]
. - Wenn der Feldinhalt selbst eckige Klammern oder Kommas enthält, müssen diese wie folgt codiert werden:
"[""Topic mit ,"",""Topic mit []""]"
. - Wenn eine Prüfsummenspalte vorhanden ist, vergleicht docuteam feeder diese Prüfsummen mit den Prüfsummen, die für das Matterhorn METS SIP generiert wurden, um so die Integrität der Dateien sicherzustellen.
- Die Benennung der .zip-Datei ist beliebig.
Einfaches Beispiel
ZIP-Datei
SomeName.zip
├── metadata.csv
├── fileA.ext
├── fileB.ext
metadata.csv
ID ;ParentID ;File ;Checksum ;DescriptionLevel ;Title ;Creator ;Subject ;Coverage ;Date ;Identifier ;Description ;Publisher ;Contributor ;Type ;Format ;Source ;Language ;Relation ;Rights
1 ; ; ; ;Fonds ;Transaction ;Department A ;[Topic1,Topic2] ;2020-2022 ; ; ; ; ; ; ; ; ; ; ;
2 ;1 ;fileA.ext ;6bf6b8... ;File ;fileA.ext ; ; ; ;2020-10-12 ; ; ; ; ; ; ; ; ; ;
3 ;1 ;fileB.ext ;987654... ;File ;fileB.ext ; ; ; ;2022-03-01 ; ; ; ; ; ; ; ; ; ;
resultierende Struktur des Matterhorn METS SIP
Transaction
├── Transaction
| ├── fileA.ext
| ├── fileB.ext
├── mets.xml
- Transaction hat die Stufe
Fonds
und enthält Metadaten fürTitle
,Creator
,Subject
undCoverage
. - fileA.ext und fileB.ext haben die Stufe
File
und enthalten Metadaten fürTitle
undDate
. - Die Checksummen in Matterhorn METS wurden neu generiert und mit den in der CSV-Datei enthaltenen Angaben verglichen.
Erweitertes Beispiel
ZIP-File
SomeName.zip
├── someOtherName.csv
├── fileA.ext
├── fileB.ext
├── FolderA
| ├── SubfolderA
| | ├── fileC.ext
| | ├── fileD.ext
| ├── fileE.ext
someOtherName.csv
ID ;ParentID ;File ;Checksum ;DescriptionLevel ;Title ;Creator ;Subject ;Coverage ;Language ;Type ;Identifier ;Description ;Publisher ;Contributor ;Date ;Format ;Source ;Relation ;Coverage ;Rights
1 ; ; ; ;Fonds ;SomeTheme ;Department A ; ;2020-2022 ;EN ; ; ; ; ; ; ; ; ; ; ;
2 ;1 ; ; ;Series ;Transaction1 ; ;[Topic1,Topic2] ;2020 ;EN ; ; ; ; ; ; ; ; ; ; ;
3 ;2 ;fileA.ext ;6bf6b8... ;Document ;fileA.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
4 ;2 ;fileB.ext ;987654... ;Document ;fileB.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
5 ;1 ; ; ;Series ;Transaction2 ; ;[Topic1,Topic3] ;2022 ;EN ; ; ; ; ; ; ; ; ; ; ;
6 ;5 ;FolderA\SubfolderA\fileC.ext ;77453b... ;Document ;fileC.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
7 ;5 ;FolderA\SubfolderA\fileD.ext ;836247... ;Document ;fileD.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
8 ;5 ;FolderA\fileE.ext ;9db428... ;Document ;fileE.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
resultierende Struktur des Matterhorn METS SIP
SomeTheme
├── SomeTheme
| ├── Transaction1
| | ├── fileA.ext
| | ├── fileB.ext
| ├── Transaction2
| | ├── fileC.ext
| | ├── fileD.ext
| | ├── fileE.ext
├── mets.xml
Anpassungen
Ein Paket, das im Format Docuteam Dublin Core CSV 1.0 an docuteam feeder übermittelt wird, wird mit dem Schritt Submission: create SIP from CSV in ein Matterhorn METS SIP konvertiert. Bestandteil dieses Schritts ist eine Mapping Datei mit vielfältigen Anpassungsmöglichkeiten:
- Textkodierung
- Trennzeichen
- Zeichen zur Begrenzung von Feldern mit Sonderzeichen
- andere CSV-Headers und unterschiedliche Feldzuordnungen zwischen den CSV-Headers und den Matterhorn METS-Elementen
- Angabe, ob eine Checksummenprüfung durchgeführt werden soll oder nicht
Durch Anpassungen dieser Mapping-Datei kann das Paketformat an den jeweiligen Anwendungsfall angepasst werden.