Zum Hauptinhalt springen

Docuteam Dublin Core CSV 1.0

Docuteam Dublin Core CSV 1.0 ist ein Paketformat, das von docuteam feeder verarbeitet werden kann.

Definition

  • Das Paket ist eine .zip-Datei, die eine CSV-Datei enthält nebst einer beliebigen Anzahl von anderen Dateien und Ordnern.
  • docuteam feeder generiert ein Matterhorn METS SIP gemäss den Metadaten in der CSV-Datei und den ebenfalls darin festgehaltenen Dateipfaden.

CSV-Datei

  • Textkodierung: UTF-8
  • Trennzeichen: ;
  • Zeichen zur Begrenzung von Feldern mit Sonderzeichen: "
  • die CSV-Datei enthält die folgenden Spalten:
BezeichnungobligatorischwiederholbarBeschreibung
IDjaneinDie CSV-Datei muss eine ID und eine ParentID-Spalte enthalten, die die Struktur des SIP widerspiegeln. Die IDs können willkürlich vergeben werden und dienen nur der Abbildung der Hierarchie.
ParentIDjaneinsiehe oben
FilejaneinPfad zu den Dateien im Paket. Kann entweder absolut oder relativ zur CSV-Datei angegeben werden. Eine gemischte Angabe von relativen/absoluten Pfaden ist nicht zulässig.
ChecksumneinneinAlgorithmus: SHA-512
DescriptionLeveljaneinStufe
TitlejaneinDublin Core Title
IdentifierneinjaDublin Core Creator
CreatorneinjaDublin Core Creator
SubjectneinjaDublin Core Subject
DescriptionneinjaDublin Core Description
PublisherneinjaDublin Core Publisher
ContributorneinjaDublin Core Contributor
DateneinjaDublin Core Date
TypeneinjaDublin Core Type
FormatneinjaDublin Core Format
SourceneinjaDublin Core Source
LanguageneinjaDublin Core Language
RelationneinjaDublin Core Relation
CoverageneinjaDublin Core Coverage
RightsneinjaDublin Core Rights

  • Wiederholte Felder werden in eckige Klammern gesetzt und mit Kommas getrennt [Topic1,Topic2].
  • Wenn der Feldinhalt selbst eckige Klammern oder Kommas enthält, müssen diese wie folgt codiert werden: "[""Topic mit ,"",""Topic mit []""]".
  • Wenn eine Prüfsummenspalte vorhanden ist, vergleicht docuteam feeder diese Prüfsummen mit den Prüfsummen, die für das Matterhorn METS SIP generiert wurden, um so die Integrität der Dateien sicherzustellen.
  • Die Benennung der .zip-Datei ist beliebig.

Einfaches Beispiel

ZIP-Datei

SomeName.zip
├── metadata.csv
├── fileA.ext
├── fileB.ext

metadata.csv

ID ;ParentID  ;File       ;Checksum   ;DescriptionLevel  ;Title        ;Creator       ;Subject         ;Coverage  ;Date       ;Identifier ;Description ;Publisher ;Contributor ;Type ;Format ;Source ;Language ;Relation ;Rights
1 ; ; ; ;Fonds ;Transaction ;Department A ;[Topic1,Topic2] ;2020-2022 ; ; ; ; ; ; ; ; ; ; ;
2 ;1 ;fileA.ext ;6bf6b8... ;File ;fileA.ext ; ; ; ;2020-10-12 ; ; ; ; ; ; ; ; ; ;
3 ;1 ;fileB.ext ;987654... ;File ;fileB.ext ; ; ; ;2022-03-01 ; ; ; ; ; ; ; ; ; ;

resultierende Struktur des Matterhorn METS SIP

Transaction
├── Transaction
| ├── fileA.ext
| ├── fileB.ext
├── mets.xml
  • Transaction hat die Stufe Fonds und enthält Metadaten für Title, Creator, Subject und Coverage.
  • fileA.ext und fileB.ext haben die Stufe File und enthalten Metadaten für Title und Date.
  • Die Checksummen in Matterhorn METS wurden neu generiert und mit den in der CSV-Datei enthaltenen Angaben verglichen.

Erweitertes Beispiel

ZIP-File

SomeName.zip
├── someOtherName.csv
├── fileA.ext
├── fileB.ext
├── FolderA
| ├── SubfolderA
| | ├── fileC.ext
| | ├── fileD.ext
| ├── fileE.ext

someOtherName.csv

ID ;ParentID  ;File                          ;Checksum   ;DescriptionLevel    ;Title        ;Creator       ;Subject         ;Coverage  ;Language ;Type ;Identifier ;Description ;Publisher ;Contributor ;Date ;Format ;Source ;Relation ;Coverage ;Rights
1 ; ; ; ;Fonds ;SomeTheme ;Department A ; ;2020-2022 ;EN ; ; ; ; ; ; ; ; ; ; ;
2 ;1 ; ; ;Series ;Transaction1 ; ;[Topic1,Topic2] ;2020 ;EN ; ; ; ; ; ; ; ; ; ; ;
3 ;2 ;fileA.ext ;6bf6b8... ;Document ;fileA.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
4 ;2 ;fileB.ext ;987654... ;Document ;fileB.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
5 ;1 ; ; ;Series ;Transaction2 ; ;[Topic1,Topic3] ;2022 ;EN ; ; ; ; ; ; ; ; ; ; ;
6 ;5 ;FolderA\SubfolderA\fileC.ext ;77453b... ;Document ;fileC.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
7 ;5 ;FolderA\SubfolderA\fileD.ext ;836247... ;Document ;fileD.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;
8 ;5 ;FolderA\fileE.ext ;9db428... ;Document ;fileE.ext ; ; ; ; ;Text ; ; ; ; ; ; ; ; ; ;

resultierende Struktur des Matterhorn METS SIP

SomeTheme
├── SomeTheme
| ├── Transaction1
| | ├── fileA.ext
| | ├── fileB.ext
| ├── Transaction2
| | ├── fileC.ext
| | ├── fileD.ext
| | ├── fileE.ext
├── mets.xml

Anpassungen

Ein Paket, das im Format Docuteam Dublin Core CSV 1.0 an docuteam feeder übermittelt wird, wird mit dem Schritt Submission: create SIP from CSV in ein Matterhorn METS SIP konvertiert. Bestandteil dieses Schritts ist eine Mapping Datei mit vielfältigen Anpassungsmöglichkeiten:

  • Textkodierung
  • Trennzeichen
  • Zeichen zur Begrenzung von Feldern mit Sonderzeichen
  • andere CSV-Headers und unterschiedliche Feldzuordnungen zwischen den CSV-Headers und den Matterhorn METS-Elementen
  • Angabe, ob eine Checksummenprüfung durchgeführt werden soll oder nicht

Durch Anpassungen dieser Mapping-Datei kann das Paketformat an den jeweiligen Anwendungsfall angepasst werden.