Zum Hauptinhalt springen
Version: 8.0

Dateimigration

Regeln zu Formatmigrationen sowie die dazu zu verwendeten Werkzeuge werden in der Datei migration-config.xml definiert. Sie kommt beim Schritt Ingest: migrate files zum Einsatz.

<?xml version="1.0" encoding="UTF-8"?>
<config>
<application id="1"
name="ImageMagick"
executable="D:\docuteam\apps\ImageMagick\convert.exe"
parameter="-compress#none#{[arg1]}#{[arg2]}" />
...
</config>

In diesem Beispiel wird die Applikation ImageMagick als Applikationsnummer 1 definiert. Weiter wird festgelegt, dass das Programm convert.exe ausgeführt werden soll, das sich im Ordner D:\docuteam\apps\ImageMagick befindet. Dem Programmaufruf werden die Parameter -compress#none#{[arg1]}#{[arg2]} mitgegeben, wobei beim Programmaufruf {[arg1]} durch die Quelldatei und {[arg2]} durch die Zieldatei ersetzt wird.

Der zweite Teil der Datei migration-config.xml besteht aus Anweisungen zur Formatmigration.

	<puid name="fmt/41"
applicationID="1"
targetExtension="tif"
targetPronom="fmt/353" />

Das Beispiel defniniert, dass Dateien mit einer PUID (PRONOM's Persistent Unique Identifier) fmt/41 (Raw JPEG Stream) in eine Datei mit PUID fmt/353 (Tagged Image File Format) konvertiert werden sollen. Dabei soll die oben definierte Applikation mit der Applikationsnummer 1 (hier ImageMagick) zum Einsatz kommen.

Neben der Angabe einer PUID können auch MIME-Types und Dateiendungen angegeben werden. Die Formatmigration gemäss PUID geniesst erste Priorität. Gelingt dies nicht, wird in zweiter Priorität versucht, die Migration gemäss MIME-Type durchzuführen. Gelingt dies ebenfalls nicht, wird die Dateiendung berücksichtigt:

	<puid      name="fmt/41"
applicationID="1"
targetExtension="tif"
targetPronom="fmt/353" />

<mimeType name="image/jpeg"
applicationID="1"
targetExtension="tif"
targetPronom="fmt/353" />

<extension name="jpg"
applicationID="1"
targetExtension="tif"
targetPronom="fmt/353" />

Es ist möglich, eine Datei in mehreren Schritten zu konvertieren:

	<extension name="msg" premisConverterName="Outlook msg extraction and attachments normalization">
<step applicationID="9" copy="1"/>
<step applicationID="100" excludeExtensions="msg" excludeMimeTypes="application/vnd.ms-outlook"/>
<step applicationID="10" includeExtensions="msg" targetExtension="eml" copy="1"/>
</extension>

Im obigen Beispiel extrahieren wir zuerst die Anhänge aus der E-Mail-Nachricht mithilfe des MsgAttachmentsExtractor, während eine Kopie der Originaldatei beibehalten wird (über die Option copy="1"). Im zweiten Schritt konvertieren wir die extrahierten Anhänge durch den Aufruf von FileConverter, wodurch alle definierten Migrationsregeln angewendet werden. Wir schliessen die originale E-Mail-Datei bewusst aus, um eine endlose Rekursion zu vermeiden. Schliesslich konvertieren wir die MSG-Datei mithilfe einer externen Anwendung in das EML-Format.

In der folgenden Konfiguration nutzen wir mehrere Schritte, um zuerst den Inhalt eines ZIP-Containers zu extrahieren und anschliessend die darin enthaltenen Dateien zu migrieren.

	<extension name="zip">
<step applicationID="9" />
<step applicationID="100" />
</extension>

Die folgenden Attribute können verwendet werden, um das Verhalten für mehrere Schritte zu konfigurieren:

AttributBeschreibung
includeExtensionsBerücksichtigt für diesen Schritt nur Dateien mit der angegebenen Liste von Dateiendungen.
includeMimeTypesBerücksichtigt für diesen Schritt nur Dateien mit der angegebenen Liste von MIME-Typen.
includePuidsBerücksichtigt für diesen Schritt nur Dateien mit der angegebenen Liste von PUIDs.
excludeExtensionsBerücksichtigt für diesen Schritt keine Dateien mit der angegebenen Liste von Dateiendungen.
excludeMimeTypesBerücksichtigt für diesen Schritt keine Dateien mit der angegebenen Liste von MIME-Typen.
excludePuidsBerücksichtigt für diesen Schritt keine Dateien mit der angegebenen Liste von PUIDs.
copyWenn dieser Wert auf 1 gesetzt ist, wird die Originaldatei in das Zielverzeichnis kopiert. Dies sollte verwendet werden, wenn ein weiterer Migrationsschritt zu einem späteren Zeitpunkt geplant ist. Beispielsweise können im ersten Schritt die Anhänge einer MSG-E-Mail extrahiert und im nächsten Schritt die MSG-Datei in das EML-Format migriert werden. Es wird nicht empfohlen, diese Option zur reinen Aufbewahrung der Originalkopie zu verwenden; nutzen Sie stattdessen die Option keepOriginals des SIPFileMigrator.

Das Attribut premisConverterName kann in den Tags puid, mimeType oder extension verwendet werden, um den Namen der Anwendung im PREMIS-Migrationsereignis anzugeben.

Dateiformate, die nicht aufgelistet werden (sei es mittels PUID, Mime-Type oder Dateiendung), werden nicht migriert.