Migration de fichiers
Les règles relatives aux migrations de format et les outils à utiliser à cet effet sont définis dans le fichier migration-config.xml. Il est utilisé dans l'étape Ingestion : migrer les fichiers.
<?xml version="1.0" encoding="UTF-8"?>
<config>
<application id="1"
name="ImageMagick"
executable="D:\docuteam\apps\ImageMagick\convert.exe"
parameter="-compress#none#{[arg1]}#{[arg2]}" />
...
</config>
Dans cet exemple, l'application ImageMagick est définie comme application numéro 1.
Il est également spécifié que le programme convert.exe doit être exécuté, qui se trouve dans le dossier D:\docuteam\apps\ImageMagick.
Les paramètres -compress#none#{[arg1]}#{[arg2]} sont transmis à l'appel du programme, où {[arg1]} est remplacé par le fichier source et {[arg2]} par le fichier cible.
La seconde partie du fichier migration-config.xml contient les instructions de migrations de format.
<puid name="fmt/41"
applicationID="1"
targetExtension="tif"
targetPronom="fmt/353" />
L'exemple définit que les fichiers avec un PUID (identifiant unique persistant de PRONOM) fmt/41 (Raw JPEG Stream) doivent être convertis en fichiers avec un PUID fmt/353 (Tagged Image File Format).
L'application définie ci-dessus avec le numéro d'application 1 (ici ImageMagick) doit être utilisée.
Outre la spécification d'un PUID, les types MIME et les extensions de fichiers peuvent également être spécifiés. La migration de format selon le PUID est prioritaire. Si celle-ci échoue, la deuxième priorité consiste à essayer d'effectuer la migration selon le type MIME. Si cela échoue également, l'extension du fichier est prise en compte :
<puid name="fmt/41"
applicationID="1"
targetExtension="tif"
targetPronom="fmt/353" />
<mimeType name="image/jpeg"
applicationID="1"
targetExtension="tif"
targetPronom="fmt/353" />
<extension name="jpg"
applicationID="1"
targetExtension="tif"
targetPronom="fmt/353" />
Il est possible de convertir un document en plusieurs étapes :
<extension name="msg" premisConverterName="Outlook msg extraction and attachments normalization">
<step applicationID="9" copy="1"/>
<step applicationID="100" excludeExtensions="msg" excludeMimeTypes="application/vnd.ms-outlook"/>
<step applicationID="10" includeExtensions="msg" targetExtension="eml" copy="1"/>
</extension>
Dans l'exemple ci-dessus, nous extrayons d'abord les pièces jointes du message électronique à l'aide de MsgAttachmentsExtractor, tout en conservant une copie du fichier original (via l'option copy="1"). Dans la deuxième étape, nous convertissons les pièces jointes extraites en appelant FileConverter, ce qui applique toutes les règles de migration définies. Nous choisissons d'exclure le fichier de message électronique d'origine afin d'éviter une récursion infinie. Enfin, nous convertissons le fichier MSG au format EML à l'aide d'une application externe.
Dans la configuration suivante, nous utilisons les étapes multiples pour extraire d'abord le contenu d'un conteneur ZIP, puis migrer les fichiers qu'il contient.
<extension name="zip">
<step applicationID="9" />
<step applicationID="100" />
</extension>
Les attributs suivants peuvent être utilisés pour configurer le comportement multi-étapes :
| Attribute | Description |
|---|---|
| includeExtensions | Ne prend en compte que les fichiers ayant la liste d'extensions spécifiée pour cette étape. |
| includeMimeTypes | Ne prend en compte que les fichiers ayant la liste de types MIME spécifiée pour cette étape. |
| includePuids | Ne prend en compte que les fichiers ayant la liste de PUID spécifiée pour cette étape. |
| excludeExtensions | Ne prend pas en compte les fichiers ayant la liste d'extensions spécifiée pour cette étape. |
| excludeMimeTypes | Ne prend pas en compte les fichiers ayant la liste de types MIME spécifiée pour cette étape. |
| excludePuids | Ne prend pas en compte les fichiers ayant la liste de PUID spécifiée pour cette étape. |
| copy | Si cette valeur est définie auf 1, le fichier d'origine sera copié vers la destination. Cette option doit être utilisée si une autre étape de migration est prévue ultérieurement. Par exemple, une première étape consiste à extraire les pièces jointes d'un e-mail MSG, et la suivante à migrer ce fichier MSG au format EML. Il n'est pas recommandé d'utiliser cette option uniquement pour conserver la copie d'origine ; utilisez plutôt l'option keepOriginals du SIPFileMigrator. |
L'attribut premisConverterName peut être utilisé sur les balises PUID, MIME type ou extension pour spécifier le nom de l'application dans l'événement de migration PREMIS.
Les formats de fichiers qui ne sont pas répertoriés (que ce soit par PUID, type MIME ou extension de fichier) ne sont pas migrés.