Dieses Script holt ein ein- oder mehrseitiges Dokument vom Scanner und speichert es im Dokumentenverzeichnis
(Die Personalien des Patienten als nachname_vorname_gebdat sind in $1, der Titel des Dokuments in $2):
Ein am 28.4.2020 erfasstes Dokument mit dem Titel “Lungenfunktion” beim Patienten Armeswesen Testperson, 22.4.1952 würde gespeichert als:
/mnt/berichte/t/Testperson_Armeswesen_22.04.1952/2020-04-28_Lungenfunktion.pdf
Dieses Script läuft nur auf Linux und braucht Sane, ImageMagick, Tesseract, tesseract-deutsch. Es kann verwendet werden, um Dokumente für Lucinda/Solr einzuscannen und mit OCR durchsuchbar zu machen. Das Dokumenten-Verzeichnis muss in diesem Beispiel unter /mnt/berichte gemountet sein.
#! /bin/bash
# Usage: ./scan.sh <directory> <filename>
# Das Verzeichnis des Servers muss bereits gemounted sein.
# Erstelle einen Unterverzeichnisnamen aus dem ersten Buchstaben des
# Verzeichnisnames: Testperson_Armeswesen -> T/Testperson_Armeswesen
name=$1
subdir=`echo "$name" | cut -c1-1`
# Stelle das aktuelle Datum als yyyy-mm-dd dem Dateinamen voran
fdate=`date '+%Y-%m-%d'`
fname=${fdate}_$2.pdf
dest=/mnt/berichte/$subdir/$1
echo scanne nach ${dest}
# Sicherstellen, dass wir uns in einem leeren Verzeichnis befinden.
rm -rf scandir
mkdir scandir
cd scandir
# Die Optionen sind scannerspezifisch. Wir holen eine bis "beliebig" viele
# Seiten vom Document Feeder, scannen sie doppelseitig und speichern sie
# als out?.tif -Dateien
scanimage --source="ADF Duplex" --batch --format=tiff
# Alle Seiten zu einer einzelnen tiff-Datei zusammenhängen
convert \*.tif composite.tiff
# Das OCR-Programm mit Voreinstellung "deutsch" laufen lassen
tesseract -l deu composite.tiff output pdf
# Die erstellte PDF Datei ins Dokumenten-Verzeichnis verschieben.
mkdir -p ${dest}
mv output.pdf ${dest}/${fname}