Scanimage

Dieses Script holt ein ein- oder mehrseitiges Dokument vom Scanner und speichert es im Dokumentenverzeichnis (Die Personalien des Patienten als nachname_vorname_gebdat sind in $1, der Titel des Dokuments in $2): Ein am 28.4.2020 erfasstes Dokument mit dem Titel “Lungenfunktion” beim Patienten Armeswesen Testperson, 22.4.1952 würde gespeichert als: /mnt/berichte/t/Testperson_Armeswesen_22.04.1952/2020-04-28_Lungenfunktion.pdf

Dieses Script läuft nur auf Linux und braucht Sane, ImageMagick, Tesseract, tesseract-deutsch. Es kann verwendet werden, um Dokumente für Lucinda/Solr einzuscannen und mit OCR durchsuchbar zu machen. Das Dokumenten-Verzeichnis muss in diesem Beispiel unter /mnt/berichte gemountet sein.

  #! /bin/bash
  # Usage: ./scan.sh <directory> <filename>
  # Das Verzeichnis des Servers muss bereits gemounted sein.

  # Erstelle einen Unterverzeichnisnamen aus dem ersten Buchstaben des
  # Verzeichnisnames: Testperson_Armeswesen -> T/Testperson_Armeswesen
  name=$1
  subdir=`echo "$name" | cut -c1-1`

  # Stelle das aktuelle Datum als yyyy-mm-dd dem Dateinamen voran
  fdate=`date '+%Y-%m-%d'`
  fname=${fdate}_$2.pdf

  dest=/mnt/berichte/$subdir/$1

  echo scanne nach ${dest}

  # Sicherstellen, dass wir uns in einem leeren Verzeichnis befinden.
  rm -rf scandir
  mkdir scandir
  cd scandir

  # Die Optionen sind scannerspezifisch. Wir holen eine bis "beliebig" viele
  # Seiten vom Document Feeder, scannen sie doppelseitig und speichern sie
  # als out?.tif -Dateien
  scanimage --source="ADF Duplex" --batch --format=tiff

  # Alle Seiten zu einer einzelnen tiff-Datei zusammenhängen
  convert \*.tif composite.tiff

  # Das OCR-Programm mit Voreinstellung "deutsch" laufen lassen
  tesseract -l deu composite.tiff output pdf

  # Die erstellte PDF Datei ins Dokumenten-Verzeichnis verschieben.
  mkdir -p ${dest}
  mv output.pdf ${dest}/${fname}