Mac-Tipp: PDFScanner

Nachträgliches OCR bei bestehenden PDFs

PDFs nachträglich «OCR-len»

Doch auch Ihr bestehendes Archiv können Sie mit OCR behandeln, um es durchsuchbar zu machen. Wählen Sie dazu im Menü «PDFScanner» den Befehl «Prefences». Markieren Sie die Option «Automatically start OCR when …» und wählen Sie auch hier die gewünschte Sprache. Im Gegensatz zu den teuren Lösungen kann immer nur eine Sprache aktiv sein, aber das reicht in vielen Haushalten:
Das sind die Einstellungen, um ein PDF nachträglich einer OCR-Behandlung zu unterziehen
Quelle: Screenshot / ze
Wenn Sie jetzt ein PDF auf das Symbol von PDFScanner ziehen, wird der Text erkannt. Sie können die Einstellung aber auch ignorieren und ganz einfach im Menü «Edit» den Befehl «Recognize Text (OCR)» anwählen. Vergessen Sie nicht, das PDF anschliessend zu sichern.

Batch-Verarbeitung

Und wenn Sie 2000 PDFs hüten, deren Texte Sie erkennen möchten? Dann verwenden Sie die Software «Automator», die sich im «Programme»-Ordner auf Ihrem Mac befindet, um PDFScanner anzuschieben.
Erstellen Sie einen neuen Ablauf. Geben Sie im Suchfeld ganz oben «PDFScanner» ein (1) und doppelklicken Sie den einzigen verbleibenden Eintrag. (2) Jetzt können Sie auf der rechten Seite die Parameter einstellen:
Die Einstellungen in Automator sind viel einfacher, als es aussieht
Quelle: Screenshot / ze
Die behandelten PDFs werden standardmässig neu gesichert, wobei am Schluss der Bezeichnung der Text «_ocr» angehängt wird. (3) Wenn Sie hingegen die Option «Save in place» aktivieren, (4) wird die bestehende PDF-Datei überschrieben.
Wenn alles passt, wählen Sie in Automator im Menü «Ablage» den Befehl «Sichern» und speichern den Ablauf als «Programm» an einem beliebigen Ort:
Abfolgen lassen sich als Programm speichern
Quelle: Screenshot / ze
Um nun ein oder mehrere PDFs zu behandeln, ziehen Sie die Symbole einfach auf diese kleine Anwendung. Allerdings werden Sie nichts sehen, der Vorgang läuft im Hintergrund ab. Wenn Sie die Datei nicht überschreiben, wird einfach nach ein paar Sekunden ein weiteres PDF mit dem Anhängsel «_ocr» auftauchen.

Gemach, gemach …

Zum Schluss noch ein Hinweis. Es gibt bestimmt schnellere OCR-Programme als PDFScanner, vor allem bei gut gefüllten Textseiten. Verwenden Sie die Batch-Verarbeitung, um jeweils ein Dutzend Dateien oder so zu behandeln, während Sie sich einen Kaffee holen. Dann funktioniert das ganz entspannt.




Das könnte Sie auch interessieren