Allgemein, Digitalisierung

Digitalisierung von Dokumenten – Scan, OCR Texterkennung, Indexierung, Indizierung…

Gegenüberstellung von zwei hohen Aktenstapeln gegenüber dem kleinen Laptop mit PDF-Symbol

Was ist Digitalisierung – und ist digitalisiert schon digital genug?

 

Bereits das Fotografieren eines handgeschriebenen Textes stellt eine Digitalisierung dar – sofern dies mit einer Digitalkamera geschieht!
Nun ist der Grundstein gelegt, um mit diesen digitalen Bildinhalten weiterzuarbeiten. Für manche Anwendung mag diese Art der Digitalisierung schon ein Gewinn sein. Etwa um den lesbaren Text auf dem Smartphone bei sich zu haben, während das (analoge) Original tatsächlich weit entfernt auf dem Schreibtisch liegt.
Für Andere beginnt echte Digitalisierung erst beim Scan von hundert oder gar Tausenden von Papier-Akten. Wenn darauf hin eine automatische Texterkennung vorgenommen wurde und das Einpflegen in Datenbanken und Bereitstellen auf Servern erfolgte. Durch diese Schritte ist überhaupt erst das Vernichten von staubigen „Papier-Altlasten“ in den Archiven ermöglicht, was oftmals das gesteckte Ziel der meisten Firmen ist.
Dies ist Digitalisierung im großen Maßstab – die Umwandlung von analogen Daten/Akten zu digitalen Datensätzen und Datenbanken.

Dokumente,-Akten-und-Ordner-scannen

Die Grundlagen und Möglichkeiten einer Digitalisierung

Ein gescanntes und somit digitalisiertes Dokument bringt schon grundlegende Vorteile mit sich. Schließlich lässt die Datei sich nun versenden, kopieren, digital weiter bearbeiten…

Doch wandelt man die grundlegende Raster-Grafik eines gescannten Text-Dokuments, welche nur durch den Menschen lesbar sind, auch per OCR-Texterkennung in digital lesbare und als Text verarbeitbare Zeichen um, erhält man noch viel mehr Möglichkeiten:

exemplarische Vergrößerung eines Text-Scans mit sichtbaren Bildpunkten
Gescannter Text; Auch Schrift wird durch Rasterpunkte dargestellt.
exemplarische Vergrößerung eines Dokumentenscans mit markierbarer Schrift
Erst nach der Text-Erkennung ist Text digital(!) lesbar/zu verarbeiten.

OCR Text-Erkennung/Umwandlung

Gescannte Texte (ohne OCR-Funktion!) sind auf Basis der Rastergrafik weiterhin nur durch den menschlichen Anwender lesbar – ob anhand der Darstellung am Monitor oder nach dem Ausdrucken auf Papier.

Den nächsten Arbeitsschritt der Digitalisierung vorausgesetzt, können Texte erst nach der folgenden Durchführung digital weiter bearbeitet werden:
Das merkt der Anwender zum Beispiel daran, wenn er den Text einer geöffneten Pdf-Datei vor sich hat, aber keine Textabschnitte mit dem Maus-Cursor markieren kann. Dann hat er es mit der digitalen, gerasterten Darstellung von Text zu tun. Erst nach der Texterkennung /OCR-Umwandlung liegt auf digitaler Basis tatsächlich ein Text in Form digitaler Schriftzeichen vor. So kann dieser auch auf Text-Basis weiter verarbeitet, etwa markiert, heraus kopiert, digital durchsucht oder gar inhaltlich geändert werden – vorausgesetzt die Dateien sind für diesen Zweck vorgesehen und nicht etwa durch weitere Einstellungen in Dokument oder Software eingeschränkt.
Nun liegen die digitalisierten Texte nicht mehr nur visuell vor, sondern stellen nutzbare Inhalte für Datenbanken und digitale Archive / DMS (Dokumenten-Management-Systeme) dar.

Weitere Möglichkeiten im Umgang mit digitalen Daten

Digitalisierte Daten lassen sich zusammenfügen, miteinander verknüpfen und deren Inhalte indizieren. Die Zugehörigkeit von Dateien, Akten und Ordnern lässt sich durch das Hinzufügen von Suchkriterien (Indizes) auch in digitaler Form darstellen und filtern.
Verweise auf andere Medien oder auch Server sind möglich.
Das lästige Aufsuchen des Archivs, Blättern in Akten, Ordnern und Dokumenten, um die gewünschten Zeilen zu finden, ist nicht mehr nötig. Wenn die digitalisierten und zentral zugänglichen Inhalte zusätzlich indexiert wurden, haben alle Bearbeiter über eine einheitliche Suchmaske schnellen und effektiven Zugriff auf die relevanten Suchergebnisse. Dies geschieht meist auf separaten Servern mit verknüpften Datenbanken und der Verwendung eines DMS (Dokumenten-Management-System).

Scan_Dokumentenscan_Textbild

Scanservice & Digitalisierung

Wir scannen und digitalisieren Ihre Dokumente, Pläne, Akten, Ordner und Archive.

Großformat Scanservice

Scannen Sie Ihre großen CAD-Pläne, Zeichnungen, Drucke und Grafiken in bester Qualität und Farbtreue.

Bilder & Fotos einscannen

Wir scannen und digitalisieren Ihre Bilder, Fotos, Plakate und Zeichnungen.

Scanservice für einzelne Bilder, Dokumente, Akten und Ordner

Als ISO-9001 zertifizierter Dienstleister bieten wir Ihnen Scan-Lösungen für alle gängigen Formate und Vorlagen.

Negative & Dia Scanservice

Schützen Sie Ihre wertvollen Bilder und Erinnerungen und digitalisieren Sie Ihre alten Dias

Glossar –  Begriffe rund um die „Digitalisierung“

Bei der Digitalisierung werden analog vorliegende Informationen in digitale Daten (Bits und Bytes, gesammelt in Dateien und Verzeichnissen) umgewandelt.

Beispiel:
Eine handschriftliche Notiz auf einem Block wird mittels Tinte auf das Papier aufgetragen. Die Information wird vom (menschlichen) Leser erfasst und verarbeitet.
Soll diese Information auf elektronischem Weg (etwa per e-Mail) an andere weitergeleitet oder digital verarbeitet werden (Drucker, Kopierer), muss zunächst eine Digitalisierung stattfinden.
Handelt es sich um kurzen Text, kann das Abschreiben schneller sein. Der Anwender tippt die Notizen ab, digitalisiert die Information also seinerseits manuell.
Schon bei einer Skizze kann man damit scheitern, spätestens jedoch bei Grafiken und farbigen Fotos.
Scanner, Kopierer und digitale Kameras wandeln die analoge Vorlage in elektronische Informationen um. Eine Datei beinhaltet die grafischen Informationen der Vorlage in Form einer Rastergrafik.
Ein weiterer Schritt ist die Erkennung von Schrift und Umwandlung in digitale Texte (siehe „OCR/ Texterkennung“)
Erst durch die OCR-Texterkennung ist die digitale Bearbeitung, das Suchen von bestimmten Worten oder Werten (siehe auch „Indizierung“), Kopieren und das Bearbeiten (Editieren) möglich, was das Ziel der meisten Digitalisierungen sein dürfte.

Die Abkürzung  DMS steht für „Dokumenten-Management-System“.
Auf einer Datenbank werden digitale Dokumente verwaltet, um diese in papierloser Form bereitzuhalten.

Eine besondere Stärke von DMS Datenbanken ist die Indexierung von Suchbegriffen, welche eine schnelle Suchanfrage über eine eigene Suchmaske ermöglicht. Ein Dokumentenmanagement-System behält vielmehr die Übersicht über verknüpfte Inhalte, weniger die Bereitstellung der einzelnen Dateien.

Zur Erfassung von Inhalten wird ein Index (Übersicht/Verzeichnis/Register) erstellt.
Im Index werden Daten(-Sätze) als Quellen aufgelistet und zugeordnet.
Je nach System und Verwendung werden die Verweise unterschiedlich sortiert, etwa nach Relevanz auf- oder abgewertet.

Gescannte und somit digitalisierte Inhalte werden in Dateien gespeichert. Für einen Indizierung (auch: „Verschlagwortung“) werden zusätzlich relevante Suchkriterien in der Datei abgespeichert. Solche Suchbegriffe (Indizes) können z.B. Aktenzeichen, Beleg-/ Kunden-Nummer etc. sein.
Bei Suchaufträgen sorgen diese Verknüpfungen zu schnellen und effektiven Ergebnissen.

Abkürzung für  OCR – engl.: „optical character recognition
Übersetzt: „Automatisierte Textzeichen-Erkennung“ – und die Funktion betrachtet, ist es eigentlich auch eine „-Umwandlung“.
Gescannte Dokumente liegen zunächst als Rastergrafik vor (basierend auf Bildpunkte/Bildpixel).
Durch die Software (bzw. ein OCR- Modul/Werkzeug) werden Pixel-Anordnungen als Textzeichen erkannt und umgewandelt.
Als tatsächlicher Text werden die Inhalte in Form von digitalen Schriftzeichen dargestellt und im Dokument als Text gespeichert.
Erkennbar sind tatsächliche Text-Inhalte daran, dass sie sich markieren und z.B. in die Zwischenablage kopieren oder gar ändern (editieren) lassen  (abhängig von verwendeter Software oder ggf. einschränkenden Einstellungen des Dokuments).

siehe auch „Texterkennung

Pdf-Dokumente entsprechen der Verpackung (Container) von Datei-Inhalten, welche sowohl Texte als auch Fotos beinhalten können. Um diese Inhalte auf mehren Rechnern und unterschiedlichen System einheitlich darzustellen, wurden unterschiedliche Standards festgelegt und mit der Zeit ergänzt.

Die gängigsten Pdf-Standards:

Pdf-A Standard [archive] – Standard für dauerhafte, rechtssichere Archivierung
Pdf-X Standard [eXchange] – Standard für kompatiblen Austausch von Druckdaten
Pdf-R Standard [Raster] – Standard für Rasterbilder (gescannte Fotos/Dokumente)
Pdf-UA Standard [universal accessibility] – Standard für barrierefreie Wiedergabe von Inhalten

In der vergrößerten Darstellung der Rastergrafik werden Kanten ’stufig‘, das Gesamtbild ‚pixelig‘.

Die digitale Darstellung einer Grafik oder eines Fotos wird anhand von Bildpunkten definiert. Diese werden am Monitor oder im Ausdruck auf einem Drucker wiedergegeben. Während jeder einzelne Punkt durch Helligkeit/Farbe und Position definiert wird, ergibt sich in der Summe ein Gesamtbild. Ein wichtiger Aspekt der Rastergrafik ist die Auflösung der Bildpunkte. Die Auflösung bzw. Größe des grundlegenden Rasters (z.B. bei einem Mosaik ist es die Größe der einzelnen Kacheln) bestimmt die mögliche Darstellung von Details im Bild.

Während Rastergrafik z.B. bei dem Foto einer Landschaft, mit all den unterschiedlichen Bildinhalten, Formen und Farben „Punkt für Punkt“ definiert, wird in der Vektorgrafik mit möglichst wenig Daten die Darstellung einer Grafik umgesetzt.

Gescannte Dokumente liegen zunächst in Rastergrafik vor. In einer solchen Datei werden die Inhalte visuell, auf Basis der „Bild-Raster“ wiedergegeben.
Wird ein solches Dokument durch die Software auf einem Bildschirm angezeigt oder ausgedruckt, ist es für den menschlichen Anwender wieder lesbar.
Nicht aber kann der Textinhalt digital (von Computeranwendungen) weiter verarbeitet werden (wie etwa Texte per Suche finden, heraus kopieren oder ändern).
Für diesen Arbeitsschritt muss zunächst eine Text-Erkennung /OCR (genaugenommen ist es eine Text-Umwandlung) stattfinden.
Dies kann je nach Gerät und verwendeten Einstellungen schon mit dem tatsächlichen Scan-Prozess geschehen, oder durch entsprechende Software nachgeholt werden.

Mehr zur verwendeten Anwendung, siehe „OCR

Vergrößerung einer Grafik mit sauberen Kanten

in der vergrößerten Darstellung der Vektorgrafik bleiben die Kanten sauber

Vektorgrafik basiert auf eine Darstellung durch einfache Formen wie Kreise, Dreiecke oder Kurven. Ein Kreis wird z.B. durch die Position des Mittelpunkts und Bestimmung des Radius definiert. Zusätzlich kann ggf. die Stärke der Kontur und/oder eine Farbe zur Füllung innerhalb der Außenkontur definiert werden.
Eine besondere Stärke der Vektorgrafik liegt in der Skalierbarkeit von dargestellten Symbole bzw. Grafiken. Während bei der Rastergrafik deutlich unschön Kanten und ‚aufgeblasene Pixel‘ sichtbar werden, bleiben die sauberen Kanten einer Vektorgrafik erhalten.

Vektorgrafik ist mit dieser Eigenschaft besonders für reduzierte, grafische Inhalte wie Symbole, Schriftzeichen oder etwa Logos geeignet. Die Stärke der Rastergrafik hingegen liegt bei der Wiedergabe von vielen Details, was etwa Farbtöne, Farbverläufe sowie Schattierungen in einem Foto betrifft.

Gegenüberstellung verpixelter Raster- zu Vektorgrafik

Gerasterte Texte und Grafiken werden in Vektoren/digitalen Text umgewandelt, werden so editierbar, skalierbar und kompatibler für Weiterverarbeitungen.

Die Vektorisierung beschreibt das Umwandeln digitaler Inhalte von Rastergrafik in Vektorgrafik.
Vektorgrafik setzt sich aus den Informationen von möglichst einfachen Formen zusammen. Eine Linie würde beispielsweise durch die Position von Start- und End-Punkt definiert werden. Das Aussehen der Line zwischen diesen beiden Punkten würde mit Variablen wie Farbe und Strichstärke definiert werden. Aus all diesen Werten wird die Darstellung berechnet.
Die wichtigste Eigenschaft einer Vektorgrafik ist, dass sich solche Bildelemente mit einem sauberen Ergebnis besser vergrößern/skalieren lassen. Auch können Vektor-Dateien an digitalen Maschinen wie Schneideplotter, CNC-Fräse oder Laser verarbeitet werden, um entsprechende Formen äußerst exakt und schnell herzustellen.

Eine Akten-Vernichtung/-Entsorgung ist mit dem bloßen Einfüllen in Abfall-Container nicht erledigt.
Zugriff und Einblick von Fremden/Unbefugten in die Unterlagen muss ausgeschlossen sein. Je nach Art der Daten kann eine Aktenvernichtung nach Bundesdatenschutzgesetz (BDSG) gemäß DIN 66399 von großer Wichtigkeit sein. In mehreren Schutzklassen sind entsprechend nötige Vorkehrungen und Vorgaben für Aufbewahrung, Transport und Vernichtung definiert.