OCR-WERKZEUGE

Wie man eine OCR in Python erstellt

Veröffentlicht 22. November 2023
Teilen Sie:

Die Welt ist überschwemmt von riesigen Mengen an Textinformationen. Von gedruckten Dokumenten bis hin zu handschriftlichen Notizen gibt es eine Fülle wertvoller Inhalte, die ungemein nützlich sein könnten, wenn sie nur etwas leichter zugänglich wären.

Hier ist die optische Zeichenerkennung (OCR) technologie ins Spiel kommt. Stellen Sie sich einen Computer vor, der in der Lage ist, Text aus Bildern zu "lesen", so wie es ein Mensch tut, nur dass es sich dabei um Computer Vision handelt, einen Teilbereich der Informatik, in dem wir Computer darauf trainieren können, verschiedene Objekte in einem Bild zu erkennen und zu identifizieren.

In diesem Lernprogramm führen wir Sie durch den Prozess der Erstellung eines eigenen OCR-Systems mit Python, einer Programmiersprache, die für ihre Einfachheit und Vielseitigkeit bekannt ist. Mit Hilfe von Bibliotheken wie Tesseract, IronOCRund OpenCV werden Sie bald in der Lage sein, das Potenzial des Extrahierens, Manipulierens und Arbeitens mit Text aus Dokumentenbildern zu erschließen.

Voraussetzungen für die OCR-Engine (optische Zeichenerkennung)

Bevor wir in die Feinheiten des OCR-Systems eintauchen, benötigen Sie einige Dinge:

  1. Python: Stellen Sie sicher, dass Sie Python auf Ihrem Computer installiert haben. Sie können es von der Website offizielle Python-Website.

  2. Installieren Sie Tesseract OCR: Tesseract OCR ist eine von Google entwickelte Open-Source-OCR-Engine. Es ist ein leistungsfähiges Werkzeug, das wir in unserem Projekt verwenden werden. Sie können die Tesseract-Bibliothek herunterladen von GitHub und lesen Sie über den Installationsprozess von Tesseract OCR.

  3. Python-Bibliotheken: Für dieses Projekt werden wir zwei wichtige Python-Bibliotheken verwenden: pytesseract und opencv. Sie können sie mit den folgenden Befehlen in Ihrer Befehlszeile oder Ihrem Terminal installieren:
    :InstallCmd  pip install pytesseract opencv-python

Wie man eine OCR in Python erstellt: Abbildung 1

Schritte zum Aufbau des OCR-Systems

Mit Hilfe der Python OCR-Bibliotheken und einem einfachen Python-Skript können Sie OCR mit Python-Code leicht erstellen.

Schritt 1 Bibliotheken importieren

Als Erstes müssen Sie die erforderlichen Bibliotheken importieren:

import cv2 
import pytesseract
PYTHON

Schritt 2 Einlesen und Verarbeiten eines Bildes

Laden Sie das Bild mit OpenCV und verarbeiten Sie es vor, um die OCR-Genauigkeit zu verbessern:

# Load the image using OpenCV 
image = cv2.imread('sample_image.png') 
# Convert the image to grayscale 
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) 
# Apply thresholding or other preprocessing techniques if needed
PYTHON

Schritt 3: Tesseract für OCR verwenden

Nun ist es an der Zeit, die OCR-Engine von Tesseract zu verwenden, um das verarbeitete Bild mit OCR zu versehen:

# Use pytesseract to perform OCR on the grayscale image 
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'
text = pytesseract.image_to_string(gray_image) 
PYTHON

Schritt 4: Ergebnisse anzeigen

Wenn Sie das Originalbild und den extrahierten Text visualisieren möchten, können Sie OpenCV verwenden, um sie anzuzeigen:

# Display the original image 
cv2.imshow('Original Image', image) 
cv2.waitKey(0) 
# Display the extracted text
    print("Extracted Text:", text) 
cv2.waitKey(0) 
cv2.destroyAllWindows()
PYTHON

Originalbild

Wie man eine OCR in Python erstellt: Abbildung 2

Extrahierter Text

Wie man eine OCR in Python erstellt: Abbildung 3

Wie Sie sehen können, ist das Ergebnis zu schlecht, weil wir es trainieren müssen (wie wir maschinelles Lernen trainieren) bevor Sie damit OCR durchführen, um Textbilder zu extrahieren, die Tabellen enthalten.

IronOCR

In einer Welt, die von Daten überschwemmt wird, ist die Fähigkeit, gedruckten oder handgeschriebenen Text mühelos in maschinenlesbare Inhalte umzuwandeln, eine transformative Fähigkeit.

Eingabe IronOCR - eine hochmoderne Technologie, die es Entwicklern ermöglicht, eine robuste optische Zeichenerkennung zu integrieren (OCR) funktionen problemlos in ihre Anwendungen integrieren.

Ganz gleich, ob Sie Daten aus gescannten Dokumenten extrahieren, die Dateneingabe automatisieren oder die Barrierefreiheit verbessern möchten - IronOCR bietet eine umfassende Lösung, die die Grenzen der herkömmlichen Texterkennung überschreitet.

In dieser Untersuchung tauchen wir in die Welt von IronOCR ein, decken seine vielseitigen Funktionen auf und zeigen sein Potenzial auf, die Kluft zwischen der physischen und der digitalen Welt zu überbrücken.

Installation von IronOCR

Sie können IronOCR ganz einfach über die NuGet Package Manager Konsole installieren, indem Sie den folgenden Befehl ausführen.

Install-Package IronOcr

IronOCR kann auch von der folgenden Website heruntergeladen werden offizielle NuGet-Website.

Extrahieren von Text aus einem Bild mit IronOCR

In diesem Abschnitt sehen wir uns an, wie Sie mit IronOCR ganz einfach Text aus Bildern extrahieren können. Nachfolgend finden Sie den Quellcode, der den Text aus dem Bild extrahiert.

using IronOcr;
using System;
var ocr = new IronTesseract();
using (var input = new OcrInput())
{
    input.AddImage("r3.png");
    OcrResult result = ocr.Read(input);
    string text = result.Text;
    Console.WriteLine(result.Text);
}
using IronOcr;
using System;
var ocr = new IronTesseract();
using (var input = new OcrInput())
{
    input.AddImage("r3.png");
    OcrResult result = ocr.Read(input);
    string text = result.Text;
    Console.WriteLine(result.Text);
}
Imports IronOcr
Imports System
Private ocr = New IronTesseract()
Using input = New OcrInput()
	input.AddImage("r3.png")
	Dim result As OcrResult = ocr.Read(input)
	Dim text As String = result.Text
	Console.WriteLine(result.Text)
End Using
VB   C#

Ausgabe

Wie man eine OCR in Python erstellt: Abbildung 4

Schlussfolgerung

In diesem Lernprogramm haben wir den Prozess der Erstellung einer Optical Character Recognition (OCR) system in Python, das es ermöglicht, mit bemerkenswerter Leichtigkeit Text aus Bildern zu extrahieren.

Durch den Einsatz von Bibliotheken wie Tesseract und OpenCV haben wir die wichtigsten Schritte durchlaufen, vom Laden und Vorverarbeiten von Bildern bis hin zur Verwendung der OCR-Engine von Tesseract für die Textextraktion.

Wir haben auch potenzielle Herausforderungen wie die eingeschränkte Genauigkeit angesprochen, die mit fortschrittlichen Lösungen wie IronOCR angegangen werden sollen.

Ganz gleich, ob Sie sich für den Selbstbau entscheiden oder hochentwickelte Tools einsetzen, die Welt der OCR lockt mit dem Versprechen, Bilder in verwertbaren Text zu verwandeln, die Dateneingabe zu rationalisieren und die Zugänglichkeit zu verbessern. Mit diesem neu erworbenen Wissen können Sie sich auf eine Reise begeben, die die visuelle und die digitale Welt nahtlos miteinander verbindet.

Für den Einstieg in die IronOCR besuchen Sie die folgenden link. Die gesamte Anleitung zum Extrahieren von Text aus Bildern finden Sie unter hier.

Wenn Sie IronOCR noch heute kostenlos testen möchten, sollten Sie sich für das versuch die IronOCR anbietet, um alle seine Einsatzmöglichkeiten und sein Potenzial in einer kommerziellen Umgebung ohne Wasserzeichen zu erkunden. Um es nach Ablauf der 15 Tage weiter zu nutzen, kaufen Sie einfach eine lizenz.

< PREVIOUS
Einscannen von Schrift in Text (Anleitung für Anfänger)
NÄCHSTES >
Scannen in bearbeitbaren Text in C#

Sind Sie bereit, loszulegen? Version: 2024.10 gerade veröffentlicht

Gratis NuGet-Download Downloads insgesamt: 2,561,036 Lizenzen anzeigen >