Zum Fußzeileninhalt springen
OCR-WERKZEUGE

Wie man einen OCR in Python baut

Die Welt ist überflutet mit riesigen Mengen an Textinformationen. Es gibt eine Fülle wertvoller Inhalte, die äußerst nützlich sein könnten, wenn sie nur ein bisschen zugänglicher wären.

Hier kommt die Technologie der optischen Zeichenerkennung (OCR) ins Spiel. Stellen Sie sich vor, ein Computer könnte Text aus Bildern 'lesen' wie ein Mensch, nur dass dies maschinelles Sehen ist, was einen Bereich der Informatik darstellt, in dem wir Computer darauf trainieren können, verschiedene Objekte in einem Bild zu erkennen und zu identifizieren.

In diesem Tutorial führen wir Sie durch den Prozess, Ihr eigenes OCR-System mit Python zu erstellen, einer Programmiersprache, die für ihre Einfachheit und Vielseitigkeit bekannt ist. Mit Hilfe von Bibliotheken wie Tesseract, IronOCR und OpenCV können Sie bald das Potenzial freischalten, Text aus Dokumentbildern zu extrahieren, zu bearbeiten und damit zu arbeiten.

Voraussetzungen für die OCR-Engine (Optische Zeichenerkennung)

Bevor wir in die Einzelheiten des Aufbaus unseres OCR-Systems eintauchen, gibt es ein paar Dinge, die Sie benötigen:

  1. Python: Stellen Sie sicher, dass Python auf Ihrem Computer installiert ist. Sie können es von der offiziellen Python-Website herunterladen.
  2. Installieren Sie Tesseract OCR: Tesseract OCR ist eine von Google entwickelte Open-Source-OCR-Engine. Es ist ein leistungsstarkes Werkzeug, das wir in unserem Projekt verwenden werden. Sie können die Tesseract-Bibliothek von GitHub herunterladen und sich über den Installationsprozess von Tesseract OCR informieren.
  3. Python-Bibliotheken: Wir verwenden für dieses Projekt zwei wichtige Python-Bibliotheken: pytesseract und die opencv-python-Bibliothek. Sie können sie mit dem folgenden Befehl in Ihrer Befehlszeile oder Ihrem Terminal installieren:

    pip install pytesseract opencv-python
    pip install pytesseract opencv-python
    SHELL

Wie man ein OCR in Python erstellt: Abbildung 1

Schritte zum Erstellen des OCR-Systems

Sie können OCR einfach mit Python-Code erstellen, indem Sie Python-OCR-Bibliotheken und ein einfaches Python-Skript verwenden.

Schritt 1: Bibliotheken importieren

Zuallererst müssen Sie die notwendigen Bibliotheken importieren:

import cv2  # OpenCV library for computer vision
import pytesseract  # Tesseract library for OCR
import cv2  # OpenCV library for computer vision
import pytesseract  # Tesseract library for OCR
PYTHON

Schritt 2: Ein Bild lesen und verarbeiten

Laden Sie das Bild mit OpenCV und bearbeiten Sie es vor, um die OCR-Genauigkeit zu verbessern:

# Load the image using OpenCV
image = cv2.imread('sample_image.png') 

# Convert the image to grayscale
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) 

# Apply thresholding or other preprocessing techniques if needed
# This step helps in enhancing the quality for better OCR results
# Load the image using OpenCV
image = cv2.imread('sample_image.png') 

# Convert the image to grayscale
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) 

# Apply thresholding or other preprocessing techniques if needed
# This step helps in enhancing the quality for better OCR results
PYTHON

Schritt 3: Verwenden Sie Tesseract für OCR

Jetzt ist es an der Zeit, die Tesseract-OCR-Engine zu verwenden, um OCR auf dem verarbeiteten Bild durchzuführen:

# Set the path to the Tesseract executable
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'

# Use pytesseract to perform OCR on the grayscale image
text = pytesseract.image_to_string(gray_image)
# Set the path to the Tesseract executable
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'

# Use pytesseract to perform OCR on the grayscale image
text = pytesseract.image_to_string(gray_image)
PYTHON

Schritt 4: Ergebnisse anzeigen

Wenn Sie das Originalbild und den extrahierten Text visualisieren möchten, können Sie OpenCV verwenden, um sie anzuzeigen:

# Display the original image using OpenCV
cv2.imshow('Original Image', image) 
cv2.waitKey(0) 

# Print the extracted text to the console
print("Extracted Text:", text) 

cv2.destroyAllWindows()  # Close the OpenCV window
# Display the original image using OpenCV
cv2.imshow('Original Image', image) 
cv2.waitKey(0) 

# Print the extracted text to the console
print("Extracted Text:", text) 

cv2.destroyAllWindows()  # Close the OpenCV window
PYTHON

Originalbild

Wie man ein OCR in Python erstellt: Abbildung 2

Extrahierter Text

Wie man ein OCR in Python erstellt: Abbildung 3

Wie Sie sehen können, können die Ergebnisse je nach Qualität und Komplexität des Bildes variieren, und in bestimmten Fällen könnte zusätzliches Training (ähnlich dem maschinellen Lernen) für Bilder mit komplexen Strukturen, wie z. B. Tabellen, erforderlich sein.

IronOCR

In einer mit Daten gesättigten Welt ist die Fähigkeit, gedruckten Text mühelos in maschinenlesbare Inhalte umzuwandeln, eine transformative Fähigkeit.

Treffen Sie IronOCR – eine Spitzentechnologie, die Entwickler dazu befähigt, leistungsstarke Funktionen zur optischen Zeichenerkennung (OCR) mit Leichtigkeit in ihre Anwendungen zu integrieren.

Egal, ob Sie Daten aus gescannten Dokumenten extrahieren, die Dateneingabe automatisieren oder die Barrierefreiheit verbessern, IronOCR bietet eine umfassende Lösung, die die Grenzen traditioneller Texterkennung überschreitet.

In dieser Erkundung tauchen wir in die Welt von IronOCR ein, decken seine vielseitigen Funktionen auf und beleuchten sein Potenzial, die Kluft zwischen der physischen und digitalen Welt zu überbrücken.

Installation von IronOCR

Sie können IronOCR einfach mit der NuGet-Paket-Manager-Konsole installieren, indem Sie einfach den folgenden Befehl ausführen.

Install-Package IronOcr

IronOCR ist auch zum Download auf der offiziellen NuGet-Website verfügbar.

Text extrahieren aus Bild mit IronOCR

In diesem Abschnitt werden wir sehen, wie Sie mit IronOCR einfach Text aus Bildern extrahieren können. Unten ist der Quellcode, der Text aus dem Bild extrahiert.

using IronOcr;
using System;

var ocr = new IronTesseract();

using (var input = new OcrInput())
{
    input.AddImage("r3.png");
    OcrResult result = ocr.Read(input);
    string text = result.Text;
    Console.WriteLine(result.Text);
}
using IronOcr;
using System;

var ocr = new IronTesseract();

using (var input = new OcrInput())
{
    input.AddImage("r3.png");
    OcrResult result = ocr.Read(input);
    string text = result.Text;
    Console.WriteLine(result.Text);
}
Imports IronOcr
Imports System

Private ocr = New IronTesseract()

Using input = New OcrInput()
	input.AddImage("r3.png")
	Dim result As OcrResult = ocr.Read(input)
	Dim text As String = result.Text
	Console.WriteLine(result.Text)
End Using
$vbLabelText   $csharpLabel

Ausgabe

Wie man ein OCR in Python erstellt: Abbildung 4

Abschluss

In diesem Tutorial haben wir den Prozess des Aufbaus eines optischen Zeichenerkennungssystems (OCR) in Python erkundet und die Fähigkeit enthüllt, Text mühelos aus Bildern zu extrahieren.

Indem wir Bibliotheken wie Tesseract und OpenCV nutzen, haben wir wesentliche Schritte durchlaufen, von der Bildladung und -verarbeitung bis zur Verwendung der Tesseract-OCR-Engine zur Textextraktion.

Wir haben auch potenzielle Herausforderungen wie Genauigkeitsbeschränkungen angesprochen, die fortschrittliche Lösungen wie IronOCR zu bewältigen versuchen.

Ob Sie den DIY-Weg wählen oder ausgeklügelte Werkzeuge übernehmen, die Welt der OCR lockt mit dem Versprechen, Bilder in umsetzbaren Text zu verwandeln, die Dateneingabe zu optimieren und die Barrierefreiheit zu verstärken. Mit diesem neu gewonnenen Wissen sind Sie bereit, sich auf eine Reise zu begeben, die die visuelle und digitale Welt nahtlos verbindet.

To get started with IronOCR visit the following link. Um das gesamte Tutorial zum Extrahieren von Text aus Bildern zu sehen, besuchen Sie hier.

Wenn Sie IronOCR heute kostenlos ausprobieren möchten, sollten Sie sich für die von IronOCR angebotene Testversion anmelden, um alle seine Anwendungen und Potenziale in einer kommerziellen Umgebung ohne Wasserzeichen zu erkunden. Um es nach Ablauf der 15 Tage weiterhin zu nutzen, kaufen Sie einfach eine Lizenz.

Kannaopat Udonpant
Software Ingenieur
Bevor er Software-Ingenieur wurde, absolvierte Kannapat ein PhD in Umweltressourcen an der Hokkaido University in Japan. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Fakultät für Bioproduktionstechnik ist. Im Jahr 2022 nutzte er seine C#-Kenntnisse, um dem Engineering-Team von Iron Software ...
Weiterlesen