Wie man einen OCR in Python baut
Die Welt ist überflutet mit riesigen Mengen an Textinformationen. Es gibt eine Fülle wertvoller Inhalte, die äußerst nützlich sein könnten, wenn sie nur ein bisschen zugänglicher wären.
Hier kommt die Technologie der optischen Zeichenerkennung (OCR) ins Spiel. Stellen Sie sich vor, ein Computer könnte Text aus Bildern 'lesen' wie ein Mensch, nur dass dies maschinelles Sehen ist, was einen Bereich der Informatik darstellt, in dem wir Computer darauf trainieren können, verschiedene Objekte in einem Bild zu erkennen und zu identifizieren.
In diesem Tutorial führen wir Sie durch den Prozess, Ihr eigenes OCR-System mit Python zu erstellen, einer Programmiersprache, die für ihre Einfachheit und Vielseitigkeit bekannt ist. Mit Hilfe von Bibliotheken wie Tesseract, IronOCR und OpenCV können Sie bald das Potenzial freischalten, Text aus Dokumentbildern zu extrahieren, zu bearbeiten und damit zu arbeiten.
Voraussetzungen für die OCR-Engine (Optische Zeichenerkennung)
Bevor wir in die Einzelheiten des Aufbaus unseres OCR-Systems eintauchen, gibt es ein paar Dinge, die Sie benötigen:
- Python: Stellen Sie sicher, dass Python auf Ihrem Computer installiert ist. Sie können es von der offiziellen Python-Website herunterladen.
- Installieren Sie Tesseract OCR: Tesseract OCR ist eine von Google entwickelte Open-Source-OCR-Engine. Es ist ein leistungsstarkes Werkzeug, das wir in unserem Projekt verwenden werden. Sie können die Tesseract-Bibliothek von GitHub herunterladen und sich über den Installationsprozess von Tesseract OCR informieren.
-
Python-Bibliotheken: Für dieses Projekt werden wir zwei wichtige Python-Bibliotheken verwenden:
pytesseractund dieopencv-pythonBibliothek. Sie können sie mit dem folgenden Befehl in Ihrer Befehlszeile oder Ihrem Terminal installieren:pip install pytesseract opencv-pythonpip install pytesseract opencv-pythonSHELL

Schritte zum Erstellen des OCR-Systems
Sie können OCR einfach mit Python-Code erstellen, indem Sie Python-OCR-Bibliotheken und ein einfaches Python-Skript verwenden.
Schritt 1: Bibliotheken importieren
Zuallererst müssen Sie die notwendigen Bibliotheken importieren:
import cv2 # OpenCV library for computer vision
import pytesseract # Tesseract library for OCR
import cv2 # OpenCV library for computer vision
import pytesseract # Tesseract library for OCR
Schritt 2: Ein Bild lesen und verarbeiten
Laden Sie das Bild mit OpenCV und bearbeiten Sie es vor, um die OCR-Genauigkeit zu verbessern:
# Load the image using OpenCV
image = cv2.imread('sample_image.png')
# Convert the image to grayscale
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
# Apply thresholding or other preprocessing techniques if needed
# This step helps in enhancing the quality for better OCR results
# Load the image using OpenCV
image = cv2.imread('sample_image.png')
# Convert the image to grayscale
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
# Apply thresholding or other preprocessing techniques if needed
# This step helps in enhancing the quality for better OCR results
Schritt 3: Verwenden Sie Tesseract für OCR
Jetzt ist es an der Zeit, die Tesseract-OCR-Engine zu verwenden, um OCR auf dem verarbeiteten Bild durchzuführen:
# Set the path to the Tesseract executable
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'
# Use pytesseract to perform OCR on the grayscale image
text = pytesseract.image_to_string(gray_image)
# Set the path to the Tesseract executable
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'
# Use pytesseract to perform OCR on the grayscale image
text = pytesseract.image_to_string(gray_image)
Schritt 4: Ergebnisse anzeigen
Wenn Sie das Originalbild und den extrahierten Text visualisieren möchten, können Sie OpenCV verwenden, um sie anzuzeigen:
# Display the original image using OpenCV
cv2.imshow('Original Image', image)
cv2.waitKey(0)
# Print the extracted text to the console
print("Extracted Text:", text)
cv2.destroyAllWindows() # Close the OpenCV window
# Display the original image using OpenCV
cv2.imshow('Original Image', image)
cv2.waitKey(0)
# Print the extracted text to the console
print("Extracted Text:", text)
cv2.destroyAllWindows() # Close the OpenCV window
Originalbild

Extrahierter Text

Wie Sie sehen können, können die Ergebnisse je nach Qualität und Komplexität des Bildes variieren, und in bestimmten Fällen könnte zusätzliches Training (ähnlich dem maschinellen Lernen) für Bilder mit komplexen Strukturen, wie z. B. Tabellen, erforderlich sein.
IronOCR
In einer mit Daten gesättigten Welt ist die Fähigkeit, gedruckten Text mühelos in maschinenlesbare Inhalte umzuwandeln, eine transformative Fähigkeit.
Treffen Sie IronOCR – eine Spitzentechnologie, die Entwickler dazu befähigt, leistungsstarke Funktionen zur optischen Zeichenerkennung (OCR) mit Leichtigkeit in ihre Anwendungen zu integrieren.
Egal, ob Sie Daten aus gescannten Dokumenten extrahieren, die Dateneingabe automatisieren oder die Barrierefreiheit verbessern, IronOCR bietet eine umfassende Lösung, die die Grenzen traditioneller Texterkennung überschreitet.
In dieser Erkundung tauchen wir in die Welt von IronOCR ein, decken seine vielseitigen Funktionen auf und beleuchten sein Potenzial, die Kluft zwischen der physischen und digitalen Welt zu überbrücken.
Installation von IronOCR
Sie können IronOCR einfach mit der NuGet-Paket-Manager-Konsole installieren, indem Sie einfach den folgenden Befehl ausführen.
Install-Package IronOcr
IronOCR ist auch zum Download auf der offiziellen NuGet-Website verfügbar.
Text extrahieren aus Bild mit IronOCR
In diesem Abschnitt werden wir sehen, wie Sie mit IronOCR einfach Text aus Bildern extrahieren können. Unten ist der Quellcode, der Text aus dem Bild extrahiert.
using IronOcr;
using System;
var ocr = new IronTesseract();
using (var input = new OcrInput())
{
input.AddImage("r3.png");
OcrResult result = ocr.Read(input);
string text = result.Text;
Console.WriteLine(result.Text);
}
using IronOcr;
using System;
var ocr = new IronTesseract();
using (var input = new OcrInput())
{
input.AddImage("r3.png");
OcrResult result = ocr.Read(input);
string text = result.Text;
Console.WriteLine(result.Text);
}
Imports IronOcr
Imports System
Private ocr = New IronTesseract()
Using input = New OcrInput()
input.AddImage("r3.png")
Dim result As OcrResult = ocr.Read(input)
Dim text As String = result.Text
Console.WriteLine(result.Text)
End Using
Ausgabe

Abschluss
In diesem Tutorial haben wir den Prozess des Aufbaus eines optischen Zeichenerkennungssystems (OCR) in Python erkundet und die Fähigkeit enthüllt, Text mühelos aus Bildern zu extrahieren.
Indem wir Bibliotheken wie Tesseract und OpenCV nutzen, haben wir wesentliche Schritte durchlaufen, von der Bildladung und -verarbeitung bis zur Verwendung der Tesseract-OCR-Engine zur Textextraktion.
Wir haben auch potenzielle Herausforderungen wie Genauigkeitsbeschränkungen angesprochen, die fortschrittliche Lösungen wie IronOCR zu bewältigen versuchen.
Ob Sie den DIY-Weg wählen oder ausgeklügelte Werkzeuge übernehmen, die Welt der OCR lockt mit dem Versprechen, Bilder in umsetzbaren Text zu verwandeln, die Dateneingabe zu optimieren und die Barrierefreiheit zu verstärken. Mit diesem neu gewonnenen Wissen sind Sie bereit, sich auf eine Reise zu begeben, die die visuelle und digitale Welt nahtlos verbindet.
Um mit IronOCR zu beginnen, besuchen Sie den folgenden Link. Um das gesamte Tutorial zum Extrahieren von Text aus Bildern zu sehen, besuchen Sie hier.
Wenn Sie IronOCR heute kostenlos ausprobieren möchten, sollten Sie sich für die von IronOCR angebotene Testversion anmelden, um alle seine Anwendungen und Potenziale in einer kommerziellen Umgebung ohne Wasserzeichen zu erkunden. Um es nach Ablauf der 15 Tage weiterhin zu nutzen, kaufen Sie einfach eine Lizenz.




