Die Welt ist überschwemmt von riesigen Mengen an Textinformationen. Es gibt eine Fülle wertvoller Inhalte, die immens nützlich sein könnten, wenn sie nur etwas zugänglicher wären.
Hier kommt die Optical Character Recognition (OCR)-Technologie ins Spiel. Stellen Sie sich einen Computer vor, der in der Lage ist, Text aus Bildern zu "lesen", so wie es ein Mensch tut, nur dass es sich dabei um Computer Vision handelt, einen Teilbereich der Informatik, in dem wir Computer darauf trainieren können, verschiedene Objekte in einem Bild zu erkennen und zu identifizieren.
In diesem Lernprogramm führen wir Sie durch den Prozess der Erstellung eines eigenen OCR-Systems mit Python, einer Programmiersprache, die für ihre Einfachheit und Vielseitigkeit bekannt ist. Mit Hilfe von Bibliotheken wie Tesseract, IronOCR und OpenCV werden Sie bald in der Lage sein, das Potenzial zur Extraktion, Bearbeitung und Verarbeitung von Text aus Dokumentenbildern freizusetzen.
Voraussetzungen für die OCR-Engine (optische Zeichenerkennung)
Bevor wir in die Feinheiten des OCR-Systems eintauchen, benötigen Sie einige Dinge:
Python: Stellen Sie sicher, dass Python auf Ihrem Computer installiert ist. Sie können es von der offiziellen Python-Website herunterladen.
Tesseract OCR installieren: Tesseract OCR ist eine von Google entwickelte Open-Source-OCR-Engine. Es ist ein leistungsfähiges Werkzeug, das wir in unserem Projekt verwenden werden. Sie können die Tesseract-Bibliothek von GitHub herunterladen und sich über den Installationsprozess von Tesseract OCR informieren.
Python-Bibliotheken: Wir werden zwei wichtige Python-Bibliotheken für dieses Projekt verwenden: die pytesseract- und die opencv-Bibliothek. Sie können sie mit den folgenden Befehlen in Ihrer Befehlszeile oder Ihrem Terminal installieren:
:InstallCmd pip install pytesseract opencv-python
Schritte zum Aufbau des OCR-Systems
Mit Hilfe der Python OCR-Bibliotheken und einem einfachen Python-Skript können Sie OCR mit Python-Code leicht erstellen.
Schritt 1 Bibliotheken importieren
Als Erstes müssen Sie die erforderlichen Bibliotheken importieren:
import cv2
import pytesseract
import cv2
import pytesseract
PYTHON
Schritt 2 Ein Bild lesen und verarbeiten
Laden Sie das Bild mit OpenCV und verarbeiten Sie es vor, um die OCR-Genauigkeit zu verbessern:
# Load the image using OpenCV
image = cv2.imread('sample_image.png')
# Convert the image to grayscale
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
# Apply thresholding or other preprocessing techniques if needed
# Load the image using OpenCV
image = cv2.imread('sample_image.png')
# Convert the image to grayscale
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
# Apply thresholding or other preprocessing techniques if needed
PYTHON
Schritt 3: Tesseract für OCR verwenden
Nun ist es an der Zeit, die OCR-Engine von Tesseract zu verwenden, um das verarbeitete Bild mit OCR zu versehen:
# Use pytesseract to perform OCR on the grayscale image
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'
text = pytesseract.image_to_string(gray_image)
# Use pytesseract to perform OCR on the grayscale image
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'
text = pytesseract.image_to_string(gray_image)
PYTHON
Schritt 4: Ergebnisse anzeigen
Wenn Sie das Originalbild und den extrahierten Text visualisieren möchten, können Sie OpenCV verwenden, um sie anzuzeigen:
# Display the original image
cv2.imshow('Original Image', image)
cv2.waitKey(0)
# Display the extracted text
print("Extracted Text:", text)
cv2.waitKey(0)
cv2.destroyAllWindows()
# Display the original image
cv2.imshow('Original Image', image)
cv2.waitKey(0)
# Display the extracted text
print("Extracted Text:", text)
cv2.waitKey(0)
cv2.destroyAllWindows()
PYTHON
Originalbild
Extrahierter Text
Wie Sie sehen können, ist das Ergebnis zu schlecht, da wir es trainieren müssen (wie wir maschinelles Lernen trainieren), bevor wir es verwenden, um OCR durchzuführen, um Textbilder zu extrahieren, die Tabellen enthalten.
IronOCR
In einer Welt, die von Daten überschwemmt ist, stellt die Fähigkeit, gedruckten Text mühelos in maschinenlesbaren Inhalt zu verwandeln, eine transformative Fähigkeit dar.
Geben Sie IronOCR ein – eine fortschrittliche Technologie, die Entwickler in die Lage versetzt, mühelos leistungsstarke Fähigkeiten zur optischen Zeichenerkennung (OCR) in ihre Anwendungen zu integrieren.
Ganz gleich, ob Sie Daten aus gescannten Dokumenten extrahieren, die Dateneingabe automatisieren oder die Barrierefreiheit verbessern möchten - IronOCR bietet eine umfassende Lösung, die die Grenzen der herkömmlichen Texterkennung überschreitet.
In dieser Untersuchung tauchen wir in die Welt von IronOCR ein, decken seine vielseitigen Funktionen auf und zeigen sein Potenzial auf, die Kluft zwischen der physischen und der digitalen Welt zu überbrücken.
Installation von IronOCR
Sie können IronOCR ganz einfach über die NuGet Package Manager Konsole installieren, indem Sie den folgenden Befehl ausführen.
In diesem Abschnitt sehen wir uns an, wie Sie mit IronOCR ganz einfach Text aus Bildern extrahieren können. Nachfolgend finden Sie den Quellcode, der den Text aus dem Bild extrahiert.
using IronOcr;
using System;
var ocr = new IronTesseract();
using (var input = new OcrInput())
{
input.AddImage("r3.png");
OcrResult result = ocr.Read(input);
string text = result.Text;
Console.WriteLine(result.Text);
}
using IronOcr;
using System;
var ocr = new IronTesseract();
using (var input = new OcrInput())
{
input.AddImage("r3.png");
OcrResult result = ocr.Read(input);
string text = result.Text;
Console.WriteLine(result.Text);
}
Imports IronOcr
Imports System
Private ocr = New IronTesseract()
Using input = New OcrInput()
input.AddImage("r3.png")
Dim result As OcrResult = ocr.Read(input)
Dim text As String = result.Text
Console.WriteLine(result.Text)
End Using
$vbLabelText $csharpLabel
Ausgabe
Schlussfolgerung
In diesem Tutorial haben wir den Prozess des Aufbaus eines Optical Character Recognition (OCR)-Systems in Python untersucht, das die Fähigkeit offenbart, Text mit bemerkenswerter Leichtigkeit aus Bildern zu extrahieren.
Durch den Einsatz von Bibliotheken wie Tesseract und OpenCV haben wir die wichtigsten Schritte durchlaufen, vom Laden und Vorverarbeiten von Bildern bis hin zur Verwendung der OCR-Engine von Tesseract für die Textextraktion.
Wir haben auch potenzielle Herausforderungen wie die eingeschränkte Genauigkeit angesprochen, die mit fortschrittlichen Lösungen wie IronOCR angegangen werden sollen.
Ganz gleich, ob Sie sich für den Selbstbau entscheiden oder hochentwickelte Tools einsetzen, die Welt der OCR lockt mit dem Versprechen, Bilder in verwertbaren Text zu verwandeln, die Dateneingabe zu rationalisieren und die Zugänglichkeit zu verbessern. Mit diesem neu erworbenen Wissen können Sie sich auf eine Reise begeben, die die visuelle und die digitale Welt nahtlos miteinander verbindet.
Um mit IronOCR zu beginnen, besuchen Sie den folgenden Link. Um das gesamte Tutorial darüber zu sehen, wie man Text aus Bildern extrahiert, besuchen Sie hier.
Wenn Sie IronOCR heute kostenlos ausprobieren möchten, sollten Sie sich unbedingt für die von IronOCR angebotene Testversion entscheiden, um all seine Verwendungsmöglichkeiten und Potenziale in einer kommerziellen Umgebung ohne Wasserzeichen zu erkunden. Um es nach Ablauf der 15 Tage weiterhin zu nutzen, kaufen Sie einfach eine Lizenz.
Bevor er Software-Ingenieur wurde, promovierte Kannapat an der Universität Hokkaido in Japan im Bereich Umweltressourcen. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Abteilung für Bioproduktionstechnik ist. Im Jahr 2022 wechselte er mit seinen C#-Kenntnissen zum Engineering-Team von Iron Software, wo er sich auf IronPDF konzentriert. Kannapat schätzt an seiner Arbeit, dass er direkt von dem Entwickler lernt, der den Großteil des in IronPDF verwendeten Codes schreibt. Neben dem kollegialen Lernen genießt Kannapat auch den sozialen Aspekt der Arbeit bei Iron Software. Wenn er nicht gerade Code oder Dokumentationen schreibt, kann man Kannapat normalerweise beim Spielen auf seiner PS5 oder beim Wiedersehen mit The Last of Us antreffen.
< PREVIOUS Arabische Texterkennungs-Tools: Verbesserung der Genauigkeit