Zum Fußzeileninhalt springen
OCR-WERKZEUGE

Power Automate OCR (Entwickler-Tutorial)

Optische Zeichenerkennung (OCR) ist die Technologie, die Text aus Bildern, gescannten Dokumenten und PDFs scannt und in maschinenlesbaren Text verwandelt. OCR ermöglicht es Computern, verschiedene Formate zu erkennen - Bücher, Quittungen, Formulare und Fotografien - die digitalisiert und für die Datenextraktion von PDFs automatisiert werden können. Es analysiert die Zeichen in einem Bild und deren Muster, um sie dann in Text umzuwandeln. Diese Technologie der optischen Zeichenerkennung wird in Anwendungen zur Dokumentendigitalisierung, automatisierten PDF-Datenextraktion und -eingabe, Rechnungserfassung sowie zur Durchsuchbarkeit gescannter PDFs eingesetzt.

OCRs haben sich drastisch verbessert und können verschiedene Sprachen erkennen und lesen, die heutzutage komplex im Layout-Verständnis sind, wie Tabellen und Spalten. Fortschrittliche OCR-Software nutzt auch Vorverarbeitungstechniken für Bilder. Diese umfassen Rauschunterdrückung und Kontrasteinstellung, um die Genauigkeit von OCR-Software bei der Erkennung minderwertiger Bilder zu verbessern. Drei der beliebtesten OCR-Tools sind die Tesseract OCR Engine, Power Automate und IronOCR, mit hoher Genauigkeit und Flexibilität. OCRs sind für Unternehmen, Forscher und Entwickler unverzichtbare Werkzeuge geworden, um die Verwaltung von Dokumentation und die Texterkennung auszulagern.

Was ist Microsoft Power Automate OCR?

Optische Zeichenerkennung durch Microsoft Power Automate: Mit dieser Funktion können Unternehmen die Extraktion von Text aus Bildern, gescannten Dokumenten und PDFs in leicht editierbare und maschinenlesbare Formate automatisieren. Als Teil der Microsoft Power Platform bietet Power Automate Desktop und Online dem Benutzer die Möglichkeit, Flows zu erstellen, ohne unbedingt Programmierkenntnisse zu benötigen. Sie können mühsame Dateneingaben automatisieren, Rechnungen bearbeiten und Dokumente mit der Integration von OCR in Workflows digitalisieren.

Dies spart Zeit und minimiert Fehler. Es ist in der Tat ein leistungsstarkes Suchwerkzeug, das viele verschiedene Formate und Sprachen in der OCR-Funktion von Power Automate unterstützen kann. Erstellt mit AI Builder, unterstützt es die Verwendung von Texterkennung in verschiedenen Branchen. Es integriert sich nahtlos mit anderen Microsoft-Diensten, einschließlich Excel, SharePoint und OneDrive, und ermöglicht End-to-End-Automatisierung vom Scannen des Dokuments bis hin zum Speichern oder sogar Teilen. Dies hilft Organisationen, die Effizienz zu steigern, das Dokumentenmanagement zu vereinfachen und die operative Genauigkeit ihrer Aktivitäten zu verbessern.

Vorteile der Implementierung von OCR in Power Automate

Die Implementierung von OCR in Power Automate hat folgende Vorteile:

Zeit- und Arbeitseinsparung: Die Automatisierung der Dokumenttexteingabe spart eine erhebliche Menge an Zeit und Aufwand, der sonst für manuelle Dateneingabe erforderlich wäre.

Kosteneffektiv: Benutzerfreundlich und zugänglich, somit entfällt der Bedarf an teuren maßgeschneiderten Softwarelösungen.

Integration: Microsoft Power Automate bietet nahtlose Integration mit anderen Microsoft 365-Diensten wie SharePoint, OneDrive und sogar Excel.

Skalierbarkeit: Es kann Tausende von Dokumenten gleichzeitig bearbeiten, was es für große Unternehmen geeignet macht.

Fehlerreduzierung: Die Automatisierung von Dateneingabeprozessen minimiert die Wahrscheinlichkeit menschlicher Fehler.

Wie man mit OCR in Power Automate arbeitet

Power Automate unterstützt OCR-Funktionalität über mehrere verschiedene Verbindungen, einschließlich AI Builder und OneDrive. Hier ist eine Schritt-für-Schritt-Anleitung, wie man einen OCR-fähigen Workflow mit Power Automate online oder auf dem Desktop erstellt:

1. Power Automate einrichten

Um zu beginnen, loggen Sie sich in Ihr Power Automate-Konto ein oder melden Sie sich an, falls Sie noch keines haben. Power Automate ist Teil von Microsoft 365, was bedeutet, dass Sie bereits Zugriff haben, wenn Sie Office 365 oder Dynamics 365 verwenden.

2. Einen neuen Flow erstellen

Öffnen Sie die Registerkarte "Erstellen" und klicken Sie auf "Sofort-Flow", um einen neuen Flow zu erstellen, der manuell initiiert werden kann.

Benennen Sie Ihren Flow. Benennen Sie ihn zum Beispiel "Vor der Genehmigung" und wählen Sie den folgenden Auslöser: Wenn eine Datei in einem Ordner (SharePoint oder OneDrive) erstellt wird oder einen Flow manuell auslösen.

Ein neuer Power Automation-Flow wird erstellt, ähnlich wie der unten gezeigte.

Power Automate OCR (Dev-Tutorial): Abbildung 5 - Neuer Automatisierungs-Flow

3. Eine Datei in OneDrive oder SharePoint hochladen

Fügen Sie eine Aktion hinzu, um Ihr Dokument (Bild oder PDF) in OneDrive for Business oder SharePoint hochzuladen. Diese Aktion löst den OCR-Prozess zur Datenextraktion aus. Für diese Demo verwenden wir eine SharePoint-Dokumentbibliothek.

Power Automate OCR (Dev-Tutorial): Abbildung 6 - Datei hochladen

4. Die OCR-Aktion des AI Builder nutzen

Verwenden Sie den AI Builder, um die Aktion "Text aus Bildern extrahieren" zu entwickeln. AI Builder ist eine tief integrierte Funktion des maschinellen Lernens in Power Automate und hat vortrainierte OCR-Modelle, die es Benutzern ermöglichen, Text aus Bildern oder PDFs leicht zu identifizieren.

Power Automate OCR (Dev-Tutorial): Abbildung 7 - AI Builder

Wählen Sie die Bilddatei aus, um Text zu extrahieren.

Power Automate OCR (Dev-Tutorial): Abbildung 8 - Bild auswählen

5. Verarbeitete extrahierte Daten

Sobald der Text durch OCR extrahiert ist, kann er weiterverarbeitet werden. Zum Beispiel:

Speichern des extrahierten Textes im Excel-Format: Verwenden Sie die Aktion "Eine Zeile hinzufügen", um den extrahierten Text in eine Excel-Datei einzufügen.

Text per E-Mail versenden: Verwenden Sie die Aktion "E-Mail senden", um den extrahierten Text an bestimmte Empfänger weiterzuleiten.

In der Datenbank speichern: Verwenden Sie Connectoren, um die Daten in SQL Server, SharePoint-Listen oder anderen Datenbanken abzulegen.

Was ist IronOCR?

IronOCR ist eine leistungsstarke .NET OCR-Bibliothek, die es ermöglicht, Text mit OCR aus Bildern, PDFs und Scans genau zu extrahieren. Es ist besonders geeignet, wenn andere Bibliotheken Schwierigkeiten mit der Texterkennung durch schlechte Bildqualität oder rauschige Bilder haben, und unterstützt über 125 Sprachen, was es perfekt für mehrsprachige Anwendungsfälle macht. IronOCR umfasst fortschrittliche Funktionen wie die automatische Erkennung von Sprache, Bildvorverarbeitung, Rauschunterdrückung, Korrektur von Schräglagen und die Umwandlung von Dokumenten in durchsuchbare PDFs unter Beibehaltung des ursprünglichen Layouts.

Power Automate OCR (Dev-Tutorial): Abbildung 9 - IronOCR

Das Produkt kann leicht durch einfache .NET-Projekt-APIs integriert werden, sodass Entwickler OCR in Anwendungen, die sie entwickeln, umsetzen können. Die Bibliothek ist besonders nützlich für die Dokumentendigitalisierung, automatisierte Workflows zur Dateneingabe und Textextraktionsaufgaben mit hoher Genauigkeit und Skalierbarkeit für Anwendungen auf Unternehmensebene. Ihre einfache Handhabung und leistungsstarke OCR-Fähigkeiten sind ihre Stärken.

Funktionen von IronOCR

  • Hervorragende Textextraktionsgenauigkeit, selbst bei Bildern mit niedriger Auflösung und rauschigen gescannten Dokumenten.
  • Unterstützt mehr als 125 Sprachen mit automatischer Spracherkennung für unterschiedlich sprachliche Umgebungen.
  • Bietet Werkzeuge zur Bildvorverarbeitung wie Rauschreduktion, Schräglagenkorrektur, Kontrasterhöhung und Schärfung zur Verbesserung der Leistung bei fehlerhaften Bildern.
  • Erstellt durchsuchbare PDFs, indem gescannte Dokumente oder Bilder in vollständig durchsuchbare PDFs mit dem ursprünglichen Layout umgewandelt werden.
  • Bewahrt Layout und Formatierung, indem es die Struktur, Schriftarten und Formatierung der Quelldokumente beibehält, was für komplexe Dokumente mit Tabellen und Spalten wichtig ist.
  • Stapelverarbeitung: Ermöglicht die Stapelverarbeitung mehrerer Bilder oder Dokumente in einem Vorgang, unterstützt die Handhabung großer Volumen von Dokumenten.
  • Einfache Integration mit .NET: Unterstützt eine einfache API zur nahtlosen Integration in .NET-Anwendungen, sodass Entwickler OCR mit geringem Aufwand umsetzen können.

Beispielcode zur Durchführung von OCR

using IronOcr;

class Program
{
    static void Main(string[] args)
    {
        // Initialize Iron Tesseract OCR engine
        var Ocr = new IronTesseract();

        // Set language
        Ocr.Language = OcrLanguage.English;

        // Path to the image file
        var inputFile = @"path\to\your\image.png";

        // Read the image and perform OCR
        using (var Input = new OcrInput(inputFile))
        {
            // Perform OCR
            var Result = Ocr.Read(Input);

            // Display the extracted text in the console
            Console.WriteLine("Extracted Text:");
            Console.WriteLine(Result.Text);
        }
    }
}
using IronOcr;

class Program
{
    static void Main(string[] args)
    {
        // Initialize Iron Tesseract OCR engine
        var Ocr = new IronTesseract();

        // Set language
        Ocr.Language = OcrLanguage.English;

        // Path to the image file
        var inputFile = @"path\to\your\image.png";

        // Read the image and perform OCR
        using (var Input = new OcrInput(inputFile))
        {
            // Perform OCR
            var Result = Ocr.Read(Input);

            // Display the extracted text in the console
            Console.WriteLine("Extracted Text:");
            Console.WriteLine(Result.Text);
        }
    }
}
Imports IronOcr

Friend Class Program
	Shared Sub Main(ByVal args() As String)
		' Initialize Iron Tesseract OCR engine
		Dim Ocr = New IronTesseract()

		' Set language
		Ocr.Language = OcrLanguage.English

		' Path to the image file
		Dim inputFile = "path\to\your\image.png"

		' Read the image and perform OCR
		Using Input = New OcrInput(inputFile)
			' Perform OCR
			Dim Result = Ocr.Read(Input)

			' Display the extracted text in the console
			Console.WriteLine("Extracted Text:")
			Console.WriteLine(Result.Text)
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

Abschluss

Obwohl sowohl IronOCR als auch Power Automate OCR hochgradig leistungsfähig für die Texterkennung sind, ist IronOCR erheblich robuster und vielseitiger für jede Entwickler- oder Geschäftslösung, die ernsthafte OCR-Fähigkeiten über die einfachen Fälle hinaus benötigt, die Power Automate OCR unterstützt. Der OCR-Motor von Power Automate ist für einfache Workflows konzipiert und erfordert möglicherweise ein zusätzliches Abonnement.

Im Gegensatz dazu zeichnet sich IronOCR durch qualitativ hochwertige Ergebnisse aus, selbst bei der Arbeit mit Eingabebildern von geringer Qualität. Es unterstützt über 125 Sprachen bei gut erhaltenem Format und Layout. Seine Fähigkeiten für komplexe Dokumentenverarbeitung und umfangreiche Batch-Operationen sind mit fortschrittlichen Bildvorverarbeitungsoptionen gut unterstützt. Es ist hochgradig anpassbar in .NET-Anwendungen.

Power Automate OCR ist für kleinere Automatisierungen oder Integrationen innerhalb des Microsoft-Ökosystems geeignet, während IronOCR mit maximaler Genauigkeit und Kontrolle überzeugt und Funktionen wie die Erstellung durchsuchbarer PDFs bietet, die mehrere Formate aufnehmen.

Für Organisationen, die eine leistungsstarke, anpassbare OCR-Lösung ohne Plattformbeschränkungen suchen, ist IronOCR zu empfehlen. Iron Software bietet Entwicklern eine Vielzahl von Bibliotheksoptionen. Weitere Informationen finden Sie auf der Library Suite-Seite.

Kannaopat Udonpant
Software Ingenieur
Bevor er Software-Ingenieur wurde, absolvierte Kannapat ein PhD in Umweltressourcen an der Hokkaido University in Japan. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Fakultät für Bioproduktionstechnik ist. Im Jahr 2022 nutzte er seine C#-Kenntnisse, um dem Engineering-Team von Iron Software ...
Weiterlesen