IRONWORD VERWENDEN

Extrahieren von Text aus Word in C#

Veröffentlicht 23. Oktober 2024
Teilen Sie:

Einführung

Normalerweise besteht die Hauptaufgabe bei Anwendungen zur Dokumentenverarbeitung, Datenextraktion oder Textanalyse in der Textextraktion aus Word-Dokumenten. Bei der Entwicklung einer C#-Anwendung verwenden Entwickler Bibliotheken wie IronWord, die ihnen helfen, mit Dateien im .docx-Format zu arbeiten und von dort aus auf den Text innerhalb der Dokumentinstanz zuzugreifen. Die Verwendung dieser Bibliotheken hilft bei der Automatisierung des Abrufs der Inhalte aus demWord-Dokumente um die Erstellung von Berichten, Data Mining oder sogar ein Dokumentenmanagementsystem zu ermöglichen.

Mit einer Bibliothek wie IronWord kann man Text aus jeder beliebigen Word-Dokumentinstanz extrahieren; man muss nur das Dokumentobjekt laden, Absätze oder Abschnitte öffnen und dann den gewünschten Text unter Beibehaltung des ursprünglichen Layouts abrufen. Diese Funktionalität wird sich in den Bereichen Recht, Gesundheitswesen und Finanzen, wo die Verarbeitung von Dokumenten in der Regel zu den Arbeitsabläufen gehört, als besonders nützlich erweisen. C# wird zweifelsohne zur Entwicklung extrem skalierbarer und effizienter Anwendungen verwendet, die Text aus Word-Dateien extrahieren. Die Entwickler können sie mit umfangreicheren Systemen oder Anwendungen kombinieren.

Wie extrahiere ich Text aus Word in C#;

  1. Installieren Sie die IronWord-Bibliothek über NuGet in Ihrem C#-Projekt.

  2. Fügen Sie IronWord am Anfang Ihrer C#-Datei ein, um Text aus Word zu extrahieren.

  3. Legen Sie Ihren Lizenzschlüssel fest.

  4. Laden Sie das vorhandene Word-Dokument.

  5. Greifen Sie auf Absätze mit der Absatzmethode zu.

  6. Schleife durch Absätze und Textelemente mit foreach-Schleifen.

  7. Extrahieren und Anzeigen von Text mit Console.

Was ist IronWord?

IronWord ist eine starke Kraft beim Abrufen von Text und sorgt dafür, dass alle Arten von Dateien, wie PDF, Word, txt-Datei usw., leicht abgerufen werden. Sie wurde mit Präzision und Schnelligkeit entwickelt, um eine schnelle Extraktion in den benötigten strukturierten oder unstrukturierten Text zu ermöglichen, wobei das restliche Originalformat des Dokuments erhalten bleibt. IronWord wird auch für die Analyse von Dokumenten, die Datenextraktion und die automatische Indizierung von Inhalten eingesetzt.

Wie extrahiere ich Text aus Word in C#: Abbildung 1 - IronWord

Sie unterstützt fast alle verfügbaren Dateitypen, um eine reibungslose Integration in Anwendungen zu gewährleisten, und ist daher ideal für die Geschäftsautomatisierung und die Verarbeitung großer Mengen von Dokumenten. Die Skalierbarkeit von Bibliotheken, die auf diese Weise entwickelt wurden, ermöglicht eine einfache Handhabung von Dokumentenmengen, was sich als wichtiger Vorteil erweist, insbesondere für Unternehmen, die mit Massendatenextraktion arbeiten.

IronWord ist außerdem vollständig kompatibel mit C# und anderen Programmiersprachen, so dass es die Anforderungen der meisten Entwickler und Unternehmen erfüllt, die ihre Dokumenten-Workflows so reibungslos wie möglich rationalisieren möchten.

Merkmale von IronWord

Unterstützung mehrerer Dokumentformate

IronWord akzeptiert Dateien in einer breiten Palette von Dokumentenformaten. Dazu gehören:

  • PDFs: Der Text kann sowohl in PDFs mit normalem Text als auch in PDFs mit eingebetteten Schriftarten und solchen, die auf Vektoren basieren, interpretiert werden.
  • **Microsoft Word-Dateien(DOCX)es liest Text aus Word und behält dabei die Struktur und Formatierung des Dokuments bei.
  • **Textdateien(TXT-Datei)zusätzlich zu allen oben genannten Formaten kann IronWord auch einfache Textdateien verarbeiten und Text aus unformatiertem, einfachem Text extrahieren und verarbeiten.

Akkurate Textextraktion

Die IronWord-Extraktions-Engine ist in der Lage, Textinhalte zu extrahieren, ganz gleich, ob sie in komplexen Dokumenten mit ebenso komplexen Seitenlayouts, eingebetteten Schriftarten oder einer Mischung von Inhalten wie Bildern und Tabellen usw. verborgen sind. Die Bibliothek bewahrt:

  • Textformatierung: Fett, kursiv, unterstrichen und alle anderen stilistischen Aspekte, die auf den Text angewendet werden.
  • Dokumentenhierarchie: Überschriften, Absätze und Listen, um die Dinge ins rechte Licht zu rücken und die Lesbarkeit zu gewährleisten.

Umgang mit strukturierten und unstrukturierten Daten

IronWord beherrscht den Umgang mit strukturierten und unstrukturierten Daten. Sie wird extrahiert:

  • Strukturierte Daten: Dokumente, die vorhersehbare Formatierungsmuster enthalten, wie Formulare und Verträge.
  • Unstrukturierte Daten: Im Falle von unvorhersehbarem Textlayout, Berichten oder Artikeln.

    Es hat sich als eines der nützlichsten Tools für Data Mining, Information Retrieval und Klassifizierungsaufgaben erwiesen, da es eine große Vielfalt an Inhalten verarbeiten kann.

Skalierbarkeit für große Volumina

IronWord ist für die mühelose Verarbeitung großer Dokumentenmengen ausgelegt und bietet eine hohe Skalierbarkeit für Unternehmensanwendungen. Das bedeutet, dass zum Beispiel mit einer enormen Anzahl von Dokumenten in den folgenden Strömen effizient gearbeitet werden soll:

  • Batching von Dokumenten: Es werden viele Dokumente auf einmal verarbeitet.
  • Schwere Dateien: Es macht nichts aus, wenn die Größe der Dokumente riesig ist.

Nahtlose Integration mit Programmiersprachen

IronWord lässt sich nahtlos in Entwicklungsumgebungen integrieren, insbesondere in Python, und zwar über einfache APIs, die Entwickler problemlos in ihre Arbeitsabläufe einbinden können. Sie ermöglicht:

  • Importieren von IronWord in Python-Anwendungen: Entwickler können die Funktionen direkt in Python-Skripten verwenden, um sie ohne Probleme auszuführen.
  • Sprachübergreifende Interoperabilität: IronWord ist nicht nur hervorragend für die Verwendung von Python geeignet, sondern auch für andere Sprachen und eignet sich daher hervorragend für den Wechsel zwischen verschiedenen Sprachen und Technologie-Stacks.

    Diese einfache Integration verringert den Zeit- und Arbeitsaufwand bei der Entwicklung, so dass man sich mehr auf die Funktionalität als auf die Infrastruktur konzentrieren kann.

Hohe Leistung und Geschwindigkeit

IronWord verfügt über ein Leistungstuning, und die Geschwindigkeit der Textextraktion bei großen Dokumenten wurde verbessert. Dies kann bei verschiedenen Echtzeitanwendungen, die eine schnelle Ausführung zum Auslesen von Text erfordern, sehr wichtig sein. Die Bibliothek kann:

  • Handle multithreading: Dies verbessert die Extraktionsprozesse, d. h. gleichzeitig ablaufende Operationen.
  • Geringer Speicherbedarf: Dies gewährleistet eine optimale Nutzung der Systemressourcen bei der Verarbeitung, so dass eine Skalierung für sehr große Datensätze möglich ist.

OCR-Unterstützung optional

Das Dokument enthält Bilder. IronWord kann in Verbindung mit OCR-Technologien verwendet werden, um dem Leser Folgendes zur Verfügung zu stellen:

  • Gescannte Dokumente: Ziehen Sie Text aus Bildern, gescannten PDFs oder anderen Formaten, die Bilder enthalten.
  • Mehrsprachige Unterstützung: Sie müssen in der Lage sein, Text in unterstützten OCR-Sprachen zu erkennen und zu drucken.

Erhaltung der Metadaten

IronWord extrahiert nicht nur Text. Außerdem müssen die Metadaten des Dokuments erhalten bleiben, wie z. B.:

  • Dokumentversionierung und andere Informationen, die für die Einhaltung von Vorschriften oder für Archivierungszwecke nützlich sind.
  • Dies ist sehr hilfreich in einem Dokumentenmanagementsystem, dessen Metadaten ebenso wichtig sind wie der Inhalt.

Erstellen eines neuen Projekts in Visual Studio

Um die Visual Studio-Anwendung zu starten, wählen Sie Datei aus dem Menü Datei. Wenn Sie "Neues Projekt" gewählt haben, wählen Sie "Konsolenanwendung"

Wie extrahiere ich Text aus Word in C#: Abbildung 2 - Konsolenanwendung

Geben Sie nun den Namen des .NET-Projekts in das vorgegebene Textfeld ein, nachdem Sie den Ort für die Datei ausgewählt haben, und speichern Sie die Datei. Klicken Sie dann, wie im folgenden Beispiel zu sehen, auf die Schaltfläche Erstellen und wählen Sie das gewünschte .NET Framework aus.

Wie extrahiere ich Text aus Word in C#: Abbildung 3 - Projektkonfiguration

Die Struktur des Visual Studio-Projekts hängt von der gewählten Anwendung ab. Um die Anwendung zu implementieren oder auszuführen und den Code einzugeben, besuchen Sie die Datei Program.cs. Sie können entweder die Konsolen-, die Windows- oder die Online-Anwendung verwenden.

Wie extrahiert man Text aus Word in C#: Abbildung 4 - Ziel-Framework

Der Code kann dann getestet und die Bibliothek hinzugefügt werden.

IronWord-Bibliothek installieren

Verwendung des Visual Studio-Tools Wählen Sie im Menü Tools die Option NuGet Package Manager. Um die Terminal-Konsole für die Paketverwaltung anzuzeigen, navigieren Sie zur Paketmanager-Schnittstelle.

Install-Package Ironword
Install-Package Ironword
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'Install-Package Ironword
VB   C#

Das Paket kann nun zum Extrahieren von Text im laufenden Projekt verwendet werden, nachdem es heruntergeladen und installiert wurde.

Wie extrahiert man Text aus Word in C#: Abbildung 5 - IronWord installieren

Eine weitere Taktik ist die Verwendung der Paketmanager-Methode. Die Installation direkt in die Lösung ist mit der NuGet-Paketmanager-Option von Visual Studio möglich. Die folgende Grafik veranschaulicht, wie man auf den Paketmanager zugreift.

Wie extrahiere ich Text aus Word in C#: Abbildung 6 - NuGet-Paketmanager

Um Pakete zu finden, verwenden Sie das Suchfeld auf der NuGet-Website. Sie müssen nur "IronWord" über den Paketmanager suchen, wie der unten stehende Screenshot zeigt.

Wie extrahiere ich Text aus Word in C#: Abbildung 7 - IronWord durchsuchen

Die nebenstehende Grafik zeigt eine Liste verwandter Suchergebnisse. Bitte nehmen Sie diese Anpassungen vor, damit die Software auf Ihrem Computer installiert werden kann.

Text aus Word-Dokument extrahieren

Um mit IronWord Text aus einem Dokument zu extrahieren, führen Sie die folgenden Schritte aus. Das folgende Codebeispiel beschreibt, wie der Text aus einem Word-Dokument extrahiert wird(.docx) durch Verwendung der IronWord-Bibliothek in C#.

using IronWord;
IronWord.License.LicenseKey = "Licence key here";
var docx1 = new WordDocument("D:\\C# Projects\\ConsoleApp\\ConsoleApp\\File\\existing.docx");
var paragrapbobj = docx1.Paragraphs;
for (int i = 0; i < paragrapbobj.Count; i++)
{
    for(int j=0;j< paragrapbobj[i].Texts.Count; j++)
    {
   Console.WriteLine(paragrapbobj[i].Texts[j].Text.ToString());
    }
}
Console.ReadKey();
using IronWord;
IronWord.License.LicenseKey = "Licence key here";
var docx1 = new WordDocument("D:\\C# Projects\\ConsoleApp\\ConsoleApp\\File\\existing.docx");
var paragrapbobj = docx1.Paragraphs;
for (int i = 0; i < paragrapbobj.Count; i++)
{
    for(int j=0;j< paragrapbobj[i].Texts.Count; j++)
    {
   Console.WriteLine(paragrapbobj[i].Texts[j].Text.ToString());
    }
}
Console.ReadKey();
Imports IronWord
IronWord.License.LicenseKey = "Licence key here"
Dim docx1 = New WordDocument("D:\C# Projects\ConsoleApp\ConsoleApp\File\existing.docx")
Dim paragrapbobj = docx1.Paragraphs
For i As Integer = 0 To paragrapbobj.Count - 1
	Dim j As Integer=0
	Do While j< paragrapbobj(i).Texts.Count
   Console.WriteLine(paragrapbobj(i).Texts(j).Text.ToString())
		j += 1
	Loop
Next i
Console.ReadKey()
VB   C#

Initialisiert den Lizenzschlüssel für IronWord und setzt ihn in diesem Beispiel auf eine leere Zeichenkette oder möglicherweise eine Testversion. Öffnet ein Dokument, das sich unter diesem Pfad befindet und bereits im .docx-Format vorliegt, indem ein Word-Dokumentobjekt instanziiert wird. Sobald das neue Dokument geladen ist, greift der Code auf alle in der Datei enthaltenen Absätze zu, indem er die Eigenschaft DOCX oder doc.Paragraphs verwendet.

Wie extrahiere ich Text aus Word in C#: Abbildung 8 - Beispiel-Word-Dokument

Sie verwendet eine verschachtelte Schleife für den iterativen Prozess dieserabsätze und ihre Textelemente. Die äußere Schleife durchläuft jeden Absatz, und die innere Schleife driftet dann in die Textelemente innerhalb eines Absatzes. Sie erfasst jeden Text, indem sie alle Textstücke in kleinere zerreißt, wenn die Formatierung unterschiedlich ist, und wandelt sie in eine Zeichenkette um. Anschließend wird der extrahierte Text auf der Konsole ausgedruckt.

Wie extrahiert man Text aus Word in C#: Abbildung 9 - Konsolenausgabe

Zum Schluss: Console.ReadKey() wird aufgerufen, um das Programm anzuhalten, bis eine Benutzereingabe erfolgt, während das Anwendungsfenster geschlossen wird. So kann der Inhalt eines Word-Dokuments in geordneter Weise gezogen und gedruckt werden.

Schlussfolgerung

IronWord ist ein sehr flexibles und effizientes Tool zur Textextraktion, das für praktisch jedes Dokumentformat verwendet werden kann, obwohl es sich besonders für Word-Dokumente eignet. Die einfache API macht es neben den Funktionen zur strukturierten Textextraktion zu einer entwicklerfreundlichen Lösung, auf die man sich auf jeden Fall verlassen kann, wenn der Inhalt von Dokumenten automatisch abgerufen werden soll. So kann die Formatierung beibehalten werden, während komplexe Dokumente bearbeitet werden, was sie für verschiedene Anwendungen sehr nützlich macht - für die Bearbeitung juristischer Dokumente, für das Content Management auf Unternehmensebene usw. Durch die einfache Implementierung von IronWord in Ihren Arbeitsablauf werden Sie die meisten Aufgaben im Zusammenhang mit der Dokumentenanalyse, Datenextraktion und -verarbeitung erheblich vereinfachen und die Produktivität und Genauigkeit bei der Bearbeitung großer Textmengen verbessern können.

Der Einstiegspreis für IronWord liegt bei 599 US-Dollar. Benutzer können auch eine einmalige Abonnementgebühr für ein Jahr entrichten, um technischen Support und Software-Updates zu erhalten. IronWord ist kostenpflichtig und darf nicht kostenlos weitergegeben werden. Bitte beachten Sie die Lizenzseite von IronWord für genauere Angaben zur Preisgestaltung. Erfahren Sie mehr über andere Produkte von Iron Software auf derproduktseite.

< PREVIOUS
Hinzufügen eines Wasserzeichens zu einer Word-Datei in C#
NÄCHSTES >
Erstellen eines Word-Dokuments aus einer Vorlage mit C#

Sind Sie bereit, loszulegen? Version: 2024.12 gerade veröffentlicht

Gratis NuGet-Download Downloads insgesamt: 8,482 Lizenzen anzeigen >