Test in einer Live-Umgebung
Test in der Produktion ohne Wasserzeichen.
Funktioniert überall, wo Sie es brauchen.
Normalerweise besteht die Hauptaufgabe bei Anwendungen zur Dokumentenverarbeitung, Datenextraktion oder Textanalyse in der Textextraktion aus Word-Dokumenten. Bei der Entwicklung einer C#-Anwendung verwenden Entwickler Bibliotheken wie IronWord, die ihnen helfen, mit Dateien im .docx-Format zu arbeiten und von dort aus auf den Text innerhalb der Dokumentinstanz zuzugreifen. Die Verwendung dieser Bibliotheken hilft bei der Automatisierung des Abrufs der Inhalte aus demWord-Dokumente um die Erstellung von Berichten, Data Mining oder sogar ein Dokumentenmanagementsystem zu ermöglichen.
Mit einer Bibliothek wie IronWord kann man Text aus jeder beliebigen Word-Dokumentinstanz extrahieren; man muss nur das Dokumentobjekt laden, Absätze oder Abschnitte öffnen und dann den gewünschten Text unter Beibehaltung des ursprünglichen Layouts abrufen. Diese Funktionalität wird sich in den Bereichen Recht, Gesundheitswesen und Finanzen, wo die Verarbeitung von Dokumenten in der Regel zu den Arbeitsabläufen gehört, als besonders nützlich erweisen. C# wird zweifelsohne zur Entwicklung extrem skalierbarer und effizienter Anwendungen verwendet, die Text aus Word-Dateien extrahieren. Die Entwickler können sie mit umfangreicheren Systemen oder Anwendungen kombinieren.
Installieren Sie die IronWord-Bibliothek über NuGet in Ihrem C#-Projekt.
Fügen Sie IronWord am Anfang Ihrer C#-Datei ein, um Text aus Word zu extrahieren.
Legen Sie Ihren Lizenzschlüssel fest.
Laden Sie das vorhandene Word-Dokument.
Greifen Sie auf Absätze mit der Absatzmethode zu.
Schleife durch Absätze und Textelemente mit foreach-Schleifen.
IronWord ist eine starke Kraft beim Abrufen von Text und sorgt dafür, dass alle Arten von Dateien, wie PDF, Word, txt-Datei usw., leicht abgerufen werden. Sie wurde mit Präzision und Schnelligkeit entwickelt, um eine schnelle Extraktion in den benötigten strukturierten oder unstrukturierten Text zu ermöglichen, wobei das restliche Originalformat des Dokuments erhalten bleibt. IronWord wird auch für die Analyse von Dokumenten, die Datenextraktion und die automatische Indizierung von Inhalten eingesetzt.
Sie unterstützt fast alle verfügbaren Dateitypen, um eine reibungslose Integration in Anwendungen zu gewährleisten, und ist daher ideal für die Geschäftsautomatisierung und die Verarbeitung großer Mengen von Dokumenten. Die Skalierbarkeit von Bibliotheken, die auf diese Weise entwickelt wurden, ermöglicht eine einfache Handhabung von Dokumentenmengen, was sich als wichtiger Vorteil erweist, insbesondere für Unternehmen, die mit Massendatenextraktion arbeiten.
IronWord ist außerdem vollständig kompatibel mit C# und anderen Programmiersprachen, so dass es die Anforderungen der meisten Entwickler und Unternehmen erfüllt, die ihre Dokumenten-Workflows so reibungslos wie möglich rationalisieren möchten.
IronWord akzeptiert Dateien in einer breiten Palette von Dokumentenformaten. Dazu gehören:
Die IronWord-Extraktions-Engine ist in der Lage, Textinhalte zu extrahieren, ganz gleich, ob sie in komplexen Dokumenten mit ebenso komplexen Seitenlayouts, eingebetteten Schriftarten oder einer Mischung von Inhalten wie Bildern und Tabellen usw. verborgen sind. Die Bibliothek bewahrt:
IronWord beherrscht den Umgang mit strukturierten und unstrukturierten Daten. Sie wird extrahiert:
Unstrukturierte Daten: Im Falle von unvorhersehbarem Textlayout, Berichten oder Artikeln.
Es hat sich als eines der nützlichsten Tools für Data Mining, Information Retrieval und Klassifizierungsaufgaben erwiesen, da es eine große Vielfalt an Inhalten verarbeiten kann.
IronWord ist für die mühelose Verarbeitung großer Dokumentenmengen ausgelegt und bietet eine hohe Skalierbarkeit für Unternehmensanwendungen. Das bedeutet, dass zum Beispiel mit einer enormen Anzahl von Dokumenten in den folgenden Strömen effizient gearbeitet werden soll:
IronWord lässt sich nahtlos in Entwicklungsumgebungen integrieren, insbesondere in Python, und zwar über einfache APIs, die Entwickler problemlos in ihre Arbeitsabläufe einbinden können. Sie ermöglicht:
Sprachübergreifende Interoperabilität: IronWord ist nicht nur hervorragend für die Verwendung von Python geeignet, sondern auch für andere Sprachen und eignet sich daher hervorragend für den Wechsel zwischen verschiedenen Sprachen und Technologie-Stacks.
Diese einfache Integration verringert den Zeit- und Arbeitsaufwand bei der Entwicklung, so dass man sich mehr auf die Funktionalität als auf die Infrastruktur konzentrieren kann.
IronWord verfügt über ein Leistungstuning, und die Geschwindigkeit der Textextraktion bei großen Dokumenten wurde verbessert. Dies kann bei verschiedenen Echtzeitanwendungen, die eine schnelle Ausführung zum Auslesen von Text erfordern, sehr wichtig sein. Die Bibliothek kann:
Das Dokument enthält Bilder. IronWord kann in Verbindung mit OCR-Technologien verwendet werden, um dem Leser Folgendes zur Verfügung zu stellen:
IronWord extrahiert nicht nur Text. Außerdem müssen die Metadaten des Dokuments erhalten bleiben, wie z. B.:
Um die Visual Studio-Anwendung zu starten, wählen Sie Datei aus dem Menü Datei. Wenn Sie "Neues Projekt" gewählt haben, wählen Sie "Konsolenanwendung"
Geben Sie nun den Namen des .NET-Projekts in das vorgegebene Textfeld ein, nachdem Sie den Ort für die Datei ausgewählt haben, und speichern Sie die Datei. Klicken Sie dann, wie im folgenden Beispiel zu sehen, auf die Schaltfläche Erstellen und wählen Sie das gewünschte .NET Framework aus.
Die Struktur des Visual Studio-Projekts hängt von der gewählten Anwendung ab. Um die Anwendung zu implementieren oder auszuführen und den Code einzugeben, besuchen Sie die Datei Program.cs. Sie können entweder die Konsolen-, die Windows- oder die Online-Anwendung verwenden.
Der Code kann dann getestet und die Bibliothek hinzugefügt werden.
Verwendung des Visual Studio-Tools Wählen Sie im Menü Tools die Option NuGet Package Manager. Um die Terminal-Konsole für die Paketverwaltung anzuzeigen, navigieren Sie zur Paketmanager-Schnittstelle.
Install-Package Ironword
Install-Package Ironword
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'Install-Package Ironword
Das Paket kann nun zum Extrahieren von Text im laufenden Projekt verwendet werden, nachdem es heruntergeladen und installiert wurde.
Eine weitere Taktik ist die Verwendung der Paketmanager-Methode. Die Installation direkt in die Lösung ist mit der NuGet-Paketmanager-Option von Visual Studio möglich. Die folgende Grafik veranschaulicht, wie man auf den Paketmanager zugreift.
Um Pakete zu finden, verwenden Sie das Suchfeld auf der NuGet-Website. Sie müssen nur "IronWord" über den Paketmanager suchen, wie der unten stehende Screenshot zeigt.
Die nebenstehende Grafik zeigt eine Liste verwandter Suchergebnisse. Bitte nehmen Sie diese Anpassungen vor, damit die Software auf Ihrem Computer installiert werden kann.
Um mit IronWord Text aus einem Dokument zu extrahieren, führen Sie die folgenden Schritte aus. Das folgende Codebeispiel beschreibt, wie der Text aus einem Word-Dokument extrahiert wird(.docx) durch Verwendung der IronWord-Bibliothek in C#.
using IronWord;
IronWord.License.LicenseKey = "Licence key here";
var docx1 = new WordDocument("D:\\C# Projects\\ConsoleApp\\ConsoleApp\\File\\existing.docx");
var paragrapbobj = docx1.Paragraphs;
for (int i = 0; i < paragrapbobj.Count; i++)
{
for(int j=0;j< paragrapbobj[i].Texts.Count; j++)
{
Console.WriteLine(paragrapbobj[i].Texts[j].Text.ToString());
}
}
Console.ReadKey();
using IronWord;
IronWord.License.LicenseKey = "Licence key here";
var docx1 = new WordDocument("D:\\C# Projects\\ConsoleApp\\ConsoleApp\\File\\existing.docx");
var paragrapbobj = docx1.Paragraphs;
for (int i = 0; i < paragrapbobj.Count; i++)
{
for(int j=0;j< paragrapbobj[i].Texts.Count; j++)
{
Console.WriteLine(paragrapbobj[i].Texts[j].Text.ToString());
}
}
Console.ReadKey();
Imports IronWord
IronWord.License.LicenseKey = "Licence key here"
Dim docx1 = New WordDocument("D:\C# Projects\ConsoleApp\ConsoleApp\File\existing.docx")
Dim paragrapbobj = docx1.Paragraphs
For i As Integer = 0 To paragrapbobj.Count - 1
Dim j As Integer=0
Do While j< paragrapbobj(i).Texts.Count
Console.WriteLine(paragrapbobj(i).Texts(j).Text.ToString())
j += 1
Loop
Next i
Console.ReadKey()
Initialisiert den Lizenzschlüssel für IronWord und setzt ihn in diesem Beispiel auf eine leere Zeichenkette oder möglicherweise eine Testversion. Öffnet ein Dokument, das sich unter diesem Pfad befindet und bereits im .docx-Format vorliegt, indem ein Word-Dokumentobjekt instanziiert wird. Sobald das neue Dokument geladen ist, greift der Code auf alle in der Datei enthaltenen Absätze zu, indem er die Eigenschaft DOCX oder doc.Paragraphs verwendet.
Sie verwendet eine verschachtelte Schleife für den iterativen Prozess dieserabsätze und ihre Textelemente. Die äußere Schleife durchläuft jeden Absatz, und die innere Schleife driftet dann in die Textelemente innerhalb eines Absatzes. Sie erfasst jeden Text, indem sie alle Textstücke in kleinere zerreißt, wenn die Formatierung unterschiedlich ist, und wandelt sie in eine Zeichenkette um. Anschließend wird der extrahierte Text auf der Konsole ausgedruckt.
Zum Schluss: Console.ReadKey() wird aufgerufen, um das Programm anzuhalten, bis eine Benutzereingabe erfolgt, während das Anwendungsfenster geschlossen wird. So kann der Inhalt eines Word-Dokuments in geordneter Weise gezogen und gedruckt werden.
IronWord ist ein sehr flexibles und effizientes Tool zur Textextraktion, das für praktisch jedes Dokumentformat verwendet werden kann, obwohl es sich besonders für Word-Dokumente eignet. Die einfache API macht es neben den Funktionen zur strukturierten Textextraktion zu einer entwicklerfreundlichen Lösung, auf die man sich auf jeden Fall verlassen kann, wenn der Inhalt von Dokumenten automatisch abgerufen werden soll. So kann die Formatierung beibehalten werden, während komplexe Dokumente bearbeitet werden, was sie für verschiedene Anwendungen sehr nützlich macht - für die Bearbeitung juristischer Dokumente, für das Content Management auf Unternehmensebene usw. Durch die einfache Implementierung von IronWord in Ihren Arbeitsablauf werden Sie die meisten Aufgaben im Zusammenhang mit der Dokumentenanalyse, Datenextraktion und -verarbeitung erheblich vereinfachen und die Produktivität und Genauigkeit bei der Bearbeitung großer Textmengen verbessern können.
Der Einstiegspreis für IronWord liegt bei 599 US-Dollar. Benutzer können auch eine einmalige Abonnementgebühr für ein Jahr entrichten, um technischen Support und Software-Updates zu erhalten. IronWord ist kostenpflichtig und darf nicht kostenlos weitergegeben werden. Bitte beachten Sie die Lizenzseite von IronWord für genauere Angaben zur Preisgestaltung. Erfahren Sie mehr über andere Produkte von Iron Software auf derproduktseite.
9 .NET API-Produkte für Ihre Bürodokumente