Ekstrakcja tekstu z plików PDF za pomocą OCR
Iron Tesseract potrafi odczytywać wiele formatów obrazów, a także dokumenty PDF. Ta funkcja nie jest dostępna w konwencjonalnych darmowych silnikach Tesseract.
OcrInput oferuje opcję automatycznej korekty parametrów pliku PDF w przypadku skanów o niskiej jakości.
Programiści mogą określić, czy chcą odczytać cały plik PDF, wybrane strony czy pojedynczy obszar wycinania.
Jak wykonać OCR pliku PDF w języku C#
- Pobierz bibliotekę C# do OCR pliku PDF
- Użyj
AddPdfmetody, aby dodać dokument PDF - Dodaj określone strony dokumentu PDF za pomocą
AddPdfPagesmetodą - Wykorzystaj
Readmetody do wykonania OCR na dodanym pliku PDF - Wyświetl wszystkie wartości kodu QR w
Barcodeswłaściwości. Uzyskaj dostęp do właściwości Text, aby pobrać wynik OCR
C# OCR plików PDF
Wiele narzędzi OCR działa dobrze w optymalnych warunkach, ale jeśli potrzebujesz rozwiązania, które wykona zadanie z większą stabilnością i dokładnością w każdych warunkach, rozwiązaniem jest IronOCR do ekstrakcji tekstu.
IronOCR do ekstrakcji tekstu został stworzony od podstaw i umożliwia konwersję rzeczywistych obrazów z 99-procentową dokładnością.
IronTesseract, nasza natywna biblioteka OCR dla języka C#, potrafi rozpoznawać znaki niemal jak człowiek na podstawie rzeczywistych obrazów, które nie zawsze są dobrej jakości i czasami są przekrzywione.
Nasze oprogramowanie OCR umożliwia automatyczną korektę cech plików PDF lub obrazów w przypadku skanów o niskiej jakości.
Przedstawiając Państwu najlepsze obecnie dostępne rozwiązanie OCR, będą Państwo mogli się o tym przekonać na własne oczy.
Dlaczego warto wybrać IronOCR do rozpoznawania tekstu z obrazów lub plików PDF?
Wybór rozwiązania IronOCR do zarządzania Tesseractem jest oczywistym wyborem, jeśli weźmiemy pod uwagę jego wyjątkowe możliwości, które obejmują:
- Silnik IronOCR do ekstrakcji tekstu z plików PDF działa od razu po uruchomieniu w środowisku .NET
- Nie wymaga to instalacji Tesseract na Twoim komputerze.
- Działa znakomicie z najnowszymi silnikami: Tesseract 5 (a także Tesseract 4 i 3).
- Jest dostępny dla każdego projektu .NET: .NET Framework 4.5+, .NET Standard 2+ oraz .NET Core 2, 3 i 5!
- Charakteryzuje się większą dokładnością i szybkością w porównaniu z innymi wersjami Tesseracta dostępnymi na licencji open source.
- IronOCR obsługuje platformy programistyczne Xamarin, Mono, Azure i Docker.
- Za pomocą pakietów NuGet można zarządzać złożonymi systemami słowników Tesseract.
- Może wyodrębniać tekst z plików PDF, MultiFrame TIFF oraz wszystkich głównych formatów plików graficznych bez dodatkowych zabiegów.
- Może korygować skany obrazów o niskiej jakości i zniekształcone, aby uzyskać najlepsze wyniki w projekcie ekstrakcji tekstu.
Czy dysponują Państwo skanami niskiej jakości? Nie ma problemu!
IronOCR wyróżnia się na wyższym poziomie, jeśli chodzi o zadania związane z OCR. W rzeczywistości wiele podobnych produktów jest tworzonych z myślą o dobrej współpracy z drukowanymi maszynowo, wysokiej rozdzielczości i idealnymi tekstami lub obrazami, przez co stają się one niedokładne lub zawodzą w rzeczywistych zastosowaniach. Jednak w przypadku IronOCR tak nie jest.
IronOCR doskonale radzi sobie z poprawianiem dokumentów zawierających błędy. Może wyprostować przekrzywiony zeskanowany obraz i poprawić zdjęcia o niskiej jakości, tak aby stały się one dokumentami PDF lub obrazami, które można przeszukiwać. To właśnie wyróżnia nasz produkt na tle innych.
Dostosuj wydajność IronOCR do swojego przepływu pracy
Dzięki rozwiązaniu OCR firmy Iron Software możesz dostosować wydajność zadań związanych z ekstrakcją tekstu, aby uzyskać odpowiednią równowagę w swoim przepływie pracy. Wiemy, że jest to bardzo ważne dla wielu użytkowników i programistów, dlatego stworzyliśmy nasze rozwiązanie OCR tak, aby było elastyczne i można było dostosować jego wydajność.
Na przykład jednym z bardzo ważnych czynników wpływających na szybkość zadania OCR jest jakość obrazu wejściowego. Im mniej szumów w tle i im wyższa rozdzielczość obrazu (200 dpi to dobry przedział), tym szybsze przetwarzanie i dokładniejsze wyniki OCR. Jednak dzięki funkcji optymalizacji wydajności IronOCR nawet zadania z obrazami o niskiej jakości mogą być szybko wykonane.
Ponadto wybór obrazów wejściowych lub formatów zeskanowanego tekstu o mniejszym poziomie szumów cyfrowych, takich jak PNG lub TIFF, może również zapewnić szybsze wyniki niż w przypadku formatów obrazów o niższej jakości, takich jak JPEG.
Instalacja rozwiązania IronOCR jest dziecinnie prosta
Pakiet Iron Software jest bardzo łatwy w instalacji i obsłudze. Jest dostępny dla najpopularniejszych platform programistycznych. Nasze rozwiązanie oferuje obsługę wielu platform, w tym Windows, Linux, macOS, Azure, AWS i Docker — nie bez powodu C# sprawia, że jest to najczęściej wybierany silnik OCR Tesseract wśród programistów.
Obsługa ponad 125 języków międzynarodowych
W przypadku zadań OCR dane oprogramowanie staje się bardziej przydatne, gdy obsługuje wiele języków. Rozwiązanie IronOCR staje się niezbędne, ponieważ obsługuje 125 języków międzynarodowych. Języki te można zainstalować za pomocą pakietów językowych dystrybuowanych jako pliki DLL. Można je pobrać z tej strony internetowej lub z menedżera pakietów NuGet dla Visual Studio.
Jak zainstalować pakiety językowe OCR
Obsługiwanych jest sto dwadzieścia języków. Dodatkowe pakiety językowe OCR można pobrać na dwa sposoby:
Zainstaluj pakiet NuGet
Wyszukaj w NuGet IronOCR Języki.
Wykorzystanie metody danych OCR
Pobierz plik ocrdata i dodaj go do swojego projektu .NET lub plików programu.
Łatwe tworzenie dokumentów z możliwością wyszukiwania na podstawie zeskanowanych plików lub obrazów
Jedną z funkcji, z której jesteśmy bardzo dumni, jest możliwość tworzenia przez nasze oprogramowanie Tesseract dokumentów PDF z funkcją wyszukiwania lub tekstu z możliwością wyszukiwania na podstawie obrazów wejściowych lub zeskanowanych plików PDF. Wyniki OCR można wyeksportować jako plik PDF z funkcją wyszukiwania w językach C# i VB.NET. Może to naprawdę pomóc firmom i instytucjom rządowym w zakresie zasilania baz danych, SEO i plików PDF.
Wykorzystaj możliwości najlepszego narzędzia OCR
IronOCR to najlepsze w swojej klasie narzędzie do wyodrębniania tekstu z obrazów i dokumentów. Oferuje szereg funkcji, możliwości i rozwiązań, które zapewniają łatwą i płynną obsługę podczas wykonywania zadań OCR.
Nasze biblioteki OCR Tesseract C# mogą pomóc w wyodrębnianiu tekstu z obrazów i zeskanowanych dokumentów w środowiskach programistycznych, takich jak aplikacje C# i .NET.
Dzięki IronOCR możesz z łatwością otwierać nawet dokumenty PDF chronione hasłem, a także płynnie wyodrębniać tekst.
Posiada on również następujące cechy:
- Nie wymaga plików wykonywalnych ani kodu C#
- Pełna obsługa OCR plików PDF
- Kompatybilność z aplikacjami MVC, aplikacjami internetowymi, aplikacjami desktopowymi, konsolowymi i serwerowymi
- Pełna obsługa .NET Core, Standard i Framework
- Czytaj przy użyciu
C#iVB.NET - Odczytuje kody QR i kody BARCODE
- Eksportuje dane OCR do formatu XHTML lub dokumentu PDF z możliwością wyszukiwania
- Obsługuje wielowątkowość
- Wyodrębnia obrazy, współrzędne, statystyki, czcionki i wiele więcej
Zrób odważny krok w kierunku IronOCR
Biorąc pod uwagę funkcje tego niesamowitego rozwiązania OCR, nie popełnisz błędu, decydując się na wypróbowanie IronOCR.
Wystarczy kilka kliknięć, aby skorzystać z naszego oprogramowania. Zacznij od zainstalowania IronOCR — to niezwykle proste zadanie. Ponadto dostępne są niezwykle pomocne i szczegółowe przewodniki krok po kroku dotyczące korzystania z każdego z naszych narzędzi oraz instrukcje, nie wspominając już o naszym kompetentnym centrum wsparcia, które odpowiada na zapytania tak szybko, jak to możliwe (prawie natychmiast).
Nie zwlekaj — wybierz IronOCR już dziś. Jest to pierwszy i najważniejszy krok w nauce odczytywania plików PDF w języku C#.
Jeśli nadal masz wątpliwości, nasza bezplatna licencja probna jest idealnym rozwiązaniem dla Ciebie. Może to pomóc w odkryciu pełnego potencjału najnowszej wersji IronOCR bez żadnych zobowiązań finansowych. Może to pomóc w podjęciu decyzji, która licencja oprogramowania jest dla Ciebie odpowiednia. Jeśli masz wątpliwości, skontaktuj się z naszym zespołem ekspertów, niezależnie od tego, gdzie się znajdujesz.
Dowiedz się, jak tworzyć pliki PDF z możliwością wyszukiwania za pomocą IronOCR

