Narzędzia OCR firmy Microsoft (alternatywy w języku C#)
OCR (optyczne rozpoznawanie znaków) to kluczowa technologia dla firm każdej wielkości. Umożliwia to wydajne skanowanie, przechowywanie i analizę danych, których obsługa w innym przypadku byłaby czasochłonna i skomplikówana.
Narzędzia OCR firmy Microsoft oferują solidne opcje ułatwiające proces transformacji cyfrowej. Narzędzia te pozwalają na szybsze i bardziej wydajne przetwarzanie dokumentów, dzięki czemu zyskujesz czas, który możesz poświęcić na ważne zadania związane z rozwojem swojej firmy. W tym artykułe omówimy, jak wykorzystać potężne narzędzia OCR firmy Microsoft do usprawnienia operacji.
OneNote: narzędzie firmy Microsoft
Jeśli potrzebujesz wyodrębnić tekst z obrazu, pomocnym narzędziem jest Microsoft OneNote. OneNote to wszechstronna aplikacja do tworzenia notatek, która zapewnia platformę do rejestrowania, przechowywania i organizowania informacji w różnych formach, takich jak tekst, obrazy, audio i wideo. Jest to również cenne narzędzie do kopiowania tekstu z obrazów lub wydruków plików, oszczędzające czas i wysiłek poprzez wyeliminowanie konieczności ręcznego wpisywania tekstu.
Wyodrębnij tekst za pomocą OneNote
Aby wyodrębnić tekst z obrazu za pomocą programu OneNote, wykonaj następujące czynności:
- Uruchom aplikację OneNote.
-
Wstaw plik obrazu za pomocą opcji "Wstaw" lub po prostu przeciągnij i upuść plik obrazu do okna OneNote.
Wstawianie wstążki w OneNote
-
Kliknij prawym przyciskiem myszy na obrazek i wybierz z menu opcję "Kopiuj tekst z obrazka".
Kopiuj tekst ze zdjęcia w menu kontekstowym
-
Na koniec wklej skopiowany tekst w dowolnym miejscu, aby uzyskać dostęp do tekstu wyodrębnionego ze zeskanowanego obrazu.
Tekst pochodzi z obrazu
W ten sposób można używać programu OneNote do skanowania dowolnych obrazów.
Microsoft Vision Studio
Usługi Microsoft Cognitive Services oferują funkcję "Wyodrębnianie tekstu z obrazów", wykorzystującą sztuczną inteligencję do skanowania obrazów i dokładnego wykrywania tekstu. Usługa ta jest przyjazna dla użytkownika i wymaga jedynie przesłania obrazu lub pliku PDF. Informacje są następnie transkrybowane z dużą dokładnością, co gwarantuje, że wyodrębniony tekst dokładnie odzwierciedla zawartość obrazu lub pliku PDF.
Ponadto wyodrębniony tekst może być w różnych językach, dzięki czemu usługa jest dostępna dla użytkowników z całego świata. Dzięki funkcji "Extract Text from Images" (Wyodrębnij tekst z obrazów) w usłudze Microsoft Cognitive Services wyodrębnianie cennych danych z obrazów jest proste i umożliwia wydajną analizę oraz skuteczne wykonywanie zadań.
Wyodrębnianie tekstu za pomocą Microsoft Vision Studio
Aby skorzystać z funkcji "Wyodrębnianie tekstu z obrazów", można odwiedzić stronę internetową Vision Studio platformy Microsoft Azure. Usługa ta wymaga jednak subskrypcji platformy Azure. Po wykupieniu subskrypcji uzyskasz dostęp do tekstu wyodrębnionego ze zeskanowanych dokumentów. Poniżej znajduje się przykładowy obrazek wyjściowy do wglądu.
Obraz zeskanowany w celu uzyskania tekstu
A9T9 Darmowe oprogramowanie OCR firmy Microsoft
A9T9 Free OCR Software to wszechstronne narzędzie, które umożliwia użytkownikom systemu Windows łatwą konwersję dokumentów papierowych na tekst cyfrowy. Prosta funkcja "przeciągnij i upuść" pozwala na natychmiastowe rozpoznanie tekstu w wielu językach, w tym angielskim, niemiećkim, chińskim, koreańskim i indyjskim. To oprogramowanie może wyodrębniać dane ze skanowanych obrazów lub dokumentów PDF i konwertować je do formatu umożliwiającego edycję i przeszukiwanie.
To oprogramowanie obsługuje różne formaty wyjściowe, takie jak Rich Text, TXT lub CSV, oraz formaty obrazów, takie jak BMP, TIF lub PDF. Posiada również funkcję automatycznego prostowania dokumentów. To oprogramowanie szybko i dokładnie rozpoznaje tekst na obrazach w różnych językach, nawet tych z przezroczystym tłem. Wysoka dokładność, przystępna cena i łatwość instalacji sprawiają, że A9T9 jest najlepszym wyborem dla użytkowników systemu Windows poszukujących bezpłatnego oprogramowania do rozpoznawania tekstu (OCR).
Skopiuj tekst za pomocą A9T9
Oprogramowanie A9T9 można pobrać ze sklepu Microsoft Store. Po instalacji otwórz oprogramowanie A9T9 i prześlij obrazy lub pliki PDF.
Skopiuj tekst za pomocą A9T9
Po załadowaniu obrazu lub dokumentu kliknij przycisk "Rozpocznij OCR". Spowoduje to wyodrębnienie tekstu ze zeskanowanego dokumentu lub obrazu i wyświetlenie go w obszarze tekstowym po prawej stronie.
Tekst znajduje się po prawej stronie
Możesz wybrać język OCR oraz skopiować tekst lub zapisać go jako dokument WORD.
Office Lens
Office Lens to zaawansowane narzędzie stworzone do przechwytywania i porządkowania notatek, treści z tablic, menu, znaków oraz innych rodzajów informacji pisemnych lub wizualnych. Ta aplikacja stanowi doskonałą alternatywę dla tradycyjnego sporządzania notatek, eliminując potrzebę ręcznego pisania notatek oraz ryzyko utraty ważnych informacji.
Office Lens pozwala użytkownikom w łatwy sposób przechwytywać szkice, odręczne notatki, rysunki i równania oraz korygować obrazy pod kątem cieni i przekrzywionych kątów w celu poprawy czytelności. Posiada również funkcję OCR (optycznego rozpoznawania znaków), umożliwiającą użytkownikom digitalizację i edycję tekstu w obrazach.
Niestety, firma Microsoft wycofała wersję Office Lens dla systemu Windows. Obecnie jest dostępna wyłącznie na urządzeniach mobilnych. Ponadto z programu Microsoft WORD 2010 usunięto funkcję Microsoft Office Document Imaging.
IronOCR: biblioteka OCR dla języka C
IronOCR to potężna biblioteka OCR w języku C# dla programistów .NET. Umożliwia pełne wykorzystanie funkcji OCR w zeskanowanych dokumentach i obrazach, ułatwiając programistom automatyzację procesów opartych na dokumentach. Dzięki prostemu interfejsowi API i minimalnej konfiguracji IronOCR można łatwo zintegrować z istniejącymi systemami.
Biblioteka oferuje proste API, co ułatwia integrację z istniejącymi systemami przy minimalnej konfiguracji. Obsługuje szeroki zakres formatów plików wejściowych, w tym JPEG, TIFF, GIF, BMP, PDF, wielostronicowe pliki TIFF oraz skany wielu dokumentów, a także może odczytywać tekst z obrazów o różnej orientacji.
Zaawansowane funkcje IronOCR obejmują usuwanie szumów, co pomaga zmniejszyć zniekształcenia obrazu i poprawić dokładność wyników ekstrakcji tekstu. Dzięki obsłudze ponad 125 języków, w tym angielskiego, francuskiego, niemiećkiego, hiszpańskiego i japońskiego, biblioteka nadaje się do niemal każdej aplikacji wymagającej wysokiej jakości wyników OCR bez ręcznej interwencji.
Wyodrębnianie tekstu za pomocą IronOCR
Dzięki możliwości łatwego wyodrębniania tekstu z plików PDF można określić konkretne numery stron lub wyodrębnić tekst ze wszystkich stron dokumentu. Proces ten można usprawnić i zwiększyć jego wydajność dzięki odpowiednim narzędziom.
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput())
{
// Add the entire PDF for OCR processing
ocrInput.AddPdf("example.pdf");
// Alternatively, OCR selected page numbers from a password-protected PDF
ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
// Perform OCR and get the result
var ocrResult = ocrTesseract.Read(ocrInput);
// Output the extracted text
Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
using (var ocrInput = new OcrInput())
{
// Add the entire PDF for OCR processing
ocrInput.AddPdf("example.pdf");
// Alternatively, OCR selected page numbers from a password-protected PDF
ocrInput.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
// Perform OCR and get the result
var ocrResult = ocrTesseract.Read(ocrInput);
// Output the extracted text
Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System
Private ocrTesseract = New IronTesseract()
Using ocrInput As New OcrInput()
' Add the entire PDF for OCR processing
ocrInput.AddPdf("example.pdf")
' Alternatively, OCR selected page numbers from a password-protected PDF
ocrInput.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
' Perform OCR and get the result
Dim ocrResult = ocrTesseract.Read(ocrInput)
' Output the extracted text
Console.WriteLine(ocrResult.Text)
End Using
Oto wynik:
Wynik w konsoli debugowania Visual Studio
Oprócz wyodrębniania tekstu z plików PDF można również łatwo odczytywać BARCODES. Biblioteka zapewnia prostą implementację kodu do odczytu kodów barkowych, co czyni ją wszechstronnym narzędziem do różnych procesów opartych na dokumentach. Zobacz poniższy kod:
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
// Read barcodes from an image file
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
var ocrResult = ocrTesseract.Read(ocrInput);
// Iterate through the detected barcodes and print their values
foreach (var barcode in ocrResult.Barcodes)
{
Console.WriteLine(barcode.Value);
}
}
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
ocrTesseract.Configuration.ReadBarCodes = true;
// Read barcodes from an image file
using (var ocrInput = new OcrInput(@"images\imageWithBarcode.png"))
{
var ocrResult = ocrTesseract.Read(ocrInput);
// Iterate through the detected barcodes and print their values
foreach (var barcode in ocrResult.Barcodes)
{
Console.WriteLine(barcode.Value);
}
}
Imports IronOcr
Imports System
Private ocrTesseract = New IronTesseract()
ocrTesseract.Configuration.ReadBarCodes = True
' Read barcodes from an image file
Using ocrInput As New OcrInput("images\imageWithBarcode.png")
Dim ocrResult = ocrTesseract.Read(ocrInput)
' Iterate through the detected barcodes and print their values
For Each barcode In ocrResult.Barcodes
Console.WriteLine(barcode.Value)
Next barcode
End Using
Dane wejściowe/wyjściowe kodu
IronOCR obsługuje obrazy o niskiej rozdzielczości i zakłóceniach, poprawiając je przed przetworzeniem.
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
// Process a noisy image by deskewing and denoising it
using (var ocrInput = new OcrInput(@"images\image.png"))
{
ocrInput.Deskew(); // Corrects for skewness in the image
ocrInput.DeNoise(); // Reduces visual noise for better recognition
// Perform OCR and print the text
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
}
using IronOcr;
using System;
var ocrTesseract = new IronTesseract();
// Process a noisy image by deskewing and denoising it
using (var ocrInput = new OcrInput(@"images\image.png"))
{
ocrInput.Deskew(); // Corrects for skewness in the image
ocrInput.DeNoise(); // Reduces visual noise for better recognition
// Perform OCR and print the text
var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System
Private ocrTesseract = New IronTesseract()
' Process a noisy image by deskewing and denoising it
Using ocrInput As New OcrInput("images\image.png")
ocrInput.Deskew() ' Corrects for skewness in the image
ocrInput.DeNoise() ' Reduces visual noise for better recognition
' Perform OCR and print the text
Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)
End Using
Wnioski
Podsumowując, optyczne rozpoznawanie znaków (OCR) jest niezbędnym narzędziem, które może przynieść ogromne korzyści firmom każdej wielkości, umożliwiając im wydajne skanowanie, przechowywanie i przetwarzanie informacji, których ręczne zarządzanie byłoby skomplikówane i czasochłonne. Microsoft oferuje różne narzędzia OCR, w tym OneNote, Microsoft Vision Studio i bezpłatne oprogramowanie A9T9 Free OCR, które mogą usprawnić procesy i zaoszczędzić czas.
IronOCR, bogato wyposażona biblioteka OCR, jest wyróżniającą się opcją wśród dostępnych narzędzi OCR. Można go łatwo zintegrować z aplikacjami C# i VB.NET, oferuje doskonałą dokładność i rozpoznawanie wielu języków oraz formatów obrazów, a także posiada bezpłatny okres próbny, przy czym koszty licencji zaczynają się od $799. IronOCR to cenna inwestycja dla firm pragnących usprawnić swoją transformację cyfrową. Każde z tych narzędzi OCR oferuje unikalne funkcje i może zaspokajać różne potrzeby, co czyni je cennymi zasobami dla firm pragnących usprawnić swoją transformację cyfrową.




