跳至页脚内容
OCR 工具

Windows 10 上的 OCR(免费在线工具)

光学字符识别(OCR)是将文本图像转换为机器可读格式的过程。 当图像或文档扫描到计算机中时,它会保存为图像文件。这样一来,文本编辑器就无法编辑、搜索或统计图像文件中的单词。OCR允许系统从图像中提取文本,然后将内容存储为可编辑的文本数据。

大多数业务工作流程涉及使用印刷媒体传递信息。 扫描文档和图像可能会带来挑战。 OCR技术通过将文本图像转换为文本数据,解决了这一问题,使其他业务软件可以对其进行分析。 这些数据可用于进行分析、简化操作、自动化过程和提高生产力。

本文将介绍一些免费的OCR程序,可以帮助用户高效管理文件。

微软OneNote:最佳免费OCR软件

OneNote是一个数字笔记应用程序,为您提供了一个保存所有笔记、研究、计划和信息的单一位置。 OneNote支持光学字符识别(OCR),这是一种工具,允许您从图片或文件打印件(PDF文档或Word文件)中提取文本并粘贴到您的笔记中,使您可以对单词进行更改。 扫描完名片后可以从中复制信息,将其放入OneNote中,非常方便。 提取文本后,您可以将其粘贴到OneNote或其他程序中,例如Outlook或Word。 您可以从微软商店下载最新版本,它通常已经安装在Windows系统上。 它是文本识别的最佳免费OCR软件选项之一。

OCR in Windows 10, Figure 1: OneNote OCR

从单张图片中提取文本

  1. 右键单击该图片,然后点击从图片复制文本
  2. 点击您想粘贴复制文本的位置,然后按Ctrl+V

从多页文件打印出的图像中提取文本

  1. 右键单击任何图像文件,然后执行以下操作之一:
    • 点击从当前打印页复制文本,仅复制当前选择的图像(页面)中的文本。
    • 点击从打印输出的所有页面复制文本,以复制所有图像(页面)中的文本。
  2. 点击您想粘贴复制文本的位置,然后按Ctrl+V

在线OCR工具

我们刚刚看到如何使用微软OneNote在本地机器上使用OCR技术从图像文件中提取文本。接下来,让我们看看当前在线可用的OCR软件。

OnlineOCR

OnlineOCR is a professional online OCR service with a clean and simple design. 该网站外观可能有些过时,因为它创建于2009年,但这也使得用户的OCR操作非常简单。

OnlineOCR允许您识别扫描的PDF文档、照片和数码相机拍摄的图像,并将其转换为可编辑的文件,如Word、TXT和Excel。 可以识别46种不同的语言,包括英语、西班牙语、日语、中文和韩语。

OCR in Windows 10, Figure 2: OnlineOCR

使用OnlineOCR完成OCR任务只需三个简单步骤。

步骤1。 单击"选择文件"按钮上传PDF文件或JPG、BMP、GIF或TIFF格式的扫描文档。 您也可以一次上传多个文件。 注意:您可以上传的最大文件大小为15MB。

步骤2。 选择您上传文件的语言,并选择Word、Excel和TXT输出格式之一。

步骤3。 单击"转换"以开始识别和转换您的文件。

NewOCR

Another free online OCR tool is NewOCR, which can analyze the text in an image file or PDF document that you upload, and then convert it to a text document that can be edited easily on your computer. 每位用户都可以享受无限次上传,无需注册。 您上传的所有文件都会从服务器上删除,所以无需担心文件安全问题。

OCR in Windows 10, Figure 3: NewOCR

首先,单击"选择文件"以从设备中添加图像或扫描文档,然后单击"预览"。

接下来,在语言框中选择一种或多种识别语言,然后根据需要旋转图像。 如果您上传的文件包含多列文本,请勾选"页面布局分析"选项卡以将文本分成列。 最后,点击"OCR"按钮。

OCR in Windows 10, Figure 4: NewOCR

识别的文本将显示在下面的文本框中。 您可以将文本下载为TXT、Word或PDF格式。

OCR in Windows 10, Figure 5: NewOCR

Convertio

Convertio is a free online OCR service with a modern and attractive design. 未注册的免费用户最多可以处理10页。 这些可以是PDF或Word文件。 您也可以使用扫描的PDF文件。如果您需要识别更多页面,只需注册以获得更好的服务。

要使用Convertio在线进行OCR,只需遵循以下三个步骤。

步骤1。 点击"选择文件"以从您本地设备、Google Drive、Dropbox或网页中选择并上传文件。 您也可以通过将文件拖到页面上来添加文件。

OCR in Windows 10, Figure 6: Convertio

Convertio

Step 2. 选择您的上传文件所使用的一种或两种语言。然后,将输出格式设置为Word文档、Excel工作簿、PDF文档、文本文件或您需要的任何格式。您可以通过在"页码"框中输入页面范围,选择识别所有页面或仅识别某些页面。

OCR in Windows 10, Figure 7: Convertio OCR 设置

Convertio OCR 设置

步骤3。 当识别和转换完成后,提取文本的已转换文档的下载链接将出现在顶部。只需将其保存到您指定的位置。

OCR in Windows 10, Figure 8: Convertio Downloading Files

从 Convertio 下载文件

Convertio作为OCR在线服务提供了最多的选项,因此是最好的免费在线OCR软件。

IronOCR

IronOCR 是.NET开发人员用于从扫描文档或PDF文件中提取文本的流行OCR技术库。 它在成像、数字化和识别方面提供了高度准确性、快速处理和稳固性能。 该库是一个软件组件,通过自动化文档扫描简化文档的数字化。 它还支持包括文档索引和图像处理在内的其他过程。

IronOCR独特之处在于其能够自动检测并从扫描不完全的图像和文档中提取数据。 IronTesseract 类提供了任何地方和任何平台上最先进版本的Tesseract,具有更高的速度和准确性。

让我们看看一个从扫描图像文件中提取文本的代码示例。

// Import the necessary IronOCR namespace
using IronOcr;

// Create an instance of the IronTesseract class
var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Load the image file to perform OCR
    Input.AddImage("test-files/redacted-employmentapp.png");

    // Perform OCR to extract text from the image(s)
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
// Import the necessary IronOCR namespace
using IronOcr;

// Create an instance of the IronTesseract class
var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Load the image file to perform OCR
    Input.AddImage("test-files/redacted-employmentapp.png");

    // Perform OCR to extract text from the image(s)
    var Result = Ocr.Read(Input);

    // Output the extracted text to the console
    Console.WriteLine(Result.Text);
}
' Import the necessary IronOCR namespace
Imports IronOcr

' Create an instance of the IronTesseract class
Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Load the image file to perform OCR
	Input.AddImage("test-files/redacted-employmentapp.png")

	' Perform OCR to extract text from the image(s)
	Dim Result = Ocr.Read(Input)

	' Output the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

输入图像以提取文本

OCR in Windows 10, Figure 9: IronOCR, 已编辑的员工数据

已编辑的员工数据

提取的文本输出

输出干净,只需几行代码就与原始图像匹配,确保完美的输出和无技术问题。

OCR in Windows 10, Figure 10: IronOCR, 图像输出

图像输出

许可

IronOCR完全免费供开发使用。 它还具有商业许可的独特定价结构。 Lite包起价为$799,无隐藏费用。 用户可以在购买前通过免费试用在生产中试用IronOCR。 选择一个与您的企业规模相匹配的包,可以选择一个开发人员、十个开发人员或无限开发人员的许可。

Iron Software正在以大折扣提供其整个产品套件。 在此页面了解更多详细信息。

Kannaopat Udonpant
软件工程师
在成为软件工程师之前,Kannapat 在日本北海道大学完成了环境资源博士学位。在攻读学位期间,Kannapat 还成为了车辆机器人实验室的成员,隶属于生物生产工程系。2022 年,他利用自己的 C# 技能加入 Iron Software 的工程团队,专注于 IronPDF。Kannapat 珍视他的工作,因为他可以直接从编写大多数 IronPDF 代码的开发者那里学习。除了同行学习外,Kannapat 还喜欢在 Iron Software 工作的社交方面。不撰写代码或文档时,Kannapat 通常可以在他的 PS5 上玩游戏或重温《最后生还者》。