IronOCR 故障排除 PDF 的内容区域和裁剪区域 使用 IronOCR 处理作物区域和矩形 Curtis Chau 已更新:六月 1, 2025 下载 IronOCR NuGet 下载 DLL 下载 Windows 安装程序 免费试用 法学硕士副本 法学硕士副本 将页面复制为 Markdown 格式,用于 LLMs 在 ChatGPT 中打开 向 ChatGPT 咨询此页面 在双子座打开 向 Gemini 询问此页面 在双子座打开 向 Gemini 询问此页面 打开困惑 向 Perplexity 询问有关此页面的信息 分享 在 Facebook 上分享 分享到 X(Twitter) 在 LinkedIn 上分享 复制链接 电子邮件文章 This article was translated from English: Does it need improvement? Translated View the article in English 如何使用 IronOCR 设置 PDF 的内容区域? 内容区域和 PDF OcrInput.LoadPdf和LoadPdfPage方法都提供了添加ContentArea 的选项。 问题是——PDF 文件的大小不是以像素为单位的,但内容区域通常是以像素为单位的,我该如何知道我的内容区域有多大? 选项 1 OcrInput.TargetDPI默认值为 225 - 这决定了 PDF 图像的像素大小。 IronOCR 会看到这条信息。 方案二(理想使用场景) 使用OcrInput.LoadPdf()加载您的 PDF 模板。 使用OcrInput.GetPages()获取输入框的宽度和高度。 使用OcrInput.GetPages().First().ToBitmap()获取 OCR 引擎将读取的确切图像。 现在您可以测量导出图像中内容区域的像素大小。 目标坐标可用于特定的 OCR 区域(参见最终结果)。 获取您的信息: using System.Linq; // Needed for First() using IronOcr; var ocr = new IronTesseract(); using (var input = new OcrInput()) { // Load the PDF document input.LoadPdf("example.pdf"); // Save the first page as a bitmap to measure it input.GetPages().First().ToBitmap().SaveAs("measure-me.bmp"); // Get the dimensions of the first page var width = input.GetPages().First().Width; var height = input.GetPages().First().Height; // Optionally, output the dimensions to understand the scale Console.WriteLine($"Width: {width}px, Height: {height}px"); } using System.Linq; // Needed for First() using IronOcr; var ocr = new IronTesseract(); using (var input = new OcrInput()) { // Load the PDF document input.LoadPdf("example.pdf"); // Save the first page as a bitmap to measure it input.GetPages().First().ToBitmap().SaveAs("measure-me.bmp"); // Get the dimensions of the first page var width = input.GetPages().First().Width; var height = input.GetPages().First().Height; // Optionally, output the dimensions to understand the scale Console.WriteLine($"Width: {width}px, Height: {height}px"); } Imports System.Linq ' Needed for First() Imports IronOcr Private ocr = New IronTesseract() Using input = New OcrInput() ' Load the PDF document input.LoadPdf("example.pdf") ' Save the first page as a bitmap to measure it input.GetPages().First().ToBitmap().SaveAs("measure-me.bmp") ' Get the dimensions of the first page Dim width = input.GetPages().First().Width Dim height = input.GetPages().First().Height ' Optionally, output the dimensions to understand the scale Console.WriteLine($"Width: {width}px, Height: {height}px") End Using $vbLabelText $csharpLabel 最终结果: using IronOcr; using IronSoftware.Drawing; // Needed for Rectangle var ocr = new IronTesseract(); using (var input = new OcrInput()) { // Define the content area rectangle with specific pixel coordinates var contentArea = new Rectangle { X = 215, Y = 1250, Height = 280, Width = 1335 }; //<-- the area you want in px // Load the specific content area of the PDF input.LoadPdf("example.pdf", contentArea: contentArea); // Perform OCR on the defined content area var result = ocr.Read(input); // Optionally, print the OCR result Console.WriteLine(result.Text); } using IronOcr; using IronSoftware.Drawing; // Needed for Rectangle var ocr = new IronTesseract(); using (var input = new OcrInput()) { // Define the content area rectangle with specific pixel coordinates var contentArea = new Rectangle { X = 215, Y = 1250, Height = 280, Width = 1335 }; //<-- the area you want in px // Load the specific content area of the PDF input.LoadPdf("example.pdf", contentArea: contentArea); // Perform OCR on the defined content area var result = ocr.Read(input); // Optionally, print the OCR result Console.WriteLine(result.Text); } Imports IronOcr Imports IronSoftware.Drawing ' Needed for Rectangle Private ocr = New IronTesseract() Using input = New OcrInput() ' Define the content area rectangle with specific pixel coordinates Dim contentArea = New Rectangle With { .X = 215, .Y = 1250, .Height = 280, .Width = 1335 } ' Load the specific content area of the PDF input.LoadPdf("example.pdf", contentArea:= contentArea) ' Perform OCR on the defined content area Dim result = ocr.Read(input) ' Optionally, print the OCR result Console.WriteLine(result.Text) End Using $vbLabelText $csharpLabel API 参考: OcrInput|OcrInput.Page Curtis Chau 立即与工程团队聊天 技术作家 Curtis Chau 拥有卡尔顿大学的计算机科学学士学位,专注于前端开发,精通 Node.js、TypeScript、JavaScript 和 React。他热衷于打造直观且美观的用户界面,喜欢使用现代框架并创建结构良好、视觉吸引力强的手册。除了开发之外,Curtis 对物联网 (IoT) 有浓厚的兴趣,探索将硬件和软件集成的新方法。在空闲时间,他喜欢玩游戏和构建 Discord 机器人,将他对技术的热爱与创造力相结合。 准备开始了吗? Nuget 下载 5,167,857 | Version: 2025.11 刚刚发布 免费 NuGet 下载 总下载量:5,167,857 查看许可证