跨平台支持

设计用于 C#, F#, & VB.NET 运行于 .NET 8、7、6、Core、Standard 或 Framework

NET标志
Visual Studio 标志 Visual Studio 标志
NuGet 徽标 NuGet 徽标
ReSharper
Windows徽标
Linux徽标
Mac标志
Docker 标志 Docker 标志
Azure标志 Azure标志
AWS 徽标 AWS 徽标
C# 网页抓取器
using IronWebScraper;

public class Program
{
    private static void Main(string[] args)
    {
        var ScrapeJob = new BlogScraper();
        ScrapeJob.Start();
    }
}

public class BlogScraper : WebScraper
{
    public override void Init()
    {
        LoggingLevel = LogLevel.All;
        Request("https://www.zyte.com/blog/", Parse);
    }

    public override void Parse(Response response)
    {
        foreach (HtmlNode title_link in response.Css(".oxy-post-title"))
        {
            string strTitle = title_link.TextContentClean;
            Scrape(new ScrapedData() { { "Title", strTitle } });
        }

        if (response.CssExists("div.oxy-easy-posts-pages > a[href]"))
        {
            string next_page = response.Css("div.oxy-easy-posts-pages > a[href]")[0].Attributes["href"];
            Request(next_page, Parse);
        }
    }
}
Imports IronWebScraper

Public Class Program
	Public Shared Sub Main(ByVal args() As String)
		Dim ScrapeJob = New BlogScraper()
		ScrapeJob.Start()
	End Sub
End Class

Public Class BlogScraper
	Inherits WebScraper

	Public Overrides Sub Init()
		LoggingLevel = LogLevel.All
		Request("https://www.zyte.com/blog/", AddressOf Parse)
	End Sub

	Public Overrides Sub Parse(ByVal response As Response)
		For Each title_link As HtmlNode In response.Css(".oxy-post-title")
			Dim strTitle As String = title_link.TextContentClean
			Scrape(New ScrapedData() From {
				{ "Title", strTitle }
			})
		Next title_link

		If response.CssExists("div.oxy-easy-posts-pages > a[href]") Then
			Dim next_page As String = response.Css("div.oxy-easy-posts-pages > a[href]")(0).Attributes("href")
			Request(next_page, AddressOf Parse)
		End If
	End Sub
End Class

IronWebScraper 提供了一个功能强大的框架,可使用 C# 代码从网站中提取数据和文件。

1.使用以下命令在项目中安装 IronWebScraper NuGet

2.创建一个扩展WebScraper的类

3.创建一个 Init 方法,使用 Request 方法解析至少一个 URL。

4.创建一个 Parse 方法来处理请求,并确实 Request 更多页面。使用 response.Css 使用 jQuery 样式的 CSS 选择器处理 HTML 元素

5.请在您的应用程序中创建一个网络搜刮类实例,并调用 `Start()方法

6.读取我们的 C# 网络抓取教程 了解如何使用 IronWebScraper 创建高级网络爬虫

直接来自我们开发团队的人工支持

无论是产品、集成还是许可查询,Iron产品开发团队随时准备支持您的所有问题。请联系我们并与Iron开启对话,以便在您的项目中最大限度地利用我们的库。

提问

强大的抓取引擎,由您掌控

只需编写一个 C# 网络抓取类,即可将数千甚至数百万个网页抓取到 C# 类实例、JSON或下载文件中。IronWebScraper 允许您编写简洁的线性工作流,模拟人类的浏览行为。IronWebScraper 将以一群虚拟网络浏览器的形式运行您的代码,具有大规模并行处理功能,同时保持礼貌和容错能力。

开始使用文档

简单,灵活的逻辑

IronWebScraper 必须被编程以知道如何处理它遇到的每种“类型”的页面。这可以通过使用 CSS 选择器或 XPath 表达式以非常简洁的方式实现,并且可以在 C# 中完全自定义。这种自由允许您决定在网站内抓取哪些页面以及对提取的数据进行处理。每种方法都可以在 Visual Studio 中进行调试和观察。

遵循教程

快速且礼貌的行为

IronWebScraper 处理多线程和网络请求,允许数百个并发线程而无需开发者管理它们。可以设置礼貌策略来限制请求,从而降低目标网络服务器过载的风险。

运行和使用IronWebscraper

创建虚拟用户身份

IronWebScraper 可以使用一个或多个“身份”——模拟现实世界人类请求的会话。每个请求可以以编程方式或随机地分配其自己的身份、用户代理、Cookies、登录信息,甚至 IP 地址。请求通过 URL、解析方法和 post 变量的组合被设置为自动唯一。

See API Reference

动作重放

IronWebScraper 使用高级缓存,使开发人员能够“实时”更改其代码,并在不联系互联网的情况下重放每个以前的请求。每个爬取任务都会自动保存,并且在出现异常或断电时可以恢复。

网页抓取工具设置说明
用于PDF创建和内容编辑的Visual Studio库。

使用Microsoft Visual Studio进行快速安装

IronWebScraper通过Visual Studio安装程序快速将网络爬虫工具掌握在您的手中。无论是通过Visual Studio中的NuGet直接安装还是下载DLL,您将很快完成设置。 只需一个DLL且无任何依赖项。

PM > Install-Package IronWebScraper 下载DLL
支持:
  • .NET Framework 4.0及以上版本支持C#、VB、F#
  • Microsoft Visual Studio .NET 开发IDE图标
  • Visual Studio 的 NuGet 安装程序支持
  • JetBrains ReSharper C#语言助手兼容
  • 与Microsoft Azure C# .NET托管平台兼容

.NET网络爬虫社区教程

教程 + 代码示例 使用 .NET 进行网络抓取 | VB.NET 和 ASP.NET PDF

VB C# ASP.NET

使用C#和VB.NET进行网页抓取

看看艾哈迈德如何在他的项目中使用IronWebScraper将内容从一个网站迁移到另一个网站。提供了用于抓取电子商务和博客网站的示例项目和代码。

艾哈迈德·阿卜杜勒马杰德 .NET软件工程师 查看 Ahmed 的 WebScraping 教程
我们的客户使用IronWebScraper与...

会计和财务系统

  • # 收据
  • # 报告
  • # 发票打印
将 PDF 支持添加到 ASP.NET 会计和财务系统中

业务数字化

  • # 文档
  • # 订购与标签
  • # 纸张替代
C# 业务数字化用例

企业内容管理

  • # 内容制作
  • # 文档管理
  • # 内容分发
.NET CMS PDF支持

数据和报告应用程序

  • # 性能跟踪
  • # 趋势图绘制
  • # 报告
C# PDF报告
立即加入他们
企业级 .NET 组件开发商 Iron Software

成千上万的公司、政府、中小企业和开发人员都信任Iron软件产品。

Iron的团队在.NET软件组件市场拥有超过10年的经验。

Iron Software 客户图标
Iron Software 客户图标
Iron Software 客户图标
Iron Software 客户图标
Iron Software 客户图标
Iron Software 客户图标
Iron Software 客户图标
Iron Software 客户图标

世界级工程,
24小时支持

与专家交谈

准备开始了吗? 版本: 2024.9 刚刚发布

免费NuGet下载 总下载量: 90,245 查看许可证 >