在 C# 中的網路爬蟲

Translated

View the article in English

IronWebScraper 是什麼？

IronWebScraper 是一個針對 C# 和 .NET 編程平台的類庫與框架，允許開發者以程式化的方式讀取網站並提取其內容。這非常適合對現有網站或內部網進行逆向工程，並將它們轉換回數據庫或JSON數據。它也適用於從網際網路下載大量文件。

在許多方面，Iron Web Scraper 與 Python 的 Scrapy 庫相似，但它利用了 C#的優勢，特別是在網絡抓取過程中進行代碼逐步執行和調試的能力。

安裝

您第一步需要安裝 Iron Web Scraper，您可以從 NuGet 或從我們的網站下載 DLL完成安裝。

您將需要的所有類別都可以在 Iron Web Scraper 命名空間中找到。

PM > Install-Package IronWebScraper

PM > Install-Package IronWebScraper

SHELL

使用 Iron Webscraper

要學習如何使用Iron Web Scraper，最好查看一些範例。這個基本示例創建了一個類別，用於從網站博客抓取標題。

using IronWebScraper;

namespace WebScrapingProject
{
    class MainClass
    {
        public static void Main(string [] args)
        {
            var scraper = new BlogScraper();
            scraper.Start();
        }
    }

    class BlogScraper : WebScraper
    {
        public override void Init()
        {
            this.LoggingLevel = WebScraper.LogLevel.All;
            this.Request("https://ironpdf.com/blog/", Parse);
        }

        public override void Parse(Response response)
        {
            foreach (var title_link in response.Css("h2.entry-title a"))
            {
                string strTitle = title_link.TextContentClean;
                Scrape(new ScrapedData() { { "Title", strTitle } });
            }

            if (response.CssExists("div.prev-post > a [href]"))
            {
                var next_page = response.Css("div.prev-post > a [href]")[0].Attributes ["href"];
                this.Request(next_page, Parse);
            }
        }
    }
}

using IronWebScraper;

namespace WebScrapingProject
{
    class MainClass
    {
        public static void Main(string [] args)
        {
            var scraper = new BlogScraper();
            scraper.Start();
        }
    }

    class BlogScraper : WebScraper
    {
        public override void Init()
        {
            this.LoggingLevel = WebScraper.LogLevel.All;
            this.Request("https://ironpdf.com/blog/", Parse);
        }

        public override void Parse(Response response)
        {
            foreach (var title_link in response.Css("h2.entry-title a"))
            {
                string strTitle = title_link.TextContentClean;
                Scrape(new ScrapedData() { { "Title", strTitle } });
            }

            if (response.CssExists("div.prev-post > a [href]"))
            {
                var next_page = response.Css("div.prev-post > a [href]")[0].Attributes ["href"];
                this.Request(next_page, Parse);
            }
        }
    }
}

Imports IronWebScraper

Namespace WebScrapingProject
	Friend Class MainClass
		Public Shared Sub Main(ByVal args() As String)
			Dim scraper = New BlogScraper()
			scraper.Start()
		End Sub
	End Class

	Friend Class BlogScraper
		Inherits WebScraper

		Public Overrides Sub Init()
			Me.LoggingLevel = WebScraper.LogLevel.All
			Me.Request("https://ironpdf.com/blog/", AddressOf Parse)
		End Sub

		Public Overrides Sub Parse(ByVal response As Response)
			For Each title_link In response.Css("h2.entry-title a")
				Dim strTitle As String = title_link.TextContentClean
				Scrape(New ScrapedData() From {
					{ "Title", strTitle }
				})
			Next title_link

			If response.CssExists("div.prev-post > a [href]") Then
				Dim next_page = response.Css("div.prev-post > a [href]")(0).Attributes ("href")
				Me.Request(next_page, AddressOf Parse)
			End If
		End Sub
	End Class
End Namespace

$vbLabelText $csharpLabel

要抓取特定網站，我們將必須創建自己的類別來讀取該網站。此類別將擴展 Web Scraper。我們將在這個類別中添加一些方法，包括 init，在此方法中我們可以設定初始設定並開始第一個請求，這將會引發連鎖反應，從而抓取整個網站。

我們還必須新增至少一個Parse方法。解析方法讀取從互聯網下載的網頁，並使用類似於 jQuery 的 CSS 選擇器來選擇內容並提取相關的文本和/或圖像以供使用。

在Parse方法中，我們也可以指明要讓爬蟲繼續跟隨的超連結以及要忽略的超連結。

我們可以使用 scrape 方法來提取任何數據，並將其轉儲到方便的 JSON 格式文件中，以便日後使用。