在實際環境中測試
在生產環境中測試無浮水印。
在任何需要的地方都能運作。
專為設計 C#、F#、VB.NET 運行於 .NET 8、7、6、Core、Standard 或 Framework
using IronWebScraper;
public class Program
{
private static void Main(string[] args)
{
var ScrapeJob = new BlogScraper();
ScrapeJob.Start();
}
}
public class BlogScraper : WebScraper
{
public override void Init()
{
LoggingLevel = LogLevel.All;
Request("https://www.zyte.com/blog/", Parse);
}
public override void Parse(Response response)
{
foreach (HtmlNode title_link in response.Css(".oxy-post-title"))
{
string strTitle = title_link.TextContentClean;
Scrape(new ScrapedData() { { "Title", strTitle } });
}
if (response.CssExists("div.oxy-easy-posts-pages > a[href]"))
{
string next_page = response.Css("div.oxy-easy-posts-pages > a[href]")[0].Attributes["href"];
Request(next_page, Parse);
}
}
}
Imports IronWebScraper
Public Class Program
Public Shared Sub Main(ByVal args() As String)
Dim ScrapeJob = New BlogScraper()
ScrapeJob.Start()
End Sub
End Class
Public Class BlogScraper
Inherits WebScraper
Public Overrides Sub Init()
LoggingLevel = LogLevel.All
Request("https://www.zyte.com/blog/", AddressOf Parse)
End Sub
Public Overrides Sub Parse(ByVal response As Response)
For Each title_link As HtmlNode In response.Css(".oxy-post-title")
Dim strTitle As String = title_link.TextContentClean
Scrape(New ScrapedData() From {
{ "Title", strTitle }
})
Next title_link
If response.CssExists("div.oxy-easy-posts-pages > a[href]") Then
Dim next_page As String = response.Css("div.oxy-easy-posts-pages > a[href]")(0).Attributes("href")
Request(next_page, AddressOf Parse)
End If
End Sub
End Class
IronWebScraper 提供了一個強大的框架,使用 C# 代碼從網站提取數據和文件。
只需编写一个 C# 網頁爬蟲類,即可將成千上萬甚至數百萬個網頁抓取到 C# 類實例、JSON 或下載文件中。IronWebScraper 允許您編寫簡潔、線性的工作流程,模擬人類的瀏覽行為。IronWebScraper 將以一支虛擬網頁瀏覽器群來運行您的代碼,具有大規模並行處理、禮貌並且容錯的特性。
開始使用文件IronWebScraper 必須被編寫程序以了解如何處理所遇到的每個“類型”頁面。這可以通過使用 CSS 選擇器或 XPath 表達式以非常簡潔的方式實現,並且可以在 C# 中完全自定義。這樣的自由使您可以決定在網站內抓取哪些頁面,以及如何處理提取的數據。每種方法都可以在 Visual Studio 中整潔地調試和觀察。
跟隨教學IronWebScraper 處理多執行緒和網路請求,以允許數百個同時進行的執行緒,而開發者無需管理它們。可以設置禮貌性以節流請求,從而降低目標網路伺服器過載的風險。
快速入門 WebScraperIronWebScraper 可以使用一個或多個“身份” - 模擬現實世界中人類請求的會話。每個請求都可以通過程式化或隨機地分配其自身的身份、用戶代理、Cookies、登錄訊息,甚至是 IP 地址。請求被設置為自動唯一,並使用 URL、解析方法和發布變數的組合。
See API ReferenceIronWebScraper 使用先進的快取技術,讓開發人員可以即時更改他們的程式碼,並且能夠在不聯網的情況下重播每一次過去的請求。每個抓取任務都會自動保存,並且在發生異常或停電時可以恢復。
WebScraper 設置說明IronWebScraper 通過 Visual Studio 安裝程式迅速地將 Web Scraping 工具掌握在您手中。無論是直接從 Visual Studio 內的 NuGet 進行安裝,還是下載 DLL,都能迅速完成設置。 只需一個 DLL 且無依賴項。
PM > Install-Package IronWebScraper 下載DLLVB C# ASP.NET
看看Ahmed如何在他的專案中使用IronWebScraper將內容從一個網站遷移到另一個網站。提供用於抓取電子商務和博客網站的範例專案和代碼。
查看艾哈邁德的WebScraping教程Iron 團隊在 .NET 軟體元件市場有超過 10 年的經驗。