using IronWebScraper;
public class Program
{
private static void Main(string[] args)
{
var ScrapeJob = new BlogScraper();
ScrapeJob.Start();
}
}
public class BlogScraper : WebScraper
{
public override void Init()
{
LoggingLevel = LogLevel.All;
Request("https://www.zyte.com/blog/", Parse);
}
public override void Parse(Response response)
{
foreach (HtmlNode title_link in response.Css(".oxy-post-title"))
{
string strTitle = title_link.TextContentClean;
Scrape(new ScrapedData() { { "Title", strTitle } });
}
if (response.CssExists("div.oxy-easy-posts-pages > a[href]"))
{
string next_page = response.Css("div.oxy-easy-posts-pages > a[href]")[0].Attributes["href"];
Request(next_page, Parse);
}
}
}
Imports IronWebScraper
Public Class Program
Public Shared Sub Main(ByVal args() As String)
Dim ScrapeJob = New BlogScraper()
ScrapeJob.Start()
End Sub
End Class
Public Class BlogScraper
Inherits WebScraper
Public Overrides Sub Init()
LoggingLevel = LogLevel.All
Request("https://www.zyte.com/blog/", AddressOf Parse)
End Sub
Public Overrides Sub Parse(ByVal response As Response)
For Each title_link As HtmlNode In response.Css(".oxy-post-title")
Dim strTitle As String = title_link.TextContentClean
Scrape(New ScrapedData() From {
{ "Title", strTitle }
})
Next title_link
If response.CssExists("div.oxy-easy-posts-pages > a[href]") Then
Dim next_page As String = response.Css("div.oxy-easy-posts-pages > a[href]")(0).Attributes("href")
Request(next_page, AddressOf Parse)
End If
End Sub
End Class
IronWebscraper bietet ein leistungsfähiges Framework zur Extraktion von Daten und Dateien aus Websites mit C#-Code.
Installieren Sie IronWebscraper in Ihrem Projekt mitNuGet
Erstellen einer Klasse, die den WebScraper erweitert
Erstellen Sie eine Init'-Methode, die dieRequest'-Methode verwendet, um mindestens eine URL zu analysieren.
Erstellen Sie eine "Parse"-Methode, um die Anfragen zu verarbeiten, und fordern Sie in der Tat weitere Seiten "an". Verwenden Sie response.Css, um mit HTML-Elementen unter Verwendung von CSS-Selektoren im jQuery-Stil zu arbeiten
Erstellen Sie in Ihrer Anwendung eine Instanz Ihrer Web-Scraping-Klasse und rufen Sie die Funktion Start(); Methode
Lesen Sie unserC# Webscraping-Tutorials um zu lernen, wie man mit IronWebScraper fortgeschrittene Webcrawler erstellt
Menschliche Unterstützung direkt von unserem Entwicklungsteam
Ob es sich um Produkt-, Integrations- oder Lizenzierungsfragen handelt, das Iron Produktentwicklungsteam steht Ihnen für alle Fragen zur Verfügung. Setzen Sie sich mit uns in Verbindung und beginnen Sie einen Dialog mit Iron, um das Beste aus unserer Bibliothek für Ihr Projekt herauszuholen.
Leistungsstarke Scraping-Engine unter Ihrer Kontrolle
Schreiben Sie einfach eine einzige C# Web-Scraper-Klasse, um Tausende oder sogar Millionen von Webseiten in C#-Klasseninstanzen, JSON oder heruntergeladene Dateien zu scrapen. IronWebScraper ermöglicht es Ihnen, prägnante, lineare Workflows zu programmieren, die das menschliche Browsing-Verhalten simulieren. IronWebScraper führt Ihren Code als Schwarm virtueller Webbrowser aus, die massiv parallelisiert, aber dennoch höflich und fehlertolerant sind.
IronWebscraper muss so programmiert werden, dass er weiß, wie er jeden "Typ" von Seite, auf den er trifft, behandeln soll. Dies wird auf sehr prägnante Weise mit CSS-Selektoren oder XPath-Ausdrücken erreicht und kann vollständig in C# angepasst werden. Dank dieser Freiheit können Sie selbst entscheiden, welche Seiten einer Website Sie scrapen möchten und was mit den extrahierten Daten geschehen soll. Jede Methode lässt sich in Visual Studio problemlos debuggen und überwachen.
IronWebScraper beherrscht Multithreading und Web-Anfragen, so dass Hunderte von gleichzeitigen Threads möglich sind, ohne dass der Entwickler sie verwalten muss. Höflichkeit kann eingestellt werden, um Anfragen zu drosseln und so das Risiko einer übermäßigen Belastung der Ziel-Webserver zu verringern.
IronWebscraper kann eine oder mehrere "Identitäten" verwenden - Sitzungen, die reale menschliche Anfragen simulieren. Jede Anfrage kann programmatisch oder zufällig eine eigene Identität, einen User Agent, Cookies, Logins und sogar IP-Adressen zuweisen. Anfragen werden mit einer Kombination aus URL, Parse-Methode und Post-Variablen als automatisch eindeutig festgelegt.
IronWebscraper nutzt fortschrittliches Caching, um Entwicklern die Möglichkeit zu geben, ihren Code "on the fly" zu ändern und jede frühere Anfrage erneut abzuspielen, ohne das Internet zu kontaktieren. Jeder Scrape-Job wird automatisch gespeichert und kann im Falle einer Ausnahme oder eines Stromausfalls fortgesetzt werden.
IronWebscraper gibt Ihnen die Web Scraping Tools mit einem Visual Studio Installer schnell in die Hand. Ob Sie nun direkt von NuGet in Visual Studio installieren oder die DLL herunterladen, Sie sind in kürzester Zeit startklar. Nur eine DLL und keine Abhängigkeiten.
Sehen Sie, wie Ahmed IronWebscraper in seinen Projekten verwendet, um Inhalte von einer Website auf eine andere zu migrieren. Beispielprojekte und Code für das Scraping von E-Commerce- und Blog-Websites