Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
Conçu pour C#, F#, & VB.NET en cours d'exécution .NET 8, 7, 6, Core, Standard ou Framework
using IronWebScraper;
public class Program
{
private static void Main(string[] args)
{
var ScrapeJob = new BlogScraper();
ScrapeJob.Start();
}
}
public class BlogScraper : WebScraper
{
public override void Init()
{
LoggingLevel = LogLevel.All;
Request("https://www.zyte.com/blog/", Parse);
}
public override void Parse(Response response)
{
foreach (HtmlNode title_link in response.Css(".oxy-post-title"))
{
string strTitle = title_link.TextContentClean;
Scrape(new ScrapedData() { { "Title", strTitle } });
}
if (response.CssExists("div.oxy-easy-posts-pages > a[href]"))
{
string next_page = response.Css("div.oxy-easy-posts-pages > a[href]")[0].Attributes["href"];
Request(next_page, Parse);
}
}
}
Imports IronWebScraper
Public Class Program
Public Shared Sub Main(ByVal args() As String)
Dim ScrapeJob = New BlogScraper()
ScrapeJob.Start()
End Sub
End Class
Public Class BlogScraper
Inherits WebScraper
Public Overrides Sub Init()
LoggingLevel = LogLevel.All
Request("https://www.zyte.com/blog/", AddressOf Parse)
End Sub
Public Overrides Sub Parse(ByVal response As Response)
For Each title_link As HtmlNode In response.Css(".oxy-post-title")
Dim strTitle As String = title_link.TextContentClean
Scrape(New ScrapedData() From {
{ "Title", strTitle }
})
Next title_link
If response.CssExists("div.oxy-easy-posts-pages > a[href]") Then
Dim next_page As String = response.Css("div.oxy-easy-posts-pages > a[href]")(0).Attributes("href")
Request(next_page, AddressOf Parse)
End If
End Sub
End Class
IronWebScraper fournit un cadre puissant pour extraire des données et des fichiers de sites web à l'aide du code C#.
Installez IronWebscraper dans votre projet à l'aide de NuGet
Créer une classe étendant WebScraper
Créer une méthode Init
qui utilise la méthode Request
pour analyser au moins une URL.
Créer une méthode Parse
pour traiter les requêtes, et en effet Request
plus de pages. Utiliser response.Css pour travailler avec des éléments HTML à l'aide de sélecteurs CSS de style jQuery
Dans votre application, créez une instance de votre classe de web scraping et appelez la fonction Start();
méthode
Qu'il s'agisse de questions sur les produits, l'intégration ou les licences, l'équipe de développement des produits Iron est à votre disposition pour répondre à toutes vos questions. Prenez contact et entamez un dialogue avec Iron pour tirer le meilleur parti de notre bibliothèque dans le cadre de votre projet.
Poser une questionIl suffit d'écrire une seule classe C# de web-scraper pour récupérer des milliers, voire des millions de pages web dans des instances de classe C#, JSON ou des fichiers téléchargés. IronWebScraper vous permet de coder des flux de travail concis et linéaires simulant le comportement de navigation humain. IronWebScraper exécutera votre code sous la forme d'un essaim de navigateurs web virtuels, massivement mis en parallèle, tout en restant poli et tolérant aux pannes.
Commencer avec la documentationIronWebscraper doit être programmé pour savoir comment traiter chaque "type" de page qu'il rencontre. Cela se fait de manière très concise à l'aide de sélecteurs CSS ou d'expressions XPath et peut être entièrement personnalisé en C#. Cette liberté vous permet de décider quelles pages doivent être scrappées à l'intérieur d'un site web, et ce qu'il faut faire avec les données extraites. Chaque méthode peut être déboguée et observée proprement dans Visual Studio.
Suivre un tutorielIronWebScraper gère le multithreading et les requêtes web pour permettre des centaines de threads simultanés sans que le développeur n'ait à les gérer. La politesse peut être définie pour limiter les demandes, réduisant ainsi le risque de charge excessive sur les serveurs web cibles.
Démarrer avec WebScraperIronWebscraper peut utiliser une ou plusieurs "identités" - des sessions qui simulent des demandes humaines réelles. Chaque demande peut se voir attribuer de manière programmatique ou aléatoire sa propre identité, son agent utilisateur, ses cookies, ses identifiants et même son adresse IP. Les requêtes sont définies comme auto-uniques par une combinaison d'URL, de méthodes d'analyse et de variables post.
See API ReferenceIronWebscraper utilise une mise en cache avancée pour permettre aux développeurs de modifier leur code "à la volée" et de rejouer toutes les requêtes précédentes sans contacter l'internet. Chaque travail de scrape est sauvegardé automatiquement et peut être repris en cas d'exception ou de panne de courant.
Instructions d'installation de WebScraperIronWebScraper met les outils de Web Scraping entre vos mains rapidement grâce à un installateur Visual Studio. Que vous installiez directement depuis NuGet dans Visual Studio ou que vous téléchargiez la DLL, vous serez prêt en un rien de temps. Une seule DLL et aucune dépendance.
PM > Installer le paquet IronWebscraper Télécharger la DLLVB C# ASP.NET
Découvrez comment Ahmed utilise IronWebScraper dans ses projets pour migrer le contenu d'un site vers un autre. Exemples de projets et de codes fournis pour le scraping de sites de commerce électronique et de blogs
Voir le tutoriel d'Ahmed sur le WebScrapingL'équipe d'Iron a plus de 10 ans d'expérience sur le marché des composants logiciels .NET.
9 produits de l'API .NET pour vos documents de bureau