using IronWebScraper;
public class Program
{
private static void Main(string[] args)
{
var ScrapeJob = new BlogScraper();
ScrapeJob.Start();
}
}
public class BlogScraper : WebScraper
{
public override void Init()
{
LoggingLevel = LogLevel.All;
Request("https://www.zyte.com/blog/", Parse);
}
public override void Parse(Response response)
{
foreach (HtmlNode title_link in response.Css(".oxy-post-title"))
{
string strTitle = title_link.TextContentClean;
Scrape(new ScrapedData() { { "Title", strTitle } });
}
if (response.CssExists("div.oxy-easy-posts-pages > a[href]"))
{
string next_page = response.Css("div.oxy-easy-posts-pages > a[href]")[0].Attributes["href"];
Request(next_page, Parse);
}
}
}
Imports IronWebScraper
Public Class Program
Public Shared Sub Main(ByVal args() As String)
Dim ScrapeJob = New BlogScraper()
ScrapeJob.Start()
End Sub
End Class
Public Class BlogScraper
Inherits WebScraper
Public Overrides Sub Init()
LoggingLevel = LogLevel.All
Request("https://www.zyte.com/blog/", AddressOf Parse)
End Sub
Public Overrides Sub Parse(ByVal response As Response)
For Each title_link As HtmlNode In response.Css(".oxy-post-title")
Dim strTitle As String = title_link.TextContentClean
Scrape(New ScrapedData() From {
{ "Title", strTitle }
})
Next title_link
If response.CssExists("div.oxy-easy-posts-pages > a[href]") Then
Dim next_page As String = response.Css("div.oxy-easy-posts-pages > a[href]")(0).Attributes("href")
Request(next_page, AddressOf Parse)
End If
End Sub
End Class
IronWebScraper fournit un cadre puissant pour extraire des données et des fichiers de sites web à l'aide du code C#.
Installez IronWebscraper dans votre projet à l'aide deNuGet
Créer une classe étendant WebScraper
Créer une méthode Init qui utilise la méthode Request pour analyser au moins une URL.
Créer une méthode Parse pour traiter les requêtes, et en effet Request plus de pages. Utiliser response.Css pour travailler avec des éléments HTML à l'aide de sélecteurs CSS de style jQuery
Dans votre application, créez une instance de votre classe de web scraping et appelez la fonction Start(); méthode
Soutien humain directement par notre équipe de développement
Qu'il s'agisse de questions sur les produits, l'intégration ou les licences, l'équipe de développement des produits Iron est à votre disposition pour répondre à toutes vos questions. Prenez contact et entamez un dialogue avec Iron pour tirer le meilleur parti de notre bibliothèque dans le cadre de votre projet.
Un puissant moteur de scraping sous votre contrôle
Il suffit d'écrire une seule classe C# de web-scraper pour récupérer des milliers, voire des millions de pages web dans des instances de classe C#, JSON ou des fichiers téléchargés. IronWebScraper vous permet de coder des flux de travail concis et linéaires simulant le comportement de navigation humain. IronWebScraper exécutera votre code sous la forme d'un essaim de navigateurs web virtuels, massivement mis en parallèle, tout en restant poli et tolérant aux pannes.
IronWebscraper doit être programmé pour savoir comment traiter chaque "type" de page qu'il rencontre. Cela se fait de manière très concise à l'aide de sélecteurs CSS ou d'expressions XPath et peut être entièrement personnalisé en C#. Cette liberté vous permet de décider quelles pages doivent être scrappées à l'intérieur d'un site web, et ce qu'il faut faire avec les données extraites. Chaque méthode peut être déboguée et observée proprement dans Visual Studio.
IronWebScraper gère le multithreading et les requêtes web pour permettre des centaines de threads simultanés sans que le développeur n'ait à les gérer. La politesse peut être définie pour limiter les demandes, réduisant ainsi le risque de charge excessive sur les serveurs web cibles.
IronWebscraper peut utiliser une ou plusieurs "identités" - des sessions qui simulent des demandes humaines réelles. Chaque demande peut se voir attribuer de manière programmatique ou aléatoire sa propre identité, son agent utilisateur, ses cookies, ses identifiants et même son adresse IP. Les requêtes sont définies comme auto-uniques par une combinaison d'URL, de méthodes d'analyse et de variables post.
IronWebscraper utilise une mise en cache avancée pour permettre aux développeurs de modifier leur code "à la volée" et de rejouer toutes les requêtes précédentes sans contacter l'internet. Chaque travail de scrape est sauvegardé automatiquement et peut être repris en cas d'exception ou de panne de courant.
IronWebScraper met les outils de Web Scraping entre vos mains rapidement grâce à un installateur Visual Studio. Que vous installiez directement depuis NuGet dans Visual Studio ou que vous téléchargiez la DLL, vous serez prêt en un rien de temps. Une seule DLL et aucune dépendance.
Projets d'extraction de données du Web en C# et VB.NET
Découvrez comment Ahmed utilise IronWebScraper dans ses projets pour migrer le contenu d'un site vers un autre. Exemples de projets et de codes fournis pour le scraping de sites de commerce électronique et de blogs
Téléchargez et décompressez IronWebScraper à un emplacement tel que ~/Libs dans votre répertoire Solution
Dans l'explorateur de solutions de Visual Studio, cliquez avec le bouton droit de la souris sur References. Sélectionnez Parcourir, "IronWebscraper.dll"
Des millions d'ingénieurs dans le monde entier lui font confiance
Réservez une démo en direct gratuite
Réservez une démonstration personnelle de 30 minutes.
Pas de contrat, pas de détails de carte, pas d'engagements.
Voici ce à quoi vous pouvez vous attendre :
Une démonstration en direct de notre produit et de ses principales fonctionnalités
Obtenez des recommandations de fonctionnalités spécifiques au projet
Toutes vos questions trouvent réponse pour vous assurer de disposer de toutes les informations dont vous avez besoin. (Aucun engagement de votre part.)
CHOISIR L'HEURE
VOS INFORMATIONS
Réservez votre démo en direct gratuite
Fiable par plus de 2 millions d'ingénieurs dans le monde entier