A Biblioteca de Webscraping em C#

Vá além da simples análise de HTML. Obtenha extração de dados da web automatizada para .NET 10 com multithreading, que extrai e exporta dados estruturados em grande escala.

Extrair dados usando seletores CSS, XPath e renderização JavaScript.

Multithreading com centenas de requisições simultâneas

Suporte para limitação de taxa, proxies, agentes de usuário e robots.txt.

Teste grátis por 30 dias, com todos os recursos, sem necessidade de cartão de crédito.

Web Scraper em C#

using IronWebScraper;

public class Program
{
    private static void Main(string[] args)
    {
        var ScrapeJob = new BlogScraper();
        ScrapeJob.Start();
    }
}

public class BlogScraper : WebScraper
{
    public override void Init()
    {
        LoggingLevel = LogLevel.All;
        Request("https://www.zyte.com/blog/", Parse);
    }

    public override void Parse(Response response)
    {
        foreach (HtmlNode title_link in response.Css(".oxy-post-title"))
        {
            string strTitle = title_link.TextContentClean;
            Scrape(new ScrapedData() { { "Title", strTitle } });
        }

        if (response.CssExists("div.oxy-easy-posts-pages > a[href]"))
        {
            string next_page = response.Css("div.oxy-easy-posts-pages > a[href]")[0].Attributes["href"];
            Request(next_page, Parse);
        }
    }
}

Install-Package IronWebScraper

Próximo passo: Inicie o teste gratuito

Totalmente funcional, sem marcas d'água.

Teste grátis por 30 dias - sem necessidade de cartão de crédito

Próximo passo: Inicie o teste gratuito

Totalmente funcional, sem marcas d'água.

Teste grátis por 30 dias - sem necessidade de cartão de crédito

Suporte multiplataforma

Projetado para C#, F# e VB.NET executados no .NET 10, 9, 8, 7, 6, 5, Core, Standard ou Framework.

Por que IronWebScraper

Raspe milhares de páginas de uma única classe C#. Seletor CSS, XPath, renderização de JavaScript, identidades virtuais e controles de polidez em uma só biblioteca.

Amplas capacidades de raspagem

Analise com seletores CSS ou expressões XPath; sintaxe estilo jQuery.
Renderize páginas JavaScript, não apenas HTML estático.
Saída para instâncias de classe C#, JSON ou arquivos baixados.

Resultado: Uma biblioteca cobre todo o fluxo de trabalho de raspagem que seu aplicativo precisará.

Pronto para usar em 5 minutos.

PM >
Install-Package IronWebScraper

→ inícios rápidos de 5 minutos.
API Simples: Request(url, Parse), response.Css(".selector"), Scrape(data).
Padrões inteligentes: multithreading, polidez e cache tratados pelo framework.

Resultado: Entregue um raspador neste sprint, não no próximo trimestre.

Desempenho empresarial

.NET 10, Core, Standard, or Framework
C#, VB.NET, F# suportados. Binários assinados pela DigiCert.
Implanta-se em qualquer lugar: Windows, Linux, macOS, Docker, Azure, AWS.

Resultado: Escale de uma única raspagem de blog para milhões de páginas sem reescrever seu modelo de threading.

Educado, resiliente e amigável para auditoria

Controle de limitação, suporte a proxy, user agents, e conformidade com robots.txt embutidos.
Identidades virtuais de usuário: User Agent por solicitação, cookies, logins e IP.
Tarefas auto-salvas retomam após exceções, falhas ou apagões.

View Code Examples

Suporte e licenciamento focados no desenvolvedor

Licença perpétua: compre uma vez, use para sempre. Atualizações e renovações opcionais.
Suporte técnico 24 horas por dia, 5 dias por semana (24/7 no Premium). Humanos reais, resposta média no chat <1 min.
Garantia de reembolso de 30 dias. Não é a escolha certa? Reembolso total, sem perguntas.

Chat With an Engineer

Para construtores

Recursos que você realmente usará:
- Seletores CSS & XPath
- multithreaded crawling
- rotação de proxy & user agent
- identidades de usuário virtuais
- auto-resume on crash
- Renderização em JavaScript
- limitação & polidez
- conformidade com o robots.txt
- replay de ação (offline)
- Saída JSON ou classe
Funciona em qualquer lugar: Windows, Linux, macOS, Docker, Azure, AWS.

(30 days, fully-functional product)

Para compradores

Confiado por milhões de engenheiros em todo o Iron Suite.
Construído para cargas de trabalho reais: migrações de sistema, análises competitivas, indexação de busca, mineração de dados.
Amigável para aquisições: licença perpétua, renovações opcionais, fatura disponível, várias opções de pagamento (incluindo local: Amazon Pay, Alipay, Apple Pay, IDEAL, SEPA, ACH).
Garantia de devolução do dinheiro em 30 dias.

See Licensing

Comece agora: exemplos de código C#

Web Scraper em C#

using IronWebScraper;

public class Program
{
    private static void Main(string[] args)
    {
        var ScrapeJob = new BlogScraper();
        ScrapeJob.Start();
    }
}

public class BlogScraper : WebScraper
{
    public override void Init()
    {
        LoggingLevel = LogLevel.All;
        Request("https://www.zyte.com/blog/", Parse);
    }

    public override void Parse(Response response)
    {
        foreach (HtmlNode title_link in response.Css(".oxy-post-title"))
        {
            string strTitle = title_link.TextContentClean;
            Scrape(new ScrapedData() { { "Title", strTitle } });
        }

        if (response.CssExists("div.oxy-easy-posts-pages > a[href]"))
        {
            string next_page = response.Css("div.oxy-easy-posts-pages > a[href]")[0].Attributes["href"];
            Request(next_page, Parse);
        }
    }
}

Imports IronWebScraper

Public Class Program
	Public Shared Sub Main(ByVal args() As String)
		Dim ScrapeJob = New BlogScraper()
		ScrapeJob.Start()
	End Sub
End Class

Public Class BlogScraper
	Inherits WebScraper

	Public Overrides Sub Init()
		LoggingLevel = LogLevel.All
		Request("https://www.zyte.com/blog/", AddressOf Parse)
	End Sub

	Public Overrides Sub Parse(ByVal response As Response)
		For Each title_link As HtmlNode In response.Css(".oxy-post-title")
			Dim strTitle As String = title_link.TextContentClean
			Scrape(New ScrapedData() From {
				{ "Title", strTitle }
			})
		Next title_link

		If response.CssExists("div.oxy-easy-posts-pages > a[href]") Then
			Dim next_page As String = response.Css("div.oxy-easy-posts-pages > a[href]")(0).Attributes("href")
			Request(next_page, AddressOf Parse)
		End If
	End Sub
End Class

Install-Package IronWebScraper

IronWebScraper fornece uma estrutura poderosa para extrair dados e arquivos de sites usando código C#.

Instale o IronWebScraper em seu projeto usando o NuGet .
Crie uma classe estendendo WebScraper.
Crie um método Init que usa o método Request para analisar pelo menos uma URL.
Crie um método Parse para processar as solicitações, e de fato Request mais páginas. Use response.Css para trabalhar com elementos HTML usando seletores CSS no estilo jQuery.
Em seu aplicativo, crie uma instância de sua classe de raspagem web e chame o método Start();.
Leia nossos tutoriais de raspagem da web em C# para aprender a criar rastreadores de web avançados usando IronWebScraper.

Descubra como extrair dados de sites de filmes online com C#

Human Support related to A Biblioteca de Webscraping em C#

Suporte humano diretamente da nossa equipe de desenvolvimento.

Seja para dúvidas sobre produtos, integração ou licenciamento, a equipe de desenvolvimento de produtos da Iron está à disposição para ajudar com todas as suas perguntas. Entre em contato e inicie um diálogo com a Iron para aproveitar ao máximo nossa biblioteca em seu projeto.

Faça uma pergunta

Powerful Scraping Engine related to A Biblioteca de Webscraping em C#

Potente motor de raspagem sob seu controle

Basta escrever uma única classe web scraper em C# para extrair milhares ou até milhões de páginas da web e armazená-las em instâncias de classes C#, JSON ou arquivos baixados. O IronWebScraper permite que você crie fluxos de trabalho concisos e lineares, simulando o comportamento de navegação humana. O IronWebScraper executará seu código como um enxame de navegadores web virtuais, massivamente paralelos, porém educados e tolerantes a falhas.

Comece a usar a documentação.

Simple Flexible Logic related to A Biblioteca de Webscraping em C#

Lógica simples e flexível

O IronWebScraper precisa ser programado para saber como lidar com cada "tipo" de página que encontrar. Isso é feito de forma concisa usando seletores CSS ou expressões XPath e pode ser totalmente personalizado em C#. Essa liberdade permite que você decida quais páginas extrair de um site e o que fazer com os dados coletados. Cada método pode ser depurado e monitorado detalhadamente no Visual Studio.

Siga um tutorial

Fast And Polite Behavior related to A Biblioteca de Webscraping em C#

Comportamento rápido e educado

O IronWebScraper lida com multithreading e requisições web para permitir centenas de threads simultâneas sem que o desenvolvedor precise gerenciá-las. O nível de cortesia (politeness) pode ser configurado para limitar o número de requisições, reduzindo assim o risco de sobrecarga nos servidores web de destino.

Começando a usar o WebScraper

Create Virtual User Identities related to A Biblioteca de Webscraping em C#

Criar identidades de usuário virtuais

O IronWebScraper pode usar uma ou múltiplas "identidades" — sessões que simulam requisições humanas reais. Cada requisição pode ter sua própria identidade, agente de usuário, cookies, logins e até mesmo endereços IP atribuídos programaticamente ou aleatoriamente. As requisições são definidas como auto-únicas por meio de uma combinação de URL, método de análise e variáveis POST.

See API Reference

Action Replay

O IronWebScraper utiliza um sistema avançado de cache para permitir que os desenvolvedores alterem seu código "em tempo real" e reproduzam cada solicitação anterior sem precisar acessar a internet. Cada tarefa de coleta de dados é salva automaticamente e pode ser retomada em caso de exceção ou queda de energia.

Instruções de configuração do WebScraper

Biblioteca do Visual Studio para criação de PDFs e edição de conteúdo.

Instalação rápida com o Microsoft Visual Studio

O IronWebScraper coloca as ferramentas de Web Scraping em suas mãos rapidamente com um instalador para Visual Studio. Seja instalando diretamente do NuGet dentro do Visual Studio ou baixando a DLL, você estará pronto em instantes. Apenas uma DLL e nenhuma dependência.

PM > Instalar pacote IronWebScraper Baixar DLL

Suporta:

Tutoriais da comunidade de web scraping em .NET

Tutorial + exemplos de código Webscraping em .NET | PDF VB.NET e ASP.NET

VB C# ASP.NET

Web Scraping em projetos C# e VB.NET

Veja como Ahmed usa o IronWebScraper em seus projetos para migrar conteúdo de um site para outro. Exemplos de projetos e código são fornecidos para extrair conteúdo de sites de e-commerce e blogs.