C#多线程爬虫抓取免费代理IP的示例代码

 更新时间:2017年08月28日 09:28:45   作者:L-H  
本篇文章主要介绍了C#多线程爬虫抓取免费代理IP的示例代码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

这里用到一个HTML解析辅助类:HtmlAgilityPack,如果没有网上找一个增加到库里,这个插件有很多版本,如果你开发环境是使用VS2005就2.0的类库,VS2010就使用4.0,以此类推..........然后直接创建一个控制台应用,将我下面的代码COPY替换就可以运行,下面就来讲讲我两年前做爬虫经历,当时是给一家公司做,也是用的C#,不过当时遇到一个头痛的问题就是抓的图片有病毒,然后系统挂了几次。所以抓网站图片要注意安全,虽然我这里没涉及到图片,但是还是提醒下看文章的朋友。

 class Program
  {
    //存放所有抓取的代理
    public static List<proxy> masterPorxyList = new List<proxy>();
    //代理IP类
    public class proxy
    {
      public string ip;

      public string port;
      public int speed;

      public proxy(string pip,string pport,int pspeed)
      
      {
        this.ip = pip;
        this.port = pport;
        this.speed = pspeed;
       }


    }
    //抓去处理方法
    static void getProxyList(object pageIndex)
    {

      string urlCombin = "http://www.xicidaili.com/wt/" + pageIndex.ToString();
      string catchHtml = catchProxIpMethord(urlCombin, "UTF8");
      

      HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
      doc.LoadHtml(catchHtml);


      HtmlNode table = doc.DocumentNode.SelectSingleNode("//div[@id='wrapper']//div[@id='body']/table[1]");

      HtmlNodeCollection collectiontrs = table.SelectNodes("./tr");  

 
      
        for (int i = 0; i < collectiontrs.Count; i++)
        {
          HtmlAgilityPack.HtmlNode itemtr = collectiontrs[i];


          HtmlNodeCollection collectiontds = itemtr.ChildNodes;
          //table中第一个是能用的代理标题,所以这里从第二行TR开始取值
          if (i>0)
          {
            HtmlNode itemtdip = (HtmlNode)collectiontds[3];

            HtmlNode itemtdport = (HtmlNode)collectiontds[5];

            HtmlNode itemtdspeed = (HtmlNode)collectiontds[13];
 
            string ip = itemtdip.InnerText.Trim();
            string port = itemtdport.InnerText.Trim();


            string speed = itemtdspeed.InnerHtml;
            int beginIndex = speed.IndexOf(":", 0, speed.Length);
            int endIndex = speed.IndexOf("%", 0, speed.Length);

            int subSpeed = int.Parse(speed.Substring(beginIndex + 1, endIndex - beginIndex - 1));
            //如果速度展示条的值大于90,表示这个代理速度快。
           if (subSpeed > 90)
            {
              proxy temp = new proxy(ip, port, subSpeed);
              
              masterPorxyList.Add(temp);
              Console.WriteLine("当前是第:" + masterPorxyList.Count.ToString() + "个代理IP");
            }
          
           }


        }
 
    }

    //抓网页方法
    static string catchProxIpMethord(string url,string encoding )
    {

      string htmlStr = "";
      try
      {
        if (!String.IsNullOrEmpty(url))
        {
          WebRequest request = WebRequest.Create(url);  
          WebResponse response = request.GetResponse();      
          Stream datastream = response.GetResponseStream(); 
          Encoding ec = Encoding.Default;
          if (encoding == "UTF8")
          {
            ec = Encoding.UTF8;
          }
          else if (encoding == "Default")
          {
            ec = Encoding.Default;
          }
          StreamReader reader = new StreamReader(datastream, ec);
          htmlStr = reader.ReadToEnd();        
          reader.Close();
          datastream.Close();
          response.Close();
        }
      }
      catch { }
      return htmlStr;
    }


   static void Main(string[] args)
     {
       //多线程同时抓15页
       for (int i = 1; i <= 15; i++)
       {
        
         
         ThreadPool.QueueUserWorkItem(getProxyList, i);
       }
       Console.Read();
     }

  }

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • 详解c# 类型转换

    详解c# 类型转换

    这篇文章主要介绍了c# 类型转换的相关资料,文中讲解非常细致,代码帮助大家更好的理解和学习,感兴趣的朋友可以学习
    2020-07-07
  • C# 二进制序列化和反序列化的具体实现

    C# 二进制序列化和反序列化的具体实现

    本文主要介绍了C# 二进制序列化和反序列化的具体实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-06-06
  • .net实现序列化与反序列化实例解析

    .net实现序列化与反序列化实例解析

    这篇文章主要介绍了.net实现序列化与反序列化实例解析,需要的朋友可以参考下
    2014-08-08
  • 基于C#生成随机数示例

    基于C#生成随机数示例

    这篇文章主要介绍了基于C#生成随机数的类文件,可作为公共库供其他文件调用,需要的朋友可以参考下
    2014-07-07
  • C#实现奇偶排序的示例代码

    C#实现奇偶排序的示例代码

    奇偶排序是一种简单的排序算法,该算法通过比较并交换相邻的元素来完成排序,本文主要介绍了C#实现奇偶排序的示例代码,具有一定的参考价值,感兴趣的可以了解一下
    2023-11-11
  • C# 最基础知识介绍--多态

    C# 最基础知识介绍--多态

    在本篇文章将对大家介绍得是在C#中最常用的几种概念,即:多态,下面文章内容将对大家详细介绍这几种常用得状态
    2021-09-09
  • C#中属性和成员变量的区别说明

    C#中属性和成员变量的区别说明

    本篇文章主要是对C#中属性和成员变量的区别进行了介绍说明。需要的朋友可以过来参考下,希望对大家有所帮助
    2014-01-01
  • C#7.0中新特性汇总

    C#7.0中新特性汇总

    C#7.0 增加了许多新功能,并专注于数据消费,简化代码和性能的改善。接下来通过本文给大家介绍C#7.0中新特性汇总,需要的朋友可以参考下
    2016-08-08
  • C# Stream 和 byte[] 之间的转换

    C# Stream 和 byte[] 之间的转换

    Stream 和 byte[] 之间的转换
    2008-03-03
  • DevExpress设置TreeList图片节点背景色的方法

    DevExpress设置TreeList图片节点背景色的方法

    这篇文章主要介绍了DevExpress设置TreeList图片节点背景色的方法,需要的朋友可以参考下
    2014-08-08

最新评论