详解C#如何利用爬虫技术实现快捷租房

 更新时间:2022年09月16日 09:24:12   作者:Csharp小记  
做为一个码农,大部分都集中在一二线城市,所以租房也就无可避免,面对如今五花八门的租房信息,往往很难找到合适的房子。本文教你如何利用爬虫技术实现快捷租房,感兴趣的可以了解一下

场景

做为一个码农,大部分都集中在一二线城市,所以租房也就无可避免,面对如今五花八门的租房信息,往往很难找到合适的房子。而如今的这些租房软件,大部分也都被中介、广告等给占据了。除了去中介公司,感觉再也找不到合适的房子,但是面对50%的中介费,很大程度上也难以忍受。偶然之间听朋友说到可以去豆瓣看看,然后我就试着去寻找一下,结果发现豆瓣讨论组的信息太过杂乱,先不说房源的好坏,光是找合适位置的帖子就得翻好久。。。

需求

所以,综上场景所述,就写了个简单的爬虫来爬取需要的位置以及最新发布的一些房源帖子。这里实现比较简单,同样豆瓣也有做一些防爬处理(IP访问次数等),而我并不是为了获取更多的信息而爬取,只是为了方便。所以既没有多线程处理,也没有做反防爬。每次获取的信息也足够看了,不行的话就等第二天再看呗。

开发环境

.NET Framework版本:4.5

开发工具

Visual Studio 2013

实现代码

private readonly string douBanUrl = "https://www.douban.com/group/search?cat=1019&sort=time";

        bool isStop = false;

        public FormCrawler()
        {
            InitializeComponent();
        }

        private void btn_start_Click(object sender, EventArgs e)
        {
            if (string.IsNullOrWhiteSpace(txt_city.Text))
            {
                MessageBox.Show("请输入城市!");
                return;
            }
            if (string.IsNullOrWhiteSpace(txt_keys.Text))
            {
                MessageBox.Show("请输入关键字!");
                return;
            }

            //初始化控件
            btn_start.Enabled = false;
            btn_stop.Enabled = true;
            listView1.Items.Clear();
            progressBar1.Value = 0;

            List<string> groups = GetGroupUrls();
            progressBar1.Maximum = groups.Count;
            Task.Run(() =>
            {
                GetHouseInfo(groups);

                this.BeginInvoke(new Action(() =>
                {
                    btn_start.Enabled = true;
                    btn_stop.Enabled = false;
                }));
            });


        }

        private void btn_stop_Click(object sender, EventArgs e)
        {
            isStop = true;
            btn_start.Enabled = true;
            btn_stop.Enabled = false;
            progressBar1.Value = progressBar1.Maximum;
        }

     
        private void listView1_MouseDoubleClick(object sender, MouseEventArgs e)
        {
            ListView.SelectedListViewItemCollection selectItem = listView1.SelectedItems;
            if (selectItem.Count > 0)
            {
                Process.Start(selectItem[0].SubItems[1].Text);
            }
        }
/// <summary>
        /// 获取前100个讨论组
        /// </summary>
        /// <returns></returns>
        private List<string> GetGroupUrls()
        {
            List<string> groupUrls = new List<string>();

            int pageSize = 20;//豆瓣每页显示20个讨论组
            string groupUrl = string.Empty;

            for (int groupNum = 0; groupNum <= 80; groupNum += pageSize)
            {
                if (isStop) break;

                groupUrl = string.Format(douBanUrl + "&q={0}&start={1}", HttpUtility.UrlEncode(txt_city.Text + "租房", Encoding.UTF8), groupNum);

                string text = HttpUtil.HttpGet(groupUrl);

                if (!string.IsNullOrWhiteSpace(text))
                {
                    Regex reg = new Regex(@"(?is)(?<=<div\sclass=""pic""[^>]*?>).*?(?=</div>)");
                    MatchCollection matchs = reg.Matches(text);
                    for (int i = 0; i < matchs.Count; i++)
                    {
                        if (matchs[i].Success)
                        {
                            Regex regHref = new Regex("(?<=href\\s*=\\s*\")\\S+(?<!\")");
                            string href = regHref.Match(matchs[i].Value).Value;
                            groupUrls.Add(href);
                        }
                    }
                }
            }

            return groupUrls;
        }

        /// <summary>
        /// 获取讨论组内符合条件的房源
        /// </summary>
        /// <param name="urls"></param>
        private void GetHouseInfo(List<string> urls)
        {
            for (int u = 0; u < urls.Count; u++)
            {
                if (isStop) break;
                this.BeginInvoke(new Action(() =>
                {
                    progressBar1.Value++;
                }));

                string text = HttpUtil.HttpGet(urls[u] + "/discussion?start=");
                Regex regex = new Regex(@"(?is)(?<=<tr\sclass=""""[^>]*?>).*?(?=</tr>)");
                MatchCollection matchs = regex.Matches(text);
                for (int i = 0; i < matchs.Count; i++)
                {
                    if (matchs[i].Success)
                    {
                        #region 匹配时间
                        Regex regDate = new Regex(@"(?is)(?<=<td\snowrap=""nowrap""\sclass=""time""[^>]*?>).*?(?=</td>)");
                        Match matchDate = regDate.Match(matchs[i].Value);
                        if (!matchDate.Success)
                        {
                            continue;
                        }
                        string time = matchDate.Value;
                        DateTime dtTemp = new DateTime();
                        if (!DateTime.TryParse(time, out dtTemp))
                        {
                            time = time.Insert(0, DateTime.Now.Year + "-");
                            dtTemp = Convert.ToDateTime(time);
                        }
                        if (dtTemp < dateTimePicker1.Value.Date)
                        {
                            continue;
                        }
                        #endregion

                        #region 获取标题

                        Regex regTitle = new Regex("(?<=title\\s*=\\s*\")\\s*\\S*(?<!\")");
                        Match matchTitle = regTitle.Match(matchs[i].Value);
                        if (matchTitle.Success)
                        {
                            string title = matchTitle.Value;
                            #region 匹配标题
                            bool isContain = false;
                            string[] keys = txt_keys.Text.Split('*');
                            foreach (string key in keys)
                            {
                                if (matchTitle.Value.Contains(key))
                                {
                                    isContain = true;
                                }
                            }
                            #endregion
                            if (isContain)
                            {
                                //获取链接
                                Regex regHref = new Regex("(?<=href\\s*=\\s*\")\\s*\\S*(?<!\")");
                                string href = regHref.Match(matchs[i].Value).Value;

                                AddUI(title, href, time);
                            }
                        }
                        #endregion
                    }

                }
            }
        }


        private void AddUI(string title, string href, string time)
        {
            if (this.InvokeRequired)
            {
                this.BeginInvoke(new Action(() => AddUI(title, href, time)));
            }
            else
            {
                ListViewItem lvitem = new ListViewItem(new string[3] { title, href, time });
                listView1.Items.Add(lvitem);
            }
        }

实现效果

代码解析:主要是使用了HttpGet来获取链接的网页信息,然后使用正则匹配我们的需求数据。每次只访问100个讨论组,每个讨论组内获取第一页的帖子信息。如果不使用代理ip或者其他反防爬机制的话,基本上这个软件每天只使用一次就达到上限了(获取到的数据为空等);要是没有合适的帖子的话,可以第二天再查找一下。

到此这篇关于详解C#如何利用爬虫技术实现快捷租房的文章就介绍到这了,更多相关C#租房内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • C#实现装箱与拆箱操作简单实例

    C#实现装箱与拆箱操作简单实例

    这篇文章主要介绍了C#实现装箱与拆箱操作,对于新手理解装箱与拆箱有一定的帮助,需要的朋友可以参考下
    2014-07-07
  • C#语言基础——结构体和枚举类型全面解析

    C#语言基础——结构体和枚举类型全面解析

    下面小编就为大家带来一篇C#语言基础——结构体和枚举类型全面解析。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2016-07-07
  • 如何用WindowsForm给窗口添加一些简单的动画效果

    如何用WindowsForm给窗口添加一些简单的动画效果

    这篇文章主要介绍了如何用WindowsForm给窗口添加一些简单的动画效果,文中讲解非常细致,代码帮助大家更好的理解和学习,感兴趣的朋友可以了解下
    2020-07-07
  • Unity UGUI的Outline描边组件的介绍使用示例

    Unity UGUI的Outline描边组件的介绍使用示例

    这篇文章主要介绍了Unity UGUI的Outline描边组件的介绍使用示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-08-08
  • 基于C#实现乱码视频效果

    基于C#实现乱码视频效果

    乱码视频效果可能很多人都在抖音看到过,即把一个短视频,转成数字、字母等乱码组成的形式进行播放。本文将用C#实现一下这一效果,感兴趣的可以了解一下
    2023-01-01
  • C#Url操作类封装、仿Node.Js中的Url模块实例

    C#Url操作类封装、仿Node.Js中的Url模块实例

    这篇文章主要介绍了C#Url操作类封装、仿Node.Js中的Url模块,实例分析了C#Url操作类封装的技巧,非常具有实用价值,需要的朋友可以参考下。
    2016-10-10
  • C#中读取App.config配置文件代码实例

    C#中读取App.config配置文件代码实例

    这篇文章主要介绍了C#中读取App.config配置文件代码实例,包括循环读取、单个读取的方法,需要的朋友可以参考下
    2014-08-08
  • C# 线程切换后上下文都去了哪里(.NET高级调试分析)

    C# 线程切换后上下文都去了哪里(.NET高级调试分析)

    总会有一些朋友问一个问题,在 Windows 中线程做了上下文切换,请问被切的线程他的寄存器上下文都去了哪里?这个问题其实比较底层,如果对操作系统没有个体系层面的理解以及做过源码分析,其实很难说明白,这篇我们就从.NET高级调试的角度分析,需要的朋友可以参考下
    2023-12-12
  • C#中科学绘图库ScottPlot的使用详解

    C#中科学绘图库ScottPlot的使用详解

    ScottPlot是基于.Net的一款开源免费的交互式可视化库,支持Winform和WPF等UI框架,本文给大家介绍了C#中科学绘图库ScottPlot的使用方法,文中示例在WPF环境中运行,需要的朋友可以参考下
    2023-12-12
  • C#自定义类型强制转换实例分析

    C#自定义类型强制转换实例分析

    这篇文章主要介绍了C#自定义类型强制转换的方法,实例分析了C#类型转换的相关技巧,需要的朋友可以参考下
    2015-05-05

最新评论