java利用htmlparser获取html中想要的代码具体实现

 更新时间:2014年02月13日 16:11:47   作者:  
这篇文章主要介绍了java利用htmlparser获取html中想要的代码具体实现,需要的朋友可以参考下

这两天需要做一些东西,需要抓取别人网页中的一些信息。最后用htmlparser来解析html。

直接从代码中看吧:

首先需要注意导入包为:import org.htmlparser下面的包

复制代码 代码如下:

List<Mp3> mp3List = new ArrayList<Mp3>();
        try{
            Parser parser = new Parser(htmlStr);//初始化Parser,这里要注意导入包为org.htmlparser。这里参数有很多。这个地方我写的是提前获取好的html文本。也可以传入URl对象
            parser.setEncoding("utf-8");//设置编码机
            AndFilter filter =
                new AndFilter(
                              new TagNameFilter("div"),
                             new HasAttributeFilter("id","songListWrapper")
              );//通过filter找到div且div的id为songListWrapper

              NodeList nodes = parser.parse(filter);//通过filter获取nodes
              Node node = nodes.elementAt(0);
              NodeList nodesChild = node.getChildren();
              Node[] nodesArr = nodesChild.toNodeArray();
              NodeList nodesChild2 = nodesArr[1].getChildren();
              Node[] nodesArr2 = nodesChild2.toNodeArray();
              Node nodeul = nodesArr2[1];
              Node[] nodesli = nodeul.getChildren().toNodeArray();//解析出nodesli为想要的

           
              for(int i=2;i<nodesli.length;i++){
                  //System.out.println(nodesli[i].toHtml());
                  Node tempNode =  nodesli[i];
                  TagNode tagNode = new TagNode();//通过TagNode获得属性,只有将Node转换为TagNode才能获取某一个标签的属性
                  tagNode.setText(tempNode.toHtml());
                  String claStr = tagNode.getAttribute("class");//claStr为bb-dotimg clearfix  song-item-hook { 'songItem': { 'sid': '113275822', 'sname': '我的要求不算高', 'author': '黄渤' } }
                  claStr = claStr.replaceAll(" ", "");
                  if(claStr.indexOf("\\?")==-1){
                      Pattern pattern = Pattern.compile("[\\s\\wa-z\\-]+\\{'songItem':\\{'sid':'([\\d]+)','sname':'([\\s\\S]*)','author':'([\\s\\S]*)'\\}\\}");
                      Matcher matcher = pattern.matcher(claStr);
                      if(matcher.find()){
                          Mp3 mp3 = new Mp3();
                          mp3.setSid(matcher.group(1));
                          mp3.setSname(matcher.group(2));
                          mp3.setAuthor(matcher.group(3));
                          mp3List.add(mp3);
                          //for(int j=1;j<=matcher.groupCount();j++){
                              //System.out.print("   "+j+"--->"+matcher.group(j));
                          //}
                      }
                  }
                  //System.out.println(matcher.find());
              }

            }catch(Exception e){
                e.printStackTrace();
            }

以上是我在项目中解析的东西,使用还是比较简单的,容易上手。
              ////claStr为bb-dotimg clearfix  song-item-hook { 'songItem': { 'sid': '113275822', 'sname': '我的要求不算高', 'author': '黄渤

则是从网页中解析到的内容。

相关文章

  • 如何使用intellij IDEA搭建Spring Boot项目

    如何使用intellij IDEA搭建Spring Boot项目

    这篇文章主要介绍了如何使用intellij IDEA搭建Spring Boot项目,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-07-07
  • Rabbit消息重试机制问题记录

    Rabbit消息重试机制问题记录

    消息重试机制就是在消息处理失败之后重新发送,主要时为了解决消息发送过程可能会出现的问题,例如 网络故障、服务临时不可用 等,这篇文章主要介绍了Rabbit消息重试机制问题记录,需要的朋友可以参考下
    2024-08-08
  • Java中几种常用数据库连接池的使用

    Java中几种常用数据库连接池的使用

    数据库连接池在编写应用服务是经常需要用到的模块,太过频繁的连接数据库对服务性能来讲是一个瓶颈,使用缓冲池技术可以来消除这个瓶颈,本文就来介绍Java常见的几种,感兴趣的可以了解一下
    2021-05-05
  • SpringBoot集成Redis实现验证码的简单案例

    SpringBoot集成Redis实现验证码的简单案例

    本文主要介绍了SpringBoot集成Redis实现验证码的简单案例,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-08-08
  • 浅析Java中的虚拟线程

    浅析Java中的虚拟线程

    在本篇文章中,小编将带大家深入了解Java虚拟线程的原理、如何使用、使用的注意事项以及其他相似技术的差别,感兴趣的小伙伴可以跟随小编一起学习一下
    2023-10-10
  • SpringBoot的HTTPS配置实现

    SpringBoot的HTTPS配置实现

    本文主要介绍了SpringBoot的HTTPS配置实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-04-04
  • Java超级实用的Freemarker工具类

    Java超级实用的Freemarker工具类

    这篇文章主要介绍了Java超级实用的Freemarker工具类,文章围绕相关资料介绍以及代码描述非常详细,需要的小伙伴可以参考一下,希望对你得学习有所帮助
    2022-02-02
  • SSH框架网上商城项目第20战之在线支付平台

    SSH框架网上商城项目第20战之在线支付平台

    这篇文章主要为大家详细介绍了SSH框架网上商城项目第20战之在线支付平台,关于第三方支付的内容从本文开始,感兴趣的小伙伴们可以参考一下
    2016-06-06
  • SpringBoot 缓存预热的实现

    SpringBoot 缓存预热的实现

    本文主要介绍了SpringBoot 缓存预热的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2007-11-11
  • 详解 Java HashMap 实现原理

    详解 Java HashMap 实现原理

    这篇文章主要介绍了详解 Java HashMap 实现原理的相关资料,帮助大家更好的理解和学习使用Java,感兴趣的朋友可以了解下
    2021-03-03

最新评论