java使用htmlparser提取网页纯文本例子

更新时间：2014年04月14日 09:59:50 作者：

这篇文章主要介绍了java使用htmlparser提取网页纯文本例子,需要的朋友可以参考下

package com.test;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeList;

/**
* 标题:利用htmlparser提取网页纯文本的例子
*/
public class TestHTMLParser {
public static void testHtml() {
    try {
        String sCurrentLine;
        String sTotalString;
        sCurrentLine = "";
        sTotalString = "";
        java.io.InputStream l_urlStream;
        java.net.URL l_url = new java.net.URL("http://www.ideagrace.com/html/doc/2006/07/04/00929.html");
        java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();
        l_connection.connect();
        l_urlStream = l_connection.getInputStream();
        java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));
        while ((sCurrentLine = l_reader.readLine()) != null) {
          sTotalString += sCurrentLine+"/r/n";
        // System.out.println(sTotalString);
        }
        String testText = extractText(sTotalString);
        System.out.println( testText );

    } catch (Exception e) {
        e.printStackTrace();
    }

}

public static String extractText(String inputHtml) throws Exception {
    StringBuffer text = new StringBuffer();
    Parser parser = Parser.createParser(new String(inputHtml.getBytes(),"GBK"), "GBK");
    // 遍历所有的节点
    NodeList nodes = parser.extractAllNodesThatMatch(new NodeFilter() {
        public boolean accept(Node node) {
          return true;
        }
    });

    System.out.println(nodes.size()); //打印节点的数量
    for (int i=0;i<nodes.size();i++){
         Node nodet = nodes.elementAt(i);
         //System.out.println(nodet.getText());
        text.append(new String(nodet.toPlainTextString().getBytes("GBK"))+"/r/n");
    }
    return text.toString();
}

public static void test5(String resource) throws Exception {
    Parser myParser = new Parser(resource);
    myParser.setEncoding("GBK");
    String filterStr = "table";
    NodeFilter filter = new TagNameFilter(filterStr);
    NodeList nodeList = myParser.extractAllNodesThatMatch(filter);
    TableTag tabletag = (TableTag) nodeList.elementAt(11);

}

public static void main(String[] args) throws Exception {
// test5("http://www.google.com");
testHtml();
}
}

您可能感兴趣的文章:

Java中线程的等待与唤醒_动力节点Java学院整理
在Object.java中，定义了wait(), notify()和notifyAll()等接口。wait()的作用是让当前线程进入等待状态，同时，wait()也会让当前线程释放它所持有的锁。下面通过本文给大家介绍Java中线程的等待与唤醒知识，感兴趣的朋友一起看看吧
2017-05-05
Java 连接Access数据库的两种方式
这篇文章主要介绍了Java 连接Access数据库的两种方式,本文着重讲解使用JDBC连接操作Access数据库,需要的朋友可以参考下
2015-06-06
IDEA code template配置和参数方式
这篇文章主要介绍了IDEA code template配置和参数方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教<BR>
2024-01-01
Springboot传输数据时日期格式化问题
这篇文章主要介绍了Springboot传输数据时日期格式化问题,本文通过示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
2023-09-09
Java接口和抽象类实例分析
这篇文章主要介绍了Java接口和抽象类,实例分析了java接口与抽象类的概念与相关使用技巧,需要的朋友可以参考下
2015-05-05
简单了解spring bean作用域属性singleton和prototype的区别
这篇文章主要介绍了简单了解spring bean作用域属性singleton和prototype的区别,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-12-12
Mybatis-Plus多表关联查询的使用案例解析
这篇文章主要介绍了Mybatis-Plus多表关联查询的使用,本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2023-05-05
基于Java protected的深入理解
本篇文章是对Java protected进行了详细的分析介绍，需要的朋友参考下
2013-06-06
SpringBoot实现前后端分离国际化的示例详解
Springboot国际化可以帮助使用者在不同语言环境中构建应用程序，这样应用程序可以有效地适应不同语言文化背景下的用户需求。本文主要介绍了SpringBoot实现前后端分离国际化的方法，需要的可以参考一下
2023-02-02
MyBatis复杂Sql查询实现示例介绍
在利用mybatis做查询的时候，一般返回结果用resulttype，这种情况必须是查询的结果在对应的pojo类中有对应的，一般都是单表查询，但是对于一些复杂的情况，比如需要用到多表查询的时候，resultType不再适用，此时一般用resultMap来表示返回的结果
2022-12-12

java使用htmlparser提取网页纯文本例子

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具