JAVA使用HtmlUnit爬虫工具模拟登陆CSDN案例

 更新时间:2018年12月07日 14:37:32   作者:执笔记忆的空白  
今天小编就为大家分享一篇关于JAVA使用HtmlUnit爬虫工具模拟登陆CSDN案例,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧

最近要弄一个爬虫程序,想着先来个简单的模拟登陆, 在权衡JxBrowserHtmlUnit 两种技术,  JxBowser有界面呈现效果,但是对于某些js跳转之后的效果获取比较繁琐。

随后考虑用HtmlUnit, 想着借用咱们CSND的登陆练练手。谁知道CSDN的登陆,js加载时间超长,不设置长一点的加载时间,按钮提交根本没效果,js没生效。 具体看代码注释吧。 奉劝做爬虫的同志们,千万别用CSDN登陆练手,坑死我了。

maven配置如下:

 <dependencies>
 <!-- https://mvnrepository.com/artifact/net.sourceforge.htmlunit/htmlunit -->
 <dependency>
 <groupId>net.sourceforge.htmlunit</groupId>
 <artifactId>htmlunit</artifactId>
 <version>2.18</version>
 </dependency>
 <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
 <dependency>
 <groupId>org.jsoup</groupId>
 <artifactId>jsoup</artifactId>
 <version>1.9.2</version>
 </dependency>
 </dependencies>

代码如下:

package com.test;
import java.io.IOException;
import java.net.MalformedURLException;
import java.util.HashMap;
import java.util.Map;
import java.util.Set;
import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
import com.gargoylesoftware.htmlunit.SilentCssErrorHandler;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlButtonInput;
import com.gargoylesoftware.htmlunit.html.HtmlForm;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.gargoylesoftware.htmlunit.html.HtmlPasswordInput;
import com.gargoylesoftware.htmlunit.html.HtmlTextInput;
import com.gargoylesoftware.htmlunit.util.Cookie;
public class SimulateLogin
{
 //访问的目标网址(CSDN)
 private static String TARGET_URL = "https://passport.csdn.net/account/login?from=http://www.csdn.net";
 public static void main(String[] args) throws FailingHttpStatusCodeException, MalformedURLException, IOException
 {
  // 模拟一个浏览器
  WebClient webClient = new WebClient(BrowserVersion.CHROME);
  // 设置webClient的相关参数
  webClient.setCssErrorHandler(new SilentCssErrorHandler()); 
  //设置ajax
  webClient.setAjaxController(new NicelyResynchronizingAjaxController());
  //设置支持js
  webClient.getOptions().setJavaScriptEnabled(true);
  //CSS渲染禁止
  webClient.getOptions().setCssEnabled(false);
  //超时时间
  webClient.getOptions().setTimeout(50000);
  //设置js抛出异常:false
  webClient.getOptions().setThrowExceptionOnScriptError(false);
  //允许重定向
  webClient.getOptions().setRedirectEnabled(true); 
  //允许cookie
  webClient.getCookieManager().setCookiesEnabled(true); 
  // 模拟浏览器打开一个目标网址
  HtmlPage page = webClient.getPage(TARGET_URL);
  /**等待js加载完全,CSDN这点 特别坑,js加载时间超长!!!!!!! 后人切记不要用CSDN模拟登陆!!!!!!!**/
  webClient.waitForBackgroundJavaScript(10000*3);
  // 根据form的名字获取页面表单,也可以通过索引来获取:page.getForms().get(0)  
  HtmlForm form = (HtmlForm) page.getElementById("fm1");   
  HtmlTextInput username = (HtmlTextInput) form.getInputByName("username"); 
  HtmlPasswordInput password = (HtmlPasswordInput) form.getInputByName("password"); 
  username.setValueAttribute("********"); //用户名
  password.setValueAttribute("********"); //密码
  HtmlButtonInput button = (HtmlButtonInput) page.getByXPath("//input[contains(@class, 'logging')]").get(0);
//  ScriptResult result = page.executeJavaScript("javascript:document.getElementsByClassName('logging')[0].click()");
//  HtmlPage retPage = (HtmlPage) result.getNewPage();
  HtmlPage retPage = button.click();
  // 等待JS驱动dom完成获得还原后的网页 
  webClient.waitForBackgroundJavaScript(1000); 
  //输出跳转网页的地址
  System.out.println(retPage.getUrl().toString()); 
  //输出跳转网页的内容
  System.out.println(retPage.asXml());
  //获取cookie 
  Set<Cookie> cookies = webClient.getCookieManager().getCookies();
  Map<String, String> responseCookies = new HashMap<String, String>(); 
  for (Cookie c : cookies) { 
   responseCookies.put(c.getName(), c.getValue()); 
   System.out.print(c.getName()+":"+c.getValue()); 
  } 
  webClient.close();
  System.out.println("Success!");
 }
}

另外,CSDN的JS总是莫名其妙的报一堆错,如果不想看,想忽略的话,在创建WebClient前加上如下代码:

  //设置日志级别,原页面js异常不打印
  LogFactory.getFactory().setAttribute("org.apache.commons.logging.Log", "org.apache.commons.logging.impl.NoOpLog"); 
  
  java.util.logging.Logger.getLogger("com.gargoylesoftware.htmlunit") 
   .setLevel(Level.OFF); 
 
  java.util.logging.Logger.getLogger("org.apache.commons.httpclient") 
   .setLevel(Level.OFF); 

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对脚本之家的支持。如果你想了解更多相关内容请查看下面相关链接

相关文章

  • java中获取hashmap中的所有key方式

    java中获取hashmap中的所有key方式

    这篇文章主要介绍了java中获取hashmap中的所有key方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-03-03
  • 详解SpringMVC的拦截器参数及拦截器链配置

    详解SpringMVC的拦截器参数及拦截器链配置

    拦截器(Interceptor)是一种动态拦截方法调用的机制,在SpringMVC中动态拦截控制器方法的执行。本文将详细讲讲SpringMVC中拦截器参数及拦截器链配置,感兴趣的可以尝试一下
    2022-07-07
  • JPA在不写sql的情况下如何实现模糊查询

    JPA在不写sql的情况下如何实现模糊查询

    文章介绍了在项目中实现模糊查询的几种方法,包括使用JPA的API、JPQL、QueryByExample和@Query注解,通过实现Specification接口和定义接口继承JpaRepository,可以方便地进行单字段和多字段的模糊查询,文章还提到了BINARY函数的使用以及查询结果的返回
    2024-11-11
  • 详解关于java文件下载文件名乱码问题解决方案

    详解关于java文件下载文件名乱码问题解决方案

    这篇文章主要介绍了详解关于java文件下载文件名乱码问题解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-01-01
  • Java 动态数组的实现示例

    Java 动态数组的实现示例

    Java动态数组是一种可以任意伸缩数组长度的对象,本文主要介绍了Java 动态数组的实现示例,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-08-08
  • Java BeanMap实现Bean与Map的相互转换

    Java BeanMap实现Bean与Map的相互转换

    这篇文章主要介绍了利用BeanMap进行对象与Map的相互转换,通过net.sf.cglib.beans.BeanMap类中的方法来转换,效率极高,本文给大家分享实现代码,感兴趣的朋友一起看看吧
    2022-11-11
  • MyBatis-Plus基于MyBatis封装 BaseMapper的流程步骤

    MyBatis-Plus基于MyBatis封装 BaseMapper的流程步骤

    MyBatis-Plus作为 MyBatis 的增强框架,通过 BaseMapper 提供了通用的 CRUD 操作,极大地提升了开发效率,为了更透彻地理解其封装机制,本文将采用链路追踪的思维,从开发者调用接口开始,分析其如何基于 MyBatis 完成对 BaseMapper 的封装,需要的朋友可以参考下
    2025-04-04
  • Java中覆盖finalize()方法实例代码

    Java中覆盖finalize()方法实例代码

    这篇文章主要介绍了Java中覆盖finalize()方法实例代码,分享了相关代码示例,小编觉得还是挺不错的,具有一定借鉴价值,需要的朋友可以参考下
    2018-02-02
  • MyBatis的@SelectProvider注解构建动态SQL方式

    MyBatis的@SelectProvider注解构建动态SQL方式

    这篇文章主要介绍了MyBatis的@SelectProvider注解构建动态SQL方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-08-08
  • SpringBoot整合screw实现自动生成数据库设计文档

    SpringBoot整合screw实现自动生成数据库设计文档

    使用navicat工作的话,导出的格式是excel不符合格式,还得自己整理。所以本文将用screw工具包,整合到springboot的项目中便可以自动生成数据库设计文档,非常方便,下面就分享一下教程
    2022-11-11

最新评论