apache tika检测文件是否损坏的方法

 更新时间:2019年09月20日 13:40:59   作者:随遇而安~~~  
Apache Tika用于文件类型检测和从各种格式的文件内容提取的库。这篇文章主要介绍了apache tika检测文件是否损坏,需要的朋友可以参考下

Apache Tika用于文件类型检测和从各种格式的文件内容提取的库。

将上传文件至服务器,进行解析文件时,经常需要判断文件是否损坏。我们可以使用tika来检测文件是否损坏

maven引入如下:

<dependency>
  <groupId>org.apache.tika</groupId>
  <artifactId>tika-app</artifactId>
  <version>1.18</version>
</dependency>
<dependency>
  <groupId>xerces</groupId>
  <artifactId>xercesImpl</artifactId>
  <version>2.11.0</version>
</dependency>

  如果jar包冲突时可以引入如下:

<dependency>
  <groupId>org.apache.tika</groupId>
  <artifactId>tika-core</artifactId>
  <version>1.18</version>
</dependency>
<dependency>
  <groupId>org.apache.tika</groupId>
  <artifactId>tika-parsers</artifactId>
  <version>1.18</version>
</dependency>
<dependency>
  <groupId>xerces</groupId>
  <artifactId>xercesImpl</artifactId>
  <version>2.11.0</version>
</dependency>

使用tika检测文件是否损坏: 

  如果从输入流读取失败,则parse方法抛出IOException异常,从流中获取的文档不能被解析抛TikaException异常,处理器不能处理事件则抛SAXException异常

  当文档不能被解析时,说明文档损坏

执行过程:

public static void main(String[] args) {
    try {
      //Assume sample.txt is in your current directory
      File file = new File("D:\\测试.txt");
      boolean result = isParseFile(file);
    } catch (Exception e) {
      e.printStackTrace();
    }
  }
 
  /**
   * 验证文件是否损坏
   *
   * @param file 文件
   * @return true/false
   * @throws Exception
   */
  private static boolean isParseFile(File file) throws Exception {
    try {
      Tika tika = new Tika();
      String filecontent = tika.parseToString(file);
      System.out.println(filecontent);
      return true;
    } catch (TikaException e) {
      return false;
    }
  }

  输出结果:

测试数据---读取文本内容

总结

以上所述是小编给大家介绍的apache tika检测文件是否损坏的方法,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

相关文章

  • linux高性能测试之CPU模式批量由cpupower转performance问题

    linux高性能测试之CPU模式批量由cpupower转performance问题

    这篇文章主要介绍了linux高性能测试之CPU模式批量由cpupower转performance问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-06-06
  • Linux修改hostname与免密码登录的方法

    Linux修改hostname与免密码登录的方法

    这篇文章主要介绍了Linux修改hostname与免密码登录的方法,非常不错,具有一定的参考借鉴价值 ,需要的朋友可以参考下
    2018-07-07
  • Linux环境下Apache开启https服务的方法详解

    Linux环境下Apache开启https服务的方法详解

    这篇文章主要介绍了Linux环境下Apache开启https服务的方法,结合实例形式分析了阿里云环境下获取SSL证书及Apache服务器安装、开启SSL的相关操作技巧,需要的朋友可以参考下
    2019-07-07
  • ubuntu中python调用C/C++方法之动态链接库详解

    ubuntu中python调用C/C++方法之动态链接库详解

    这篇文章主要给大家介绍了关于如何在ubuntu中python调用C/C++方法之动态链接库的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起看看吧
    2018-11-11
  • Linux tee命令使用详解

    Linux tee命令使用详解

    这篇文章主要介绍了Linux tee命令使用详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-12-12
  • CentOS 8设置自动更新的完整步骤

    CentOS 8设置自动更新的完整步骤

    这篇文章主要给大家介绍了关于CentOS 8设置自动更新的完整步骤,文中通过示例代码介绍的非常详细,对大家学习或者使用CentOS 8具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-11-11
  • 详解Linux下调试器GDB的基本使用方法

    详解Linux下调试器GDB的基本使用方法

    GDB是GNU开源组织发布的一个强大的UNIX下的程序调试工具。不管是调试Linux内核空间的驱动还是调试用户空间的应用程序,掌握gdb的用法都是必须。而且,调试内核和调试应用程序时使用的gdb命令是完全相同的
    2021-06-06
  • 给Linux定时备份数据库的实现脚本

    给Linux定时备份数据库的实现脚本

    这篇文章主要介绍了Linux定时备份数据库实现方式,如果你的服务器数据库需要实现每天定时备份,那么这篇文章会对你大有帮助,有需要的朋友可以借鉴参考下
    2021-09-09
  • centos最小化安装系统后的基本调优及安全设置

    centos最小化安装系统后的基本调优及安全设置

    这篇文章主要介绍了centos最小化安装系统后的一些基本调优及安全设置,需要的朋友可以参考下
    2013-04-04
  • centos配置mutt和msmtp实现邮件发送

    centos配置mutt和msmtp实现邮件发送

    这篇文章主要为大家详细介绍了centos配置mutt和msmtp实现邮件发送,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-11-11

最新评论