Java文件类型校验之Apache Tika详解

 更新时间:2026年03月30日 09:47:24   作者:HelloWorddddddd  
本文介绍了使用Apache Tika库来判断文件类型的方法,Tika可判断多种文件类型,包括doc、ppt、xls等,通过引入Tika的Maven依赖,可以轻松转换MultipartFile为File类,从而获取文件的Mime类型,最后列出了常见文件类型的Mime类型,方便使用

一、背景

判断文件类型一般可采用两种方式

1、后缀名判断

简单易操作,但无法准确判断类型

2、文件头信息判断

通常可以判断文件类型,但有些文件类型无法判断(如word和excel头信息的前几个字节是一样的, 无法判断)

使用apache.tika可轻松解决以上两种方式存在的问题

二、Tika介绍

Apachhe Tika是基于java的内容检测和分析的工具包,可检测并提取来自上千种不同文件类型(如PPT,XLS和PDF)中的元数据和结构化文本。

三、使用方法

Maven工程中引入依赖

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.24.1</version>
</dependency>

注意tika-core和tika-parsers的区别,我这里导入的是tika-core

工具类(可现用)

使用示例
String fileName = multipartFile.getOriginalFilename();
FileTypeCheck.getFileTypeByFileName(fileName,multipartFile);
@Slf4j
public class FileTypeCheck {

    public static void getFileTypeByFileName(final String fileName, MultipartFile mFile) {
        Tika defaultTika = new Tika();
        String fileType;
        final File file = new File(fileName);
        try {
            FileUtils.copyInputStreamToFile(mFile.getInputStream(), file);
            fileType = defaultTika.detect(file);
            if (!FileTypeContant.FILE_TYPE_XLS.equals(fileType) && !FileTypeContant.FILE_TYPE_XLSX.equals(fileType)
                    && !FileTypeContant.FILE_TYPE_DOC.equals(fileType) && !FileTypeContant.FILE_TYPE_DOCX.equals(fileType) && !FileTypeContant.FILE_TYPE_PDF.equals(fileType)
                    && !FileTypeContant.FILE_TYPE_JSON.equals(fileType) && !FileTypeContant.FILE_TYPE_XML.equals(fileType)
                    && !FileTypeContant.FILE_TYPE_SVG.equals(fileType) && !FileTypeContant.FILE_TYPE_PNG.equals(fileType)) {
                throw new ZTBusinessException("请上传正确的文件类型!!!");
            }
        } catch (IOException e) {
            log.error("getFileTypeByFileName exception:", e);
        } finally {
            if (file.exists()) {
                file.delete();
            }
        }
    }

}
public class FileTypeContant {

    public static final String FILE_TYPE_XLS = "application/vnd.ms-excel";
    public static final String FILE_TYPE_XLSX = "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet";
    public static final String FILE_TYPE_DOC = "application/msword";
    public static final String FILE_TYPE_DOCX = "application/vnd.openxmlformats-officedocument.wordprocessingml.document";
    public static final String FILE_TYPE_PDF = "application/pdf";
    public static final String FILE_TYPE_JSON = "application/json";
    public static final String FILE_TYPE_XML = "application/xml";
    public static final String FILE_TYPE_PNG = "image/png";
    public static final String FILE_TYPE_SVG = "image/svg";

}

四、MultipartFile类转File类

其中,前端传过来的是MultipartFile类,所以后端要转换为File类,转换方法为

//MultipartFile转File
File file = new File(path); 
FileUtils.copyInputStreamToFile(multipartFile.getInputStream(), file);  
 
/*其中File可以
  File file = new File(mFile.getOriginalFilename());
  这是保存在了工程路径下,用完要删除
  file.delete();
*/
 
 
//File转MultipartFile
File file = new File("src/test/resources/input.txt");
FileInputStream input = new FileInputStream(file);
MultipartFile multipartFile =new MockMultipartFile("file", file.getName(), "text/plain", IOUtils.toByteArray(input));

五、常见文件类型

MimeType文件类型
application/mswordword(.doc)
application/vnd.ms-powerpointpowerpoint(.ppt)
application/vnd.ms-excelexcel(.xls)
application/vnd.openxmlformats-officedocument.wordprocessingml.documentword(.docx)
application/vnd.openxmlformats-officedocument.presentationml.presentationpowerpoint(.pptx)
application/vnd.openxmlformats-officedocument.spreadsheetml.sheetexcel(.xlsx)
application/x-rar-compressedrar
application/zipzip
application/pdfpdf
video/*视频文件
image/*图片文件
text/plain纯文本
text/csscss文件
text/htmlhtml文件
text/x-java-sourcejava源代码
text/x-csrcc源代码
text/x-c++srcc++源代码

六、总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Spring boot项目打包成jar运行的二种方法

    Spring boot项目打包成jar运行的二种方法

    这篇文章主要给大家介绍了关于Spring boot项目打包成jar运行的二种方法,文中通过示例代码介绍的非常详细,对大家学习或者使用spring boot具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2018-11-11
  • centos 安装java环境的多种方法

    centos 安装java环境的多种方法

    本文给大家分享三种方法帮助大家安装jdk,有利用yum来安装jdk还有通过手动解压jdk的操作方法,每种方法给大家介绍的都非常详细,感兴趣的朋友跟随小编一起看看吧
    2021-05-05
  • Java解决通信过程的中文乱码的问题

    Java解决通信过程的中文乱码的问题

    这篇文章主要介绍了 Java解决通信过程的中文乱码的问题的相关资料,需要的朋友可以参考下
    2017-01-01
  • Java中实现简单的Excel导出

    Java中实现简单的Excel导出

    今天小编就为大家分享一篇关于Java中实现简单的Excel导出,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2019-01-01
  • Java合并PDF文档的三种常用方式总结

    Java合并PDF文档的三种常用方式总结

    这篇文章主要给大家介绍了关于Java合并PDF文档的三种常用方式,文中介绍的方式分别是Apache PDFBox、Spire.PDF(IceBlue)和iText PDF,每种方式都有其对应的pom.xml代码示例,,要的朋友可以参考下
    2024-12-12
  • MyBatis分页查询返回list的时候出现null的问题

    MyBatis分页查询返回list的时候出现null的问题

    这篇文章主要介绍了MyBatis分页查询返回list的时候出现null的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-07-07
  • Jax-rs规范REST接口文件上传代码实例

    Jax-rs规范REST接口文件上传代码实例

    这篇文章主要介绍了Jax-rs规范REST接口文件上传代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-09-09
  • java生成pdf表格,调用itext创建的实例

    java生成pdf表格,调用itext创建的实例

    这篇文章主要介绍了java生成pdf表格,调用itext创建的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-01-01
  • Java中空指针异常该如何避免详解

    Java中空指针异常该如何避免详解

    空指针(Null Pointer Exception,NPE)是Java中最常见不过的异常了,其原因虽然显而易见,但是开发人员往往会忽略,或未能及时采取措施,下面这篇文章主要给大家介绍了关于Java中空指针异常该如何避免的相关资料,需要的朋友可以参考下
    2022-03-03
  • SSH框架网上商城项目第27战之申请域名空间和项目部署及发布

    SSH框架网上商城项目第27战之申请域名空间和项目部署及发布

    这篇文章主要为大家详细介绍了SSH框架网上商城项目第26战之申请域名空间和项目部署及发布,感兴趣的小伙伴们可以参考一下
    2016-06-06

最新评论