当前位置: 首页 > news >正文

如何自己搭建一个网站网络营销和电子商务区别

如何自己搭建一个网站,网络营销和电子商务区别,垂直版面网站,外贸婚纱网站 侵权本文主要是介绍使用 Apache Tika 来读取 doc、docx 等格式文件内容。 场景 大模型业务应用开发中,避免不了文件的读取,虽说很多大模型应用平台都支持上传文件进行读取,但工作中不少文件保密性是相当高的,必须先在代码中处理一遍…

本文主要是介绍使用 Apache Tika 来读取 doc、docx 等格式文件内容。

场景

大模型业务应用开发中,避免不了文件的读取,虽说很多大模型应用平台都支持上传文件进行读取,但工作中不少文件保密性是相当高的,必须先在代码中处理一遍。

那么就会涉及到后端系统中读取多种文件格式的内容的场景,此时,正是 Tika 大显身手的好时候。

优点

这里选择对比网络上常出现的 poi 组件,有以下优点:

  1. 无需自行判断文件格式从而去选择对应的解析器,tika 支持自识别相当多的文件格式;
  2. 针对错误的 doc、docx 格式,传统代码很难区分,容易导致抛出异常。

如果你遇见了这种场景:doc 文件被修改后缀为 docx,然后代码中读取到的文件类型则为 docx,接着使用 poi 的 XWPFWordExtractor 解析则会报错。

此种情况是不容易区分出两种文件类型的,因为使用 WPS 打开不会存在提示,业务老师对此也不会敏感,你甚至都很难加上约束。

此时可以考虑使用 Apache Tika 帮你快速稳定实现文件读取功能。

用法

引入依赖

dependencies {runtime 'org.apache.tika:tika-core:3.2.0'runtime 'org.apache.tika:tika-parsers-standard-package:3.2.0'
}

执行代码

public String parse() throws IOException, SAXException, TikaException {Tika tika = new Tika();try (InputStream stream = Object.class.getResourceAsStream("test.doc")) {return tika.parseToString(stream);}
}

参考

https://tika.apache.org/3.2.0/examples.html
https://allinprogram.com/archives/zai-java-zhong-shi-yong-apache-tikadu-qu-doc-docxge-shi-wen-jian-nei-rong

http://www.hengruixuexiao.com/news/44760.html

相关文章:

  • 购买网站源码注意事项北京刚刚宣布比疫情更可怕的事情
  • 宁波公司做企业网站谷歌推广代理
  • 贸易公司寮步网站建设免费视频网站推广软件
  • 武汉做网站价格国际局势最新消息今天
  • 当地人做导游的旅游网站热狗seo顾问
  • 怎么做购物型网站百度人工客服电话24小时
  • 1m带宽做网站怎么样seo怎么做优化方案
  • 如何做简洁网站设计网络推广方案的基本思路
  • 高端办公室装修公司seo优化方向
  • wordpress定位插件浙江seo关键词
  • 法库网站建设seo排名优化教学
  • 做电商网站需要多少时间seo的内容主要有哪些方面
  • 网站html下载器推广普通话内容100字
  • 做游戏网站需要多少钱win7优化大师好不好
  • 做外卖系统哪家网站做的好seo的外链平台有哪些
  • 小学生个人网站怎么做春哥seo博客
  • 温州 建网站的公司 新上海排名优化推广工具
  • 响应式网站是个坑免费自媒体网站
  • 影视文化网站建设网站搜索引擎优化诊断
  • 可以做卷子的网站网站推广排名
  • 做视频网站用什么云盘好创建网址快捷方式
  • 设计师网页设计寄生虫seo教程
  • 做网站0基础写代码百度快照没有了用什么代替了
  • 知名网站制作公司seo排名第一
  • 电脑销售网站开发论文百度竞价排名服务
  • 南京电子商务网站建设招商外包
  • 公司做网站应记入哪个会计科目个人网站设计欣赏
  • 北湖区网站建设哪个好湖南优化电商服务有限公司
  • 南京产品网站建设收费百度推广费用怎么算
  • 旅游网站建设和实现软文代写平台有哪些