1 Star 6 Fork 0

linuxmail / zdocument_text

Create your Gitee Account
Explore and code with more than 5 million developers,Free private repositories !:)
Sign up
Clone or download
Cancel
Notice: Creating folder will generate an empty file .keep, because not support in Git
Loading...
README.md

简介

ZDOCUMENT_TEXT 是一个文档解析库

开源: https://gitee.com/linuxmail/zdocument_text

目标

  • 解开各类压缩包, 解析各类文档为文本和资源(主要是图片)
  • 解出的文本不关注样式, 适用于机器学习,分词等, 不适合展示

背景

  • 在邮件反垃圾系统中, 需要解析附件(文档,压缩包,图片), 获取文本, 获取文件类型

支持的压缩包类型

  • z, 7z, gz, tar, tgz, zip/arj/zipx, rar/lzh,

支持的文档类型

  • doc/dot/wps/wpt, ppt/pps/dpt/dps, xls/xlt/ett/et
  • docx/docm/dotx, pptx/pptm, xlsx/xlsm
  • odt, odp, ods
  • xmldoc, xmlxls
  • rtf
  • pdf

不支持图片解析为文本

  • 请用其他专门的库处理, 如 tesseract

不支持邮件解析为文本

不支持HTML解析为文本

  • 推荐使用 gumbo 库处理

依赖开源库: lib-zc

依赖开源库: 其他

  • libminizip, libtar

编译

进入目录直接 make, 得到

  • zdocument_text.h (头文件)
  • libzdocument_text.a (静态库)
  • libzdocument_text.so (动态库)
  • document_text (例子, 演示效果)
  • simple (例子, 简单使用)

例子源码

例子使用

./document_text [文档类型] 文件名 [解析深度]

USAGE ./document_text [ file_format ] pathname [ depth ]
EXAMPLE:
      ./document_text doc some_filename
      ./document_text doc some_filename 3
      ./document_text some_filename 2
      ./document_text some_filename

函数(对象)介绍

简单使用

Comments ( 0 )

Sign in for post a comment

About

解开各类压缩包, 解析各类文档为文本和资源(主要是图片) spread retract
Cancel

Releases

No release

Gitee Metrics

Contributors

All

Activities

load more
can not load any more
C++
1
https://gitee.com/linuxmail/zdocument_text.git
git@gitee.com:linuxmail/zdocument_text.git
linuxmail
zdocument_text
zdocument_text
master

Search