docx2pdf-chrome-go-project 实现docx高质量转pdf: 支持docx2html:导出zip(html和图片); 支持docx2pdf-by-html:以html为中间格式,导出pdf; 支持docx2pdf-by-md:以md(zip)为中间格式,导出pdf;
md(zip)的web预览:支持导出docx(公式式);docx(替代式);pdf;优点:(1)前端预览效果好速度快;(2)极速导出-go实现;(3)导出效果好;原理:(1)md转docx:基于pandoc;缺点:(1)导出pdf为图片式且色泽不一;【推荐】
基于other2pdf-project。基于 Gotenberg转换(go);gin作为web框架和服务器;panjf2000/ants异步任务管理器;
功能:(1)md或zip(包含图片和md)转换为docx(2)同时支持docx2md; 优点:(1)非ocr-无gpl;(2)速度快;效果好;其他:(1)内存占用:70M;缺点:(1)有上标无下标的不要显示下标的框-无法解决;(2)打开docx:打开的docx和预览的docx每页的开始和结束位置应一致-无法解决;
思路:(1)pdf->md(zip):实现项目: AylerH/opendataloader-pdf-fastapi-project;(2)md(zip)->docx(py实现):参考md2docx;特点:(1)布局识别基于rapidocr的pp-doclayout-v3(onnx);优点:(1)效果好:分栏docx和pdf一模一样;(2)速度快:约1秒每页;
介绍:(1)pdf2docx的fastapi;存在问题:(1)图片上字体丢失问题;(2)下标乱码问题;(3)图注、图片等无样式,全是正文;(4)连字问题;(5)内容缺失问题;
使用AI提示词进行项目模板化构建-附加或通用提示词。包含文档:项目api接口文档.md、项目安装部署方式.md、项目创建提示词.md、项目功能变化.md、项目结构-仅后端按文件类型.md、项目经验.md、等。
总览:(1)opendataloader-pdf的web化(去除fastapi-纯java);创新:(1)pp-doclayout-v3布局识别引入;
场景:简单布局及无合并单元格的表格。 功能:产出带图 Markdown、可搜索 PDF 及版面解析。 优点:CPU 推理快,中英稳健,PP-DocLayout V3版面分析精细。 缺点:文本精度上限受限,复杂表格行列还原差,语义理解弱于多模态大模型。并发:多容器并发;
1.ppt父标签页中-ppt转为拼接图-返回一张图片(ppt2image); 2.word父标签页中-word中内容替换与修改; 3.excel父标签页中-中内容替换与修改;
基于正则替换的轻量级方案;重量级见:pdf2office-md-zip-pro# md在线编辑与pdf对比转换平台 功能:(1)转换:md的zip压缩包-》可搜索文本的pdf;(2)pdf和md对比查看;(3)自动清洗符号;(4)多zip查看与保存<br>缺点:md2pdf和md2docx速度较快速度较慢(因为采用的weasy);优点:(1)镜像较小:371M;(2)转pdf和docx效果都挺好;
功能;(1)imagen4的fastapi化;(2) tts的的fastapi化-区分男女;(3)实时语音对话-返回文字;(4)上传文件到google drive云盘并返回直链;
Nginx-Proxy 生态实现子域名与docker容器端口前端绑定与自动设置,并在页面提示cloudflare的record添加;思路:spaceship购买域名;火山引擎购买云服务器和公网ip;cloudflare提供名称服务器(cloudflare的域名比较贵,1x美元起步);优点:配置token到.env后自动更新dns记录到cloudflare;自动化反向代理与域名映射。
新增pdf翻译(此项目原为md的zip的翻译) pdf的解析基于https://github.com/PDFMathTranslate-next/PDFMathTranslate-next 翻译接口调用自带的hy-mt;默认翻译模型:Tencent-Hunyuan/Hy-MT2-1.8B-FP8;
实现功能: 一、other2pdf-支持转换类型:将 ZIP(md+图片;图片;pdf;多级zip) 或图片或pdf;(1)-》转为pdf(图片式)(2)-》转为pdf(非图片式); 二、other2docx: (1).将Markdown ZIP -》转为可编辑docx(非图片式); 三、pdf拆分与编辑-保留文字;四、pdf批量压缩、裁剪与转换;五、md2xlsx:六:docx2md