# DocLink **Repository Path**: lying_19/doc-link ## Basic Information - **Project Name**: DocLink - **Description**: 道联-文档洞察助手 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 0 - **Created**: 2025-08-19 - **Last Updated**: 2025-08-21 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ### 一、您是否也面临这些文档困境? 📄 **"每天处理20+文档,却总在关键时刻找不到需要的内容?"** 🗂️ **"电脑里存了上百个文件,却不清楚它们的主题分布和磁盘占用?"** 🔍 **"想引用某段文字时,要翻遍文件夹才能找到原始文档?"** 在信息爆炸的时代,我们每天被文档淹没,却难以真正驾驭这些知识资产。 微软研究院调查显示:68% 的专业人士每周至少经历一次“文件存在却无法高效定位。 谷歌趋势显示关键词 "local document similarity search" 搜索量 3 年增长 240%。 ### 二、道联(DocLink):智能文档洞察助手,连接知识的桥梁 ,让每一份文档都发挥价值 与传统的基于文件名检索不同,**道联(DocLink)** 是一款基于AI技术的本地文档检索系统,以"连接文档,释放知识价值"为使命,帮助个人与团队高效管理、解析和利用本地文档资源。 ### 三、三大核心功能,重新定义文档管理 #### 🔗 **智能关联:相似文档一键发现** - 输入关键词、选择文件路径或粘贴段落,系统自动挖掘电脑中**主题相似的文档**,消除信息孤岛 - 支持跨格式检索(PDF/Word/TXT等),让分散在不同文件夹的内容自动关联 #### 📝 **精准提取:文档摘要与关键段落匹配** - **AI自动生成文档摘要**,3秒掌握核心内容 ![文档摘要](img/文档摘要.jpg) - 定位与查询内容**语义相似的段落**,快速确定这是不是你想到的文档 ![文档对比](img/文档对比.jpg) #### 📊 **全局洞察:关键词分析与磁盘分布可视化** - 自动识别文档**高频关键词和主题分布**,生成高频词列表,并统计词汇丰富度 ![高频词](img/高频词.jpg) ![词汇丰富度](img/词汇丰富度.jpg) - 展示文档在磁盘中的**存储位置和占用空间**,帮您优化存储结构 ![文档数统计](img/文档数统计.jpg) ![文档分布](img/文档分布.jpg) ![占用空间统计](img/占用空间统计.jpg) ### 四、简单三步,开启智能文档之旅 1️⃣ **下载DocLink**:下载下方的doclink.zip压缩包并解压,双击doclink.exe启动软件,添加本地文档文件夹(支持增量更新) ![选择文件夹](img/选择文件夹.jpg) 2️⃣ **精准检索**: - 关键词检索:输入"谷物"关键字,查找最相似文档 ![关键字检索](img/关键字检索.jpg) - 文档比对:选择本地文档,自动查找与之内容相似文档 ![文件相似度检索](img/文件相似度检索.jpg) - 段落匹配:粘贴某段文字,定位所有相似文档 ![段落相似度](img/段落相似度.jpg) 3️⃣ **详细信息**:点击相似列表中的文档,查看两个文档的摘要、关键词以及两个文档间的相似段落 ![详细信息](img/详细信息.jpg) ### 五、AI驱动的技术能力 道联采用**双重智能算法**,兼顾效率与精准度: - **TF-IDF算法**:快速提取文档关键词,实现毫秒级检索响应 - **深度学习Embeddings**:将文档转化为语义向量,捕捉上下文关联,解决"同义词不同义、同词不同义"问题 - **本地计算**:所有文档处理在本地完成,保障数据隐私与安全 2025 年的 AI 领域正以 “大模型井喷” 之势重塑产业格局,DeepSeek、Qwen、ChatGPT、Claude、Gemini......,这些 “明星模型” 以前所未有的创造力渗透进办公、医疗、教育等场景,让智能客服秒级响应需求,让内容创作效率陡然提升,让复杂数据分析从 “周级” 压缩至 “小时级”。 然而,在这些聚光灯下的 “冰山之巅” 之下,是无数 “水下基石” 的支撑。正如高楼依赖地基,AI 的狂飙突进离不开底层技术的静默托举:Embeddings 嵌入模型将文本、图像等转化为机器可理解的向量,成为 RAG(检索增强生成)技术的 “神经中枢”,让大模型能精准调用外部知识库;TF-IDF 算法作为信息检索的 “开山鼻祖”,至今仍是短文本相似度计算的核心,支撑着搜索引擎的关键词匹配;而随机森林、LSTM、Transformer 等基础机器学习模型,则构成了大模型训练的 “砖瓦”,从数据清洗到特征提取,默默完成着 90% 的 “脏活累活”。 从 “看得见” 的大模型惊艳表现,到 “看不见” 的小模型精密协作,AI 的进化从来不是单点突破,而是 “群星闪耀” 的体系化进步。这些底层技术如同空气与水,虽不常被提及,却让智能的 “大厦” 得以稳固矗立,也让未来的创新有了更辽阔的土壤。 “道联”目前应用的是Embeddings小模型,以及IF-IDF算法。大模型有大模型的好处,小模型也有小模型的优势。目前大模型对GPU的要求较高,本地部署较困难。而使用在线大模型API,会有信息泄露的风险,另外token的消耗也会带来资金的花费。所以“道联”采用本地小模型,离线也能使用,轻量安全,可放心使用。 ### 六、后续计划 - **持续优化**: - 完善文档解析功能,支持更多格式(如Excel、PPT、图片、视频等) - 根据用户反馈,不断完善功能,提升检索效率与用户体验 - **迭代升级**: - 后续会支持基于知识图谱的文档关联,让文档之间的联系更加具象化 - 增加文档分类与标签功能,帮助用户组织和管理海量文档 - **智能体打造**: - 随着大模型技术的不断发展,未来计划打造智能体,实现文档的自动分类、摘要与问答,成为本地的私人智慧助手 - 支持MCP、A2A等框架,为用户提供更智能、更便捷的文档管理体验 ## 七、下载地址 链接: https://pan.baidu.com/s/1YX6mYdb98Gz43gp50L3g9Q 提取码: 8888