# web_to_markdown **Repository Path**: cyrusgpf/web_to_markdown ## Basic Information - **Project Name**: web_to_markdown - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-11-27 - **Last Updated**: 2025-11-27 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 网页转 Markdown 工具 一个简单易用的图形化工具,可以将网页内容批量转换为 Markdown 格式文档。 ## 功能特点 - 📄 将网页内容转换为 Markdown 格式 - 📦 支持批量处理多个网址 - 🖥️ 简洁的图形化界面 - 📁 自定义保存目录 - 📊 实时处理进度和日志显示 - 🏷️ 自动提取网页标题作为文件名 - 📝 自动添加元数据(来源 URL、转换时间等) ## 安装依赖 确保你已经安装了 Python 3.6 或更高版本,然后安装所需的依赖包: ```bash pip install -r requirements.txt ``` ## 使用方法 1. 运行程序: ```bash python web_to_markdown.py ``` 2. 在打开的图形界面中: - 在上方的文本框中输入网址(每行一个) - 点击"选择目录"选择保存 Markdown 文件的位置 - 点击"开始转换"开始批量转换 - 在日志区域查看处理进度和结果 3. 转换完成后,Markdown 文件将保存在指定目录中 ## 依赖说明 - `requests`: 用于获取网页内容 - `beautifulsoup4`: 用于解析 HTML - `html2text`: 用于将 HTML 转换为 Markdown - `lxml`: BeautifulSoup 的解析器 - `tkinter`: Python 内置的 GUI 库 ## 示例 输入网址示例: ``` https://www.example.com/article1 https://www.example.com/article2 https://www.example.com/article3 ``` 生成的 Markdown 文件将包含: - 网页标题 - 来源 URL - 转换时间 - 完整的网页内容(转换为 Markdown 格式) ## 注意事项 - 某些网站可能有反爬虫机制,可能导致获取失败 - 动态加载的内容(JavaScript 渲染)可能无法完整获取 - 网络连接超时时间设置为 30 秒 - 文件名会自动过滤非法字符并限制长度 ## 许可证 MIT License