# ai_view_bilibili **Repository Path**: open_source_base/ai_view_bilibili ## Basic Information - **Project Name**: ai_view_bilibili - **Description**: 让ai 看b站视频转换为docx - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-09-28 - **Last Updated**: 2025-09-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # AI View Bilibili 一个基于AI的B站视频转文字Web应用，支持多种语音转写引擎和视频平台。发现腾讯的ima.copilot 貌似已经很好的实现这个功能！！！ ## 🚀 功能特性 - **多平台支持**: 基于yt-dlp，支持B站、YouTube等多个视频平台 - **多种STT引擎**: 支持OpenAI Whisper、Faster-Whisper、Deepgram、Azure Speech等 - **智能字幕**: 优先使用平台原生字幕，无字幕时自动转写 - **关键帧提取**: 自动提取视频关键帧，支持智能截图 - **多格式导出**: 支持Excel、DOCX等多种格式导出 - **Web界面**: 简洁易用的Web用户界面 - **缓存机制**: 智能缓存，重复请求秒开 ## 快速开始 1. 准备 Python 3.10+ 2. 安装依赖 ```bash pip install -r requirements.txt ``` 3. 准备 ffmpeg（必需） - Windows: 下载 ffmpeg 并将 `ffmpeg.exe` 加入 PATH，或设置环境变量 `FFMPEG_PATH` - 验证：`ffmpeg -version` 4. 启动服务 ```bash uvicorn app.main:app --reload ``` 5. 打开浏览器访问 `http://127.0.0.1:8000`，粘贴 B 站或其他平台视频链接开始分析 ## 可选：OpenAI 转写 - 设置环境变量 `OPENAI_API_KEY=` - 在页面勾选“无字幕时使用OpenAI转写” - 默认模型 `whisper-1`，可通过 `OPENAI_TRANSCRIBE_MODEL` 指定 ## 可选：SiliconFlow 转写 - 在页面选择 “硅基 SiliconFlow（TeleSpeech / SenseVoice）” 提供者 - 设置 `SILICONFLOW_API_KEY=`，可选配置 `SILICONFLOW_BASE_URL`、`SILICONFLOW_TRANSCRIBE_MODEL` - 默认模型 `TeleAI/TeleSpeechASR`，也可选择 `FunAudioLLM/SenseVoiceSmall` ## 目录结构 - `app/` FastAPI 应用与配置 - `services/` 业务编排（下载、字幕、转写、截图、缓存） - `core/` 下载/字幕/音频/帧工具 - `stt/` 语音转文字（OpenAI 可选） - `web/templates`、`web/static` Web UI - `data/out//` 产物：`transcript.txt/.json`、`frames/*.jpg` - `exports/` 导出的 Excel ## 说明与限制 - 本工具针对 B 站体验优化，但可接受任意 URL（由 yt-dlp 支持即有机会解析） - 受地区/登录限制的视频可能需要 cookies，设置环境变量 `YDL_COOKIES=` 可增强下载成功率（当前实现未直接使用，可按需扩展） - 若无字幕且未启用 STT，将仅返回截图；建议勾选使用 OpenAI 转写 - 请遵守平台条款与版权法规，仅用于学习与个人整理 ## 常见问题 - 找不到 ffmpeg：安装后将其加入 PATH，或设置 `FFMPEG_PATH` - 无字幕：勾选 OpenAI 转写，或为后续扩展本地转写（faster-whisper） - Excel 中图片过大：已自动缩放至固定宽度（默认 320px）