# ai_view_bilibili **Repository Path**: open_source_base/ai_view_bilibili ## Basic Information - **Project Name**: ai_view_bilibili - **Description**: 让ai 看b站视频转换为docx - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-09-28 - **Last Updated**: 2025-09-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # AI View Bilibili 一个基于AI的B站视频转文字Web应用,支持多种语音转写引擎和视频平台。 发现腾讯的ima.copilot 貌似已经很好的实现这个功能!!! ## 🚀 功能特性 - **多平台支持**: 基于yt-dlp,支持B站、YouTube等多个视频平台 - **多种STT引擎**: 支持OpenAI Whisper、Faster-Whisper、Deepgram、Azure Speech等 - **智能字幕**: 优先使用平台原生字幕,无字幕时自动转写 - **关键帧提取**: 自动提取视频关键帧,支持智能截图 - **多格式导出**: 支持Excel、DOCX等多种格式导出 - **Web界面**: 简洁易用的Web用户界面 - **缓存机制**: 智能缓存,重复请求秒开 ## 快速开始 1. 准备 Python 3.10+ 2. 安装依赖 ```bash pip install -r requirements.txt ``` 3. 准备 ffmpeg(必需) - Windows: 下载 ffmpeg 并将 `ffmpeg.exe` 加入 PATH,或设置环境变量 `FFMPEG_PATH` - 验证:`ffmpeg -version` 4. 启动服务 ```bash uvicorn app.main:app --reload ``` 5. 打开浏览器访问 `http://127.0.0.1:8000`,粘贴 B 站或其他平台视频链接开始分析 ## 可选:OpenAI 转写 - 设置环境变量 `OPENAI_API_KEY=` - 在页面勾选“无字幕时使用OpenAI转写” - 默认模型 `whisper-1`,可通过 `OPENAI_TRANSCRIBE_MODEL` 指定 ## 可选:SiliconFlow 转写 - 在页面选择 “硅基 SiliconFlow(TeleSpeech / SenseVoice)” 提供者 - 设置 `SILICONFLOW_API_KEY=`,可选配置 `SILICONFLOW_BASE_URL`、`SILICONFLOW_TRANSCRIBE_MODEL` - 默认模型 `TeleAI/TeleSpeechASR`,也可选择 `FunAudioLLM/SenseVoiceSmall` ## 目录结构 - `app/` FastAPI 应用与配置 - `services/` 业务编排(下载、字幕、转写、截图、缓存) - `core/` 下载/字幕/音频/帧 工具 - `stt/` 语音转文字(OpenAI 可选) - `web/templates`、`web/static` Web UI - `data/out//` 产物:`transcript.txt/.json`、`frames/*.jpg` - `exports/` 导出的 Excel ## 说明与限制 - 本工具针对 B 站体验优化,但可接受任意 URL(由 yt-dlp 支持即有机会解析) - 受地区/登录限制的视频可能需要 cookies,设置环境变量 `YDL_COOKIES=` 可增强下载成功率(当前实现未直接使用,可按需扩展) - 若无字幕且未启用 STT,将仅返回截图;建议勾选使用 OpenAI 转写 - 请遵守平台条款与版权法规,仅用于学习与个人整理 ## 常见问题 - 找不到 ffmpeg:安装后将其加入 PATH,或设置 `FFMPEG_PATH` - 无字幕:勾选 OpenAI 转写,或为后续扩展本地转写(faster-whisper) - Excel 中图片过大:已自动缩放至固定宽度(默认 320px)