# MIT_OCW **Repository Path**: zeroxer/mit_ocw ## Basic Information - **Project Name**: MIT_OCW - **Description**: MIT OpenCourse爬虫 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2017-06-26 - **Last Updated**: 2021-06-21 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # MIT_OCW课程资料获取 ## 简介 + 背景 在查看MIT公开课的视频的时候,由于对英文授课不熟悉,所以希望能够在看视频的时候有一份打印的讲义,在MIT公开课的网站中,找到了字幕文件的pdf和srt版本,这里使用Python自动下载对应的pdf文件。 + 目标 使用Python获取MIT公开课资料数据 网址: `https://ocw.mit.edu` + 需求-已实现 通过用户输入的课程主页URL,自动获取视频字幕的pdf文件(下载并保存到课程目录下,如下图) ![层级目录](https://git.oschina.net/uploads/images/2017/0626/093240_14944fe7_606739.png "层级目录") + 开发工具链 + 工具箱: Anaconda3 + Python: BeautifulSoup + IDE: PyCharm ## 功能拓展 + 1.添加GUI图形界面,把程序封装成一个单独的Application,选择课程后可以一键完成整个课程内容的下载 + 2.尝试添加其他慕课网站的数据 ## 编码与实现 + 1.一步一步从获取网页的局部区域开始,通过在控制台打印信息确认编码的正确性。 + 2.模块化概念不足,程序中使用的函数,没有写测试,直接在使用的过程中确认的代码的有效性。 ## 反思与改进 + 1.【多线程】在文档的下载中可以尝试使用多线程技术 + 2.【测试】不熟悉Python项目开发流程以及IDE中测试的使用 > [?] 功能简单的时候可能不需要在测试上占用过多时间 ## 总结 + 本次的小项目中,增加了TerminalColor,使得在程序输出控制和提示信息的时候更加清晰。 ## 运行展示 + 程序运行开始:输入目标课程URL ![用户输入URL](https://git.oschina.net/uploads/images/2017/0626/094944_1a4f783b_606739.png "用户输入URL") + 程序运行控制信息输出 ![控制台提示信息输出](https://git.oschina.net/uploads/images/2017/0626/095013_576ac8a7_606739.png "控制台提示信息输出")