# honey **Repository Path**: enjoy_li/honey ## Basic Information - **Project Name**: honey - **Description**: 马静晗 - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-10-15 - **Last Updated**: 2024-11-07 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 爬取网站链接文件 常规流程:爬取链接、清洗数据、下载文件 执行命令后,再根据运行中的脚本提示,进行选择、输入等操作 ## 获取文件链接 爬取的最终数据格式 ```py data = [ { "name_raw": "旗滨集团2018年度社会责任报告", "href": "https://www.sse.com.cn/disclosure/listedinfo/announcement/c/2019-03-29/601636_20190329_9.pdf", "date_pulish": "2019-03-29", "page_cur": "498", "index": 1, }, ] ``` ### [上交所](https://www.sse.com.cn/home/search/index.shtml) ```py python get_links_sse.py ``` ### [深交所](https://www.szse.cn/application/search/index.html) ```py python get_links_szse.py ``` ## 清洗数据:格式化文件名——使用xlsx名获取属性 ```py python format_data_cache.py ``` 最终数据格式 ```py data = [ { "name_raw": "旗滨集团A2018年度社会责任报告", "href": "https://www.sse.com.cn/disclosure/listedinfo/announcement/c/2019-03-29/601636_20190329_9.pdf", "date_pulish": "2019-03-29", "page_cur": "498", "index": 1, "name":"旗滨集团A2018年度社会责任报告", "Stkcd": "601636", "Stknme": "旗滨集团", "ListedDate": "2011-08-12", "Conme": "株洲旗滨集团股份有限公司", "Cochsnm": "旗滨集团", "file_extension": ".pdf", "date_year_report": "2018", "name_download": "601636_2018" }, ] ``` ## 下载链接文件 ```py python download_pdf.py ``` 可以输入 字段名1 字段名2...,各字段以 下划线_ 拼接成文件名 ## cmd 软连接 在 cmd 终端 运行命令 ```bash # mklink /D D:\Downloads\Pictures D:\Pictures mklink /D 新建目录路径 原始目标目录路径 ``` ## 在指定文件夹下,对所有文件改名 文件名改为 企业简码_报告年份 的格式:比如:688195_2023.pdf ```py python rename_current_folder.py ``` ## 打印执行报告 👍👍😄 :代表脚本成功执行 👎👎😢 :代表脚本执行过程中的错误或失败报告 ## 让在Python中抓取网页变得很容易 webbrowser:是Python自带的,打开浏览器获取指定页面。 requests:从因特网上下载文件和网页。 Beautiful Soup:解析HTML,即网页编写的格式。 selenium:启动并控制一个Web浏览器。selenium能够填写表单,并模拟鼠标在这个浏览器中点击。 F:\working_space\Research\Greenwashing\Experiment\data\sample\企业社会责任\上海证券_企业社会责任\downloads_szse F:\working_space\Research\Greenwashing\Experiment\data\sample\上交所_企业社会责任\上海证券_企业社会责任\ESG F:\working_space\Research\Greenwashing\Experiment\data\sample\上交所_企业社会责任\上海证券_企业社会责任\上交所_社会责任报告 F:\working_space\Research\Greenwashing\Experiment\data\sample\上交所ESG\马静晗_企业社会责任\downloads_sse_esg F:\working_space\Research\Greenwashing\Experiment\data\sample\深交所_企业社会责任\马静晗_企业社会责任\downloads_esg F:\working_space\Research\Greenwashing\Experiment\data\sample\深交所_企业社会责任\马静晗_企业社会责任\深交所_社会责任报告 no_Symbol_2022_2023-04-12_鲁 泰A:2022年社会责任报告.pdf 上交所_社会责任 深交所_社会责任 深交所_ESG 上交所_ESG find_miss_out_files