# CarbonInfoSystem **Repository Path**: be-merciless/CarbonInfoSystem ## Basic Information - **Project Name**: CarbonInfoSystem - **Description**: 文本分析系统(后端)django - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2023-02-14 - **Last Updated**: 2025-07-31 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # CarbonInfoSystem ## How To Use ``` # 克隆gitee仓库 git clone https://gitee.com/nancyyyyy/CarbonInfoSystem.git # 进入CarbonInfoSystem目录 cd CarbonInfoSystem # 构建docker镜像 docker build --pull --rm -f "Dockerfile" -t carbon_info_system "." # 运行docker容器 docker run -dp PORT:10086 -v PATH2FILE:/code -v /etc/timezone:/etc/timezone:ro -v /etc/localtime:/etc/localtime:ro --restart=always carbon_info_system ``` ## zjh看我 1. ssh连接远程服务器 2. 进入CarbonInfoSystem目录 `cd /home/CarbonInfoSystem` 3. 拉取最新代码 `git pull` 3. 查看docker容器 `docker ps` 或者 `docker ps -a` 4. 重启docker容器 `docker restart CONTAINER_ID` 5. 退出远程服务器 ## 文档整理 1. pdf文件命名 (股票代码得是6位数字) 2. Excel的格式为.xls、以及每一列的内容 3. 指标的关键词的格式 4. 碳中和系统的“关键词+数字”手动 ## 3. TO 吕明洁 ### 3.1 运行脚本的整体流程 1. 重命名PDF文件为`股票代码_公司名_年份.pdf`, (股票代码得是6位数字) 2. 统计高管致辞的页码,存为如下格式的`all_pno.csv`文件. 页码是PDF文件的页码.可以先填Excel,然后转成csv. ``` PDF名称,高管致辞开始页码,高管致辞结束页码 000001_平安银行_2020.pdf,2,3 …… ``` 3. 把PDF文件上传到服务器该项目的`./media/uploads/pdfs_test`下,没有`pdfs_test`文件夹就创建一个 4. 把统计好的高管致辞的**部分**页码信息,复制到服务器该项目的`./scripts/pno.csv`. 可以先一次上传4个看看,没出问题,后期可以50个甚至100个 PS0: pno.csv 是你每次跑脚本时,跑哪些pdf的依据 PS1: pno.csv里有的pdfs_test里一定要有, pdfs_test里有的pno.csv里不一定要有 PS2: 大家把高管致辞的excel表格保存为csv之后, 1. 使用记事本打开 2. 文件-另存为,底部选择“编码”为“UTF-8” 3. 文件名改成pno.csv,点击保存 4. 上传服务器......... 5. 浏览器请求[腾讯云服务器]`http://43.143.254.207:10086/api/run2`或者[学校服务器]`http://10.81.0.229:28881/api/run2`,等待. 重要的事情说三遍: **只能请求一次** **只能请求一次** **只能请求一次** 6. 时不时查看一下docker容器的日志,浏览器或者请求[腾讯云服务器]`http://43.143.254.207:10086/api/logs`或[学校服务器]`http://10.81.0.229:28881/api/logs`,如果出现`[INFO]: 程序结束运行`说明运行结束,或者出现异常. 也可以用`WinSCP`查看`./media/temp_images/`文件夹,看一会这个文件夹,**看看图片的文件名是否有变化**,如果没有变化,说明程序运行结束. 7. 运行结束后,下载生成的EXCEL文件。各个EXCEL文件在`./media/downloads/`下的各个文件夹中,可以全部下载到本地,也可以选择性下载。 ### 3.3 修改关键词等文件 1. 关键词文件存放位置:`./data/` 2. 下载对应的关键词文件 3. 修改 4. 上传到服务器的`./data/`下 ### 3.4 一些基本的Docker操作 PS: 我们容器的名称:`carbon_info_system` 1. 查看正在运行的docker容器 `sudo docker ps` ``` CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES fc3e12f2e16c moby/buildkit:buildx-stable-1 "buildkitd" 5 days ago Up 5 days buildx_buildkit_crossbuilder0 df0d6e599f4f carbon_info_system "python3 manage.py r…" 7 days ago Up 17 minutes 0.0.0.0:10086->10086/tcp epic_taussig ``` 2. 查看所有的docker容器 `sudo docker ps -a` 3. 查看docker容器的日志 `sudo docker logs CONTAINER_ID` ``` …… 2023-05-23 16:05:29 [INFO]: 程序开始运行 2023-05-23 16:05:29 [INFO]: 启动线程:thread_1 2023-05-23 16:05:32 [INFO]: 启动线程:thread_2 …… 2023-05-23 16:05:29 [INFO]: 程序结束运行 ``` 4. 重启docker容器(发现服务挂了,就执行这个操作) `sudo docker restart CONTAINER_ID`