# CarbonInfoSystem
**Repository Path**: be-merciless/CarbonInfoSystem
## Basic Information
- **Project Name**: CarbonInfoSystem
- **Description**: 文本分析系统(后端)django
- **Primary Language**: Python
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 1
- **Created**: 2023-02-14
- **Last Updated**: 2025-07-31
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
# CarbonInfoSystem
## How To Use
```
# 克隆gitee仓库
git clone https://gitee.com/nancyyyyy/CarbonInfoSystem.git
# 进入CarbonInfoSystem目录
cd CarbonInfoSystem
# 构建docker镜像
docker build --pull --rm -f "Dockerfile" -t carbon_info_system "."
# 运行docker容器
docker run -dp PORT:10086 -v PATH2FILE:/code -v /etc/timezone:/etc/timezone:ro -v /etc/localtime:/etc/localtime:ro --restart=always carbon_info_system
```
## zjh看我
1. ssh连接远程服务器
2. 进入CarbonInfoSystem目录
`cd /home/CarbonInfoSystem`
3. 拉取最新代码
`git pull`
3. 查看docker容器
`docker ps` 或者 `docker ps -a`
4. 重启docker容器
`docker restart CONTAINER_ID`
5. 退出远程服务器
## 文档整理
1. pdf文件命名 (股票代码得是6位数字)
2. Excel的格式为.xls、以及每一列的内容
3. 指标的关键词的格式
4. 碳中和系统的“关键词+数字”手动
## 3. TO 吕明洁
### 3.1 运行脚本的整体流程
1. 重命名PDF文件为`股票代码_公司名_年份.pdf`, (股票代码得是6位数字)
2. 统计高管致辞的页码,存为如下格式的`all_pno.csv`文件. 页码是PDF文件的页码.可以先填Excel,然后转成csv.
```
PDF名称,高管致辞开始页码,高管致辞结束页码
000001_平安银行_2020.pdf,2,3
……
```
3. 把PDF文件上传到服务器该项目的`./media/uploads/pdfs_test`下,没有`pdfs_test`文件夹就创建一个
4. 把统计好的高管致辞的**部分**页码信息,复制到服务器该项目的`./scripts/pno.csv`. 可以先一次上传4个看看,没出问题,后期可以50个甚至100个
PS0: pno.csv 是你每次跑脚本时,跑哪些pdf的依据
PS1: pno.csv里有的pdfs_test里一定要有, pdfs_test里有的pno.csv里不一定要有
PS2: 大家把高管致辞的excel表格保存为csv之后,
1. 使用记事本打开
2. 文件-另存为,底部选择“编码”为“UTF-8”
3. 文件名改成pno.csv,点击保存
4. 上传服务器.........
5. 浏览器请求[腾讯云服务器]`http://43.143.254.207:10086/api/run2`或者[学校服务器]`http://10.81.0.229:28881/api/run2`,等待. 重要的事情说三遍:
**只能请求一次**
**只能请求一次**
**只能请求一次**
6. 时不时查看一下docker容器的日志,浏览器或者请求[腾讯云服务器]`http://43.143.254.207:10086/api/logs`或[学校服务器]`http://10.81.0.229:28881/api/logs`,如果出现`[INFO]: 程序结束运行`说明运行结束,或者出现异常.
也可以用`WinSCP`查看`./media/temp_images/`文件夹,看一会这个文件夹,**看看图片的文件名是否有变化**,如果没有变化,说明程序运行结束.
7. 运行结束后,下载生成的EXCEL文件。各个EXCEL文件在`./media/downloads/`下的各个文件夹中,可以全部下载到本地,也可以选择性下载。
### 3.3 修改关键词等文件
1. 关键词文件存放位置:`./data/`
2. 下载对应的关键词文件
3. 修改
4. 上传到服务器的`./data/`下
### 3.4 一些基本的Docker操作
PS: 我们容器的名称:`carbon_info_system`
1. 查看正在运行的docker容器
`sudo docker ps`
```
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
fc3e12f2e16c moby/buildkit:buildx-stable-1 "buildkitd" 5 days ago Up 5 days buildx_buildkit_crossbuilder0
df0d6e599f4f carbon_info_system "python3 manage.py r…" 7 days ago Up 17 minutes 0.0.0.0:10086->10086/tcp epic_taussig
```
2. 查看所有的docker容器
`sudo docker ps -a`
3. 查看docker容器的日志
`sudo docker logs CONTAINER_ID`
```
……
2023-05-23 16:05:29 [INFO]: 程序开始运行
2023-05-23 16:05:29 [INFO]: 启动线程:thread_1
2023-05-23 16:05:32 [INFO]: 启动线程:thread_2
……
2023-05-23 16:05:29 [INFO]: 程序结束运行
```
4. 重启docker容器(发现服务挂了,就执行这个操作)
`sudo docker restart CONTAINER_ID`