# text-summarization

**Repository Path**: liangzongchang/text-summarization

## Basic Information

- **Project Name**: text-summarization
- **Description**: 基于TensorFlow，seq2seq+attention+beamsearch的文本摘要。
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 4
- **Forks**: 0
- **Created**: 2020-10-28
- **Last Updated**: 2025-03-21

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 基于中文的文本摘要
	基于seq2seq+attention+beamsearch，进行搜狗新闻数据的文本摘要。
	本电脑的环境为 TensorFlow 1.10.1
	Gpu: p40
## 1，数据的准备。
   采用了搜狗实验室的文本数据，下载到本地，如果操作系统是Ubuntu 或者 mac系统，要对下载的数据进行重新编码，否则数据的格式总是 乱码。
	cat news_sohusite_xml.dat | iconv -f gbk -t utf-8 -c  > corpus.txt

### 1.1 数据的清洗。
	`/data/sougouData` 数据处理，包括几个部分。采用正则化或者ltp工具包进行处理。
		- 1，时间的替换，
		- 2，数字的替换，
		- 3，数据类型的替换（人名，地名，组织名）。
### 1.2 数据替换后，会生成两个文件 `/data/train/content.txt和 data/train/title.txt`，然后对这两个数据进行str to id的操作， 同时 生成 字典。
	/data/下 执行 gen_vocab.py 和process.py 完成上述操作。在train/下面生成 content_id.txt 和title_id.txt 文件。

## 2，模型训练
   执行python train.py 进行训练。
## 3，模型预测
   执行python test.py 完成预测。

## 4，模型说明。
	由于新闻的文本数据特别长，所以在训练模型时，模型的训练速度实在是太慢了。
	之前，认识一个人，他也是做文本摘要的，在做生成式摘要时，训练花费的时间是特别长的， 半个月，一个月之类的。

## 5，模型参考
	- 1，大神的英文文本摘要吧，由于文本长度很短，这个特别容易实现的，我也是主要借鉴的。[连接](https://github.com/dongjun-Lee/text-summarization-tensorflow)
	- 2, 本人数据集主要是 来源于搜狗的数据平台。 [连接](http://www.sogou.com/labs/resource/ca.php)