# seq2seq **Repository Path**: luoyi9340/seq2seq ## Basic Information - **Project Name**: seq2seq - **Description**: nlp练手 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-03-19 - **Last Updated**: 2023-04-24 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README 文章标题预测,NLP练手 数据预处理 1 数据来源:Sougou文章标题数据,XML格式(不是标准XML,没有根节点) 2 截取文章标题,文章内容 3 对截取内容和标题做中文分词,用所有内容和标题的分词结果做成字典 字典写入磁盘 词->idx idx->词 4 用字典将数据转为:title词编码,context词编码 写入磁盘做数据集 训练 验证 测试 数据集 1 读取上述预处理后的数据集 context词编码做为X title词编码作为Y 2 X,Y用最大长度约束,方便后面转为Tensor 网络结构: 输入:X,Y ------ encoder ------ GRU: