# seq2seq-chatbot **Repository Path**: fandylin/seq2seq-chat-robot ## Basic Information - **Project Name**: seq2seq-chatbot - **Description**: 基于seq2seq+attention训练聊天机器人 - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 3 - **Forks**: 1 - **Created**: 2021-12-28 - **Last Updated**: 2024-02-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # seq2seq-chatbot ### 版本依赖 html5lib==0.9999999\ numpy==1.16.2\ tensorboard==1.8.0\ tensorflow-gpu==1.8.0\ termcolor==1.1.0\ tornado==6.0.2\ tqdm==4.31.1 ### 文件说明 #### **1.config.py参数配置文件** 主要进行模型超参数以及相关文件路径的配置 #### **2.DataProcessing.py 预处理文件** 主要进行语料库的处理工作,包括语料处理、编码索引、生成语料库的词向量文件emb等。 #### **3.read_vecor.py 修改词向量文件** 原始词向量是由维基百科语料word2vec训练得到的,现在要对原始词向量进行一定的修改, 主要加入了 PAD = '' # 填充 UNK = '' # 未知 START = '' # 开始 END = '' # 结束 这四个的词向量,随机生成(设置随机种子)。 - wiki.zh.text.vector 对应原始词向量 - word_vec.pkl 对应修改的词向量 #### **4.SequenceToSequence.py Seq2Seq模型** #### **5.Train.py 训练文件** 运算只需要运行此文件即可 #### **6.RestfulAPI.py** 运行此文件,然后打开index.html,即可进行人机对话。 ### 效果图 ![img.png](img.png) ### **模型文件及相关数据文件请参考百度网盘:** 如果缺少相关数据或模型文件,请到这里下载。 | 文件名称 | 解释 | | --------------------------------- | -------------------------------------------------------- | | clean_chat_corpus/xiaohuangji.tsv | 小黄鸡训练语料 | | model/ | 训练好的模型文件,可直接加载 | | data/data.pkl | 原始语料预处理之后的数据 | | data/wiki.zh.text.vector | 原始词向量文件 | | data/word_vec.pkl | 修改后的词向量文件 | | data/emb.pkl y | 根据语料库的词语抽取出的词向量文件,用于embedding_lookup | | data/w2i.pkl | 词与索引对应的文件 | 链接:https://pan.baidu.com/s/1X2fixauTOE7RBkojBD90Pw 提取码:yvxd