# webbrain **Repository Path**: zymaa/webbrain ## Basic Information - **Project Name**: webbrain - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-12-07 - **Last Updated**: 2022-05-25 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README WebBrain data_script/ gen_instance/: 离线生成训练/测试数据 gen_train_data_v4.py : 生成各个预训练任务和query-doc pair的训练数据 gen_evaluate_data.py : 生成各个任务的测试数据 gen_msmarco_sent.py: 将每个文档以句子为单位进行切分 pretrain/: 模型预训练 & 测试 BertForPretrain.py: 预训练模型 BertForPretrain HierBertForPretrain BertForDense evaluate.py: 计算各个评测任务的metric pretrain_dataset.py: 加载训练和测试数据 runBert.py: 训练和测试模型的入口 train_model(): 模型预训练 retrieve_doc(): 测试模型 —— 根据文档内容/query检索docid relevant_passage(): 测试模型 —— 看看和docid最相关的passage relevant_tokens(): 测试模型 —— 看看和docid最相关的tokens runHierarchical.py: 训练和测试层次化模型的入口 runDistribute.py: 训练和测试分布式模型的入口 runHybrid.py: 两者结合 (这三部分都参考runBert.py) utils.py: 一些辅助性的程序 DynamicRetriever/: 对应论文DynamicRetriever的模型和源码 webbrain_v1/: 前一版的代码