# baike_avp **Repository Path**: eshijia/baike_avp ## Basic Information - **Project Name**: baike_avp - **Description**: 针对中文百科网站的Infobox抽取。 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2016-10-20 - **Last Updated**: 2020-12-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 百科数据抽取 ## 环境配置 virtualenv -p /usr/bin/python --no-site-packages baike_avp source baike_avp/bin/activate pip install scrapy ## 运行方法 git clone https://gitee.com/eshijia/baike_avp cd baike_avp scrapy crawl avp 注:本地需有默认配置的Redis服务器运行 ## 介绍 对百度百科中含有Infobox的词条页面进行元组(subject, predict, object, label .)抽取,并进行持久化存储。 ## 项目进展 ### 2018.4.15 - 使用Redis数据库保存请求和爬取的URL,实现“增量”爬取 ### 2018.4.13 - 自动写入Cayley数据库,并修复假死bug ### 2017.8.26 - 将数据自动存储至AllegroGraph中 ### 2016.10.20 - 抓取无超链接的object - 抓取无标点符号分隔的纯文本object ## TODO 1. 同义词处理:如很多object种为“唐”这个值,实际上指代的是“唐朝”。“唐朝”在百科中是有词条的,而“唐”没有;