# WEB_KG

**Repository Path**: zhangchd/WEB_KG

## Basic Information

- **Project Name**: WEB_KG
- **Description**: 爬取百度百科中文页面，抽取三元组信息，构建中文知识图谱
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 7
- **Created**: 2019-05-17
- **Last Updated**: 2021-06-21

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

#### Tips


- 如果是项目问题，请提issue。
- 如果涉及到不方便公开的，请发邮件。
- ChatBot请访问[链接](http://121.42.138.77:8889/)

### update 0907

- 1.修改网页保存路径为相对路径
- 2.删除多余的文件，只保留代码文件

# 开源web知识图谱项目

- 爬取百度百科中文页面
- 抽取[100W+个三元组](https://raw.githubusercontent.com/lixiang0/WEB_KG/master/kg/triples.txt)
- 构建中文知识图谱

### 环境

- python 3.6
- requests:网络请求
- re:url正则匹配
- bs4:网页解析
- pickle:进度保存
- threading:多线程
- neo4j:知识图谱图数据库,安装可以参考[链接](http://blog.rubenxiao.com/posts/install-neo4j.html)
- pip install neo4j-driver：neo4j python驱动


### 代码目錄

- spider/ 抓取原始网页
- ie/ 从网页中解析正文，从正文中抽取结构化信息
- kg/ 抽取三元組，存入neo4j数据库


### 代码执行顺序：


- 1.spider目录下执行：python spider_main.py
- 2.ie目录下执行：python extract-para.py
- 3.ie目录下执行：python extract-table.py
- 4.kg目录下执行：python build-triple-from-table.py
- 5.kg目录下执行：python insert_to_neo4j.py


### 知识图谱效果图

![](./kg/kg.png)