# JioNLP **Repository Path**: godspeedotc/JioNLP ## Basic Information - **Project Name**: JioNLP - **Description**: No description available - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-11-20 - **Last Updated**: 2025-11-20 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README
#### JioNLP:中文 NLP 预处理、解析工具包 A Python Lib for Chinese NLP Preprocessing & Parsing #### 安装:```pip install jionlp``` - JioNLP 是一个面向 **NLP 开发者**的工具包,提供 NLP 任务预处理、解析功能,准确、高效、零使用门槛。请下拉本网页,查阅具体功能信息,并按 **Ctrl+F** 进行搜索。[**JioNLP在线版**](https://www.jionlp.com/jionlp_online) 可快速试用部分功能。关注同名**微信公众号 JioNLP** 可获取最新的 AI 资讯,数据资源。 - [**AI发展方向——从pipeline到end2end**](https://mp.weixin.qq.com/s/ZpEn_vZGjY2dqpE_62721w) - [**你为什么不相信 LLM 模型评测:深入评测 LLM 接口**](https://mp.weixin.qq.com/s/8PoFz6mUD1AzKthGyO4cyA) - [**AI似乎在向着奇怪的方向飞奔**](https://mp.weixin.qq.com/s/cXktu3BDUee-s2L8Z0wXYA) - [**ChatGPT这么强,会影响NLPer的就业环境吗?**](https://zhuanlan.zhihu.com/p/605673596) - [**一文读懂ChatGPT模型原理**](https://zhuanlan.zhihu.com/p/589621442) - [**花了三周,我又更新了一版开源软件 ffio**](https://zhuanlan.zhihu.com/p/678141936) => [**FFIO链接**](https://github.com/dongrixinyu/ffio) ### 时间语义解析是目前较多开发者使用的功能,如果您考虑定制化效果更好的版本,可以与我联系,微信号 shanzhuiyancheng ### 2025-02-22 更新[大语言模型 LLM 评测数据集](https://github.com/dongrixinyu/JioNLP/wiki/LLM%E8%AF%84%E6%B5%8B%E6%95%B0%E6%8D%AE%E9%9B%86) - JioNLP 提供了一套 LLM 的测试数据集,并应用 MELLM 算法完成了自动评测。 - **评测结果**可关注**公众号JioNLP**,查阅具体各家评测截图 pdf。 ``` >>> import jionlp as jio >>> llm_test = jio.llm_test_dataset_loader(version='1.2') >>> print(llm_test[15]) >>> llm_test = jio.llm_test_dataset_loader(field='math') >>> print(llm_test[5]) ``` ### 2025-04-01 更新函数,删除了一部分词典内容 - `jio.chinese_idiom_loader` 该函数是成语加载函数,**目前**返回成语的 释义、出处、示例、整个中文语料中的出现频率。 由于该函数占据了 2.9M 硬盘空间,且使用人数应该非常少,所以会对该词典进行精简,**计划**仅保留成语以及其文本频率,删除释义、出处、示例。 这样做会压缩 jionlp 工具包大小。 ### 2023-12-12 Add [MELLM](https://zhuanlan.zhihu.com/p/666001842) - **MELLM**, short for **Mutual Evaluation of Large Language Models**, is an automatic evaluation algorithm of LLMs without human supervision. MELLM has been tested effectively on several LLMs and datasets [test results and analysis](https://zhuanlan.zhihu.com/p/671636095). You can use the example code below to take a try. - before running this code, you should download `norm_score.json` and `max_score.json` from [test data](https://pan.baidu.com/s/18Ufx51v05gyVkBoCo8fupw) with password `jmbo`. - If you encounter any error, read the [test_mellm.py](https://github.com/dongrixinyu/JioNLP/blob/master/test/test_mellm.py) to download `*.json` file. ``` $ git clone https://github.com/dongrixinyu/JioNLP $ cd JioNLP/test/ $ python test_mellm.py ``` ## 安装 Installation - python>=3.6 **github 版本略领先于 pip** ``` $ git clone https://github.com/dongrixinyu/JioNLP $ cd ./JioNLP $ pip install . ``` - pip 安装 ``` $ pip install jionlp ``` ## 使用 Features - 导入工具包,查看工具包的主要功能与函数注释 ``` >>> import jionlp as jio >>> print(jio.__version__) # 查看 jionlp 的版本 >>> dir(jio) >>> print(jio.extract_parentheses.__doc__) ``` - **星级⭐**代表优质特色功能 ### 1.小工具集 Gadgets | 功能 | 函数 |描述 |星级 | |--------|-------|-------|-------| |[**查找帮助**](../../wiki/Gadget-说明文档#user-content-查找帮助) |help|若不知道 JioNLP 有哪些功能,可根据命令行提示键入若干关键词做搜索 | | |[**车牌号**解析](../../wiki/Gadget-说明文档#user-content-解析车牌号) |parse_motor_vehicle_licence_plate|给定一个车牌号,对其进行解析 |⭐| |[**时间语义解析**](../../wiki/时间语义解析-说明文档#user-content-时间语义解析) |parse_time|给定时间文本,解析其时间语义(时间戳、时长)等 |⭐| |[**关键短语抽取**](../../wiki/Gadget-说明文档#user-content-关键短语抽取) |extract_keyphrase|给定一篇文本,抽取其对应关键短语 |⭐| |[抽取式**文本摘要**](../../wiki/Gadget-说明文档#user-content-抽取式文本摘要) |extract_summary|给定一篇文本,抽取其对应文摘 | | |[**停用词过滤**](../../wiki/Gadget-说明文档#user-content-去除停用词) |remove_stopwords|给定一个文本被分词后的词 list,去除其中的停用词 |⭐| |[**分句**](../../wiki/Gadget-说明文档#user-content-文本分句) |split_sentence|对文本按标点分句 |⭐| |[**地址解析**](../../wiki/Gadget-说明文档#user-content-地址解析) |parse_location|给定一个包含国内地址字符串,识别其中的**省、市、县区、乡镇街道、村社**等信息 |⭐| |[电话号码**归属地**、