# JioNLP **Repository Path**: wxlxt/JioNLP ## Basic Information - **Project Name**: JioNLP - **Description**: No description available - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2023-11-17 - **Last Updated**: 2023-11-17 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README
#### JioNLP:中文 NLP 预处理、解析工具包 A Python Lib for Chinese NLP Preprocessing & Parsing #### 安装:```pip install jionlp``` - JioNLP 是一个面向 **NLP 开发者**的工具包,提供 NLP 任务预处理、解析功能,准确、高效、零使用门槛。请下拉本网页,查阅具体功能信息,并按 **Ctrl+F** 进行搜索。[**JioNLP在线版**](http://www.jionlp.com/) 可快速试用部分功能。关注同名**微信公众号** JioNLP 可获取最新的 NLP 资讯,数据资源。 - [**ChatGPT面前,JioNLP-工具的价值在何处?**](../../wiki/ChatGPT面前,JioNLP-工具的价值在何处?) - [**ChatGPT这么强,会影响NLPer的就业环境吗?**](https://zhuanlan.zhihu.com/p/605673596) - [**一文读懂ChatGPT模型原理**](https://zhuanlan.zhihu.com/p/589621442) ### 2023-07-03 添加[清洗 html 文本]() - 对于爬虫 html 格式文本的统一化清洗方法,得到的文本数据可用于语言模型预训练。 - 当然,由于不同网页 html 文本差异极大,针对特定数据还需要特殊的清洗方法,需要在本方法基础上进一步修正和改进。 ``` >>> import jionlp as jio >>> html_text = '....' >>> res = jio.clean_html(html_text) >>> print(res) ``` ### 2023-05-01 添加[大语言模型 LLM 评测数据集](https://github.com/dongrixinyu/JioNLP/wiki/LLM%E8%AF%84%E6%B5%8B%E6%95%B0%E6%8D%AE%E9%9B%86) - LLM 各个厂家都在做自研,都声称对标 ChatGPT,那就出一份数据集,测试一下各家模型效果究竟如何? - 主要针对中文,覆盖语言模型能力的各个方面。 - **评测结果**可关注**公众号JioNLP**,查阅具体各家评测截图pdf。 ``` >>> import jionlp as jio >>> llm_test = jio.llm_test_dataset_loader() >>> print(llm_test[15]) ``` ### 2023-02-21 添加 Byte-level BPE 算法[**Byte-level BPE**](../../wiki/BPE算法说明文档) - 基于字节的 BPE 算法,适用于多语言token编码,目前仅实现了 Byte-level BPE 算法中 Byte-level 部分 ``` >>> import jionlp as jio >>> res = jio.bpe.byte_level_bpe.encode('メトロ') >>> res = jio.bpe.byte_level_bpe.decode('ãĥ¡ãĥĪdsãĥŃ') # 'メトdsロ' >>> res = jio.bpe.byte_level_bpe.decode('ãĥ¡ãĥĪãdsĥŃ') # 'メト�ds��' ``` ### 2022-11-28 更新 [**正则判断类函数族**](../../wiki/正则判断类说明文档) #### jio.check_any_chinese_char 检查文本中是否包含中文字符 ``` >>> import jionlp as jio >>> print(jio.check_any_chinese_char('【新华社消息】(北京时间)从昨天...')) # True ``` ## 安装 Installation - python>=3.6 **github 版本略领先于 pip** ``` $ git clone https://github.com/dongrixinyu/JioNLP $ cd ./JioNLP $ pip install . ``` - pip 安装 ``` $ pip install jionlp ``` ## 使用 Features - 导入工具包,查看工具包的主要功能与函数注释 ``` >>> import jionlp as jio >>> print(jio.__version__) # 查看 jionlp 的版本 >>> jio.help() # 输入关键词搜索工具包是否包含某功能,如输入“回译” >>> dir(jio) >>> print(jio.extract_parentheses.__doc__) ``` - 在 Linux 系统,可使用以下命令做搜索: ``` $ jio_help ``` - **星级⭐**代表优质特色功能 ### 1.小工具集 Gadgets | 功能 | 函数 |描述 |星级 | |--------|-------|-------|-------| |[**查找帮助**](../../wiki/Gadget-说明文档#user-content-查找帮助) |help|若不知道 JioNLP 有哪些功能,可根据命令行提示键入若干关键词做搜索 | | |[**车牌号**解析](../../wiki/Gadget-说明文档#user-content-解析车牌号) |parse_motor_vehicle_licence_plate|给定一个车牌号,对其进行解析 |⭐| |[**时间语义解析**](../../wiki/时间语义解析-说明文档#user-content-时间语义解析) |parse_time|给定时间文本,解析其时间语义(时间戳、时长)等 |⭐| |[**关键短语抽取**](../../wiki/Gadget-说明文档#user-content-关键短语抽取) |extract_keyphrase|给定一篇文本,抽取其对应关键短语 |⭐| |[抽取式**文本摘要**](../../wiki/Gadget-说明文档#user-content-抽取式文本摘要) |extract_summary|给定一篇文本,抽取其对应文摘 | | |[**停用词过滤**](../../wiki/Gadget-说明文档#user-content-去除停用词) |remove_stopwords|给定一个文本被分词后的词 list,去除其中的停用词 |⭐| |[**分句**](../../wiki/Gadget-说明文档#user-content-文本分句) |split_sentence|对文本按标点分句 |⭐| |[**地址解析**](../../wiki/Gadget-说明文档#user-content-地址解析) |parse_location|给定一个包含国内地址字符串,识别其中的**省、市、县区、乡镇街道、村社**等信息 |⭐| |[电话号码**归属地**、