Gitee 年度开源项目评选中~

加入 Gitee

与超过 1200万开发者一起发现、参与优秀开源项目，私有仓库也完全免费：）

免费加入

文件

克隆/下载

mindformers.models.ChatGLM4Tokenizer.rst 1.10 KB

一键复制编辑原始数据按行查看历史

提交于 2024-12-28 16:25 +08:00 . docstring bugfix

mindformers.models.ChatGLM4Tokenizer

.. py:class:: mindformers.models.ChatGLM4Tokenizer(vocab_file, clean_up_tokenization_spaces=False, encode_special_tokens=False, eos_token='<|endoftext|>', pad_token='<|endoftext|>', **kwargs)

    构造一个基于Byte-Pair-Encoding的ChatGLM4模型分词器。

    参数：
        - **vocab_file** (str) - 对应词表的路径。
        - **clean_up_tokenization_spaces** (bool) - 是否清理掉多余的空格。默认值： ``False`` 。
        - **encode_special_tokens** (bool) - 是否清理特殊token。默认值： ``False`` 。
        - **eos_token** (Union[str, tokenizers.AddedToken], 可选) - 序列结束标记。默认值： `"<|endoftext|>"` 。
        - **pad_token** (Union[str, tokenizers.AddedToken], 可选) - 用于使tokens数组大小相同以便进行批处理的特殊标记，然后将被注意力机制或损失计算忽略。默认值： `"<|endoftext|>"` 。
        - **kwargs** - 其它传递到Tokenizer基类的参数。

    返回：
        `ChatGLM4Tokenizer` 实例。

MindSpore Transformers套件的目标是构建一个大模型预训练、微调、推理、部署的全流程开发套件，提供业内主流的Transformer类大语言模型（Large Language Models, LLMs）和多模态理解模型（Multimodal Models, MMs）。期望帮助用户轻松地实现大模型全流程开发。

取消

MindSpore Transformers v1.7.0

Python 99.4% C++ 0.3% Shell 0.3%

马建仓 AI 助手

尝试更多

代码解读

代码找茬

代码优化

Python

https://gitee.com/mindspore/mindformers.git

git@gitee.com:mindspore/mindformers.git

mindspore

mindformers

r1.3.0

GVP MindSpore/mindformers

mindformers.models.ChatGLM4Tokenizer

简介

发行版 (10)

贡献者

语言

近期动态

GVPMindSpore/mindformers

mindformers.models.ChatGLM4Tokenizer

简介

发行版 (10)

开源评估指数源自 OSS-Compass 评估体系，评估体系围绕以下三个维度对项目展开评估：

贡献者

语言

近期动态

搜索帮助

GVP MindSpore/mindformers