1月18日，北京，聊聊2025如何加入技术开发？

加入 Gitee

与超过 1200万开发者一起发现、参与优秀开源项目，私有仓库也完全免费：）

免费加入

文件

克隆/下载

mindformers.models.ChatGLM4Tokenizer.rst 1.10 KB

一键复制编辑原始数据按行查看历史

提交于 2024-12-26 22:11 . add docstring test case

mindformers.models.ChatGLM4Tokenizer

.. py:class:: mindformers.models.ChatGLM4Tokenizer(vocab_file, clean_up_tokenization_spaces=False, encode_special_tokens=False, eos_token='<|endoftext|>', pad_token='<|endoftext|>', **kwargs)

    构造一个基于Byte-Pair-Encoding的ChatGLM4模型分词器。

    参数：
        - **vocab_file** (str) - 对应词表的路径。
        - **clean_up_tokenization_spaces** (bool) - 是否清理掉多余的空格。默认值： ``False`` 。
        - **encode_special_tokens** (bool) - 是否清理特殊token。默认值： ``False`` 。
        - **eos_token** (Union[str, tokenizers.AddedToken], 可选) - 序列结束标记。默认值： `"<|endoftext|>"` 。
        - **pad_token** (Union[str, tokenizers.AddedToken], 可选) - 用于使tokens数组大小相同以便进行批处理的特殊标记，然后将被注意力机制或损失计算忽略。默认值： `"<|endoftext|>"` 。
        - **kwargs** - 其它传递到Tokenizer基类的参数。

    返回：
        `ChatGLM4Tokenizer` 实例。

MindSpore Transformers套件的目标是构建一个大模型训练、推理、部署的全流程套件：提供业内主流的Transformer类预训练模型，涵盖丰富的并行特性。期望帮助用户轻松的实现大模型训练。文档：https://mindformers.readthedocs.io/zh-cn/latest/

Python 等 2 种语言

取消

MindFormers v1.3.0

马建仓 AI 助手

尝试更多

代码解读

代码找茬

代码优化

Python

https://gitee.com/mindspore/mindformers.git

git@gitee.com:mindspore/mindformers.git

mindspore

mindformers

dev

GVP MindSpore/mindformers

mindformers.models.ChatGLM4Tokenizer

简介

发行版 (6)

贡献者

近期动态

GVPMindSpore/mindformers

mindformers.models.ChatGLM4Tokenizer

简介

发行版 (6)

开源评估指数源自 OSS-Compass 评估体系，评估体系围绕以下三个维度对项目展开评估：

贡献者

近期动态

搜索帮助

GVP MindSpore/mindformers