155 Star 995 Fork 737

GVPMindSpore/mindformers

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
克隆/下载
mindformers.models.ChatGLM4Tokenizer.rst 1.10 KB
一键复制 编辑 原始数据 按行查看 历史
Xinrui Chen 提交于 2024-12-26 22:11 . add docstring test case

mindformers.models.ChatGLM4Tokenizer

.. py:class:: mindformers.models.ChatGLM4Tokenizer(vocab_file, clean_up_tokenization_spaces=False, encode_special_tokens=False, eos_token='<|endoftext|>', pad_token='<|endoftext|>', **kwargs)

    构造一个基于Byte-Pair-Encoding的ChatGLM4模型分词器。

    参数:
        - **vocab_file** (str) - 对应词表的路径。
        - **clean_up_tokenization_spaces** (bool) - 是否清理掉多余的空格。默认值: ``False`` 。
        - **encode_special_tokens** (bool) - 是否清理特殊token。默认值: ``False`` 。
        - **eos_token** (Union[str, tokenizers.AddedToken], 可选) - 序列结束标记。默认值: `"<|endoftext|>"` 。
        - **pad_token** (Union[str, tokenizers.AddedToken], 可选) - 用于使tokens数组大小相同以便进行批处理的特殊标记,然后将被注意力机制或损失计算忽略。默认值: `"<|endoftext|>"` 。
        - **kwargs** - 其它传递到Tokenizer基类的参数。

    返回:
        `ChatGLM4Tokenizer` 实例。
Loading...
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Python
1
https://gitee.com/mindspore/mindformers.git
git@gitee.com:mindspore/mindformers.git
mindspore
mindformers
mindformers
dev

搜索帮助