2.6K Star 8.6K Fork 4.8K

GVPMindSpore/mindspore

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
mindspore.dataset.text.Ngram.rst 2.00 KB
一键复制 编辑 原始数据 按行查看 历史
宦晓玲 提交于 2024-04-18 09:38 . modify the error links

mindspore.dataset.text.Ngram

.. py:class:: mindspore.dataset.text.Ngram(n, left_pad=("", 0), right_pad=("", 0), separator=" ")

    从1-D的字符串生成N-gram。

    关于N-gram是什么以及它是如何工作的,请参阅 `N-gram <https://en.wikipedia.org/wiki/N-gram#Examples>`_ 。

    参数:
        - **n** (list[int]) - n-gram 中的 n,它是一个正整数列表。例如 n=[4, 3],结果将是Tensor包含一个4-gram和一个3-gram的字符串。
          如果输入的字符不足以构造一个n-gram,则返回一个空字符串。例如在["mindspore", "best"] 应用 3-gram 将导致生成一个空字符串。
        - **left_pad** (tuple, 可选) - 指定序列的左侧填充,传入tuple的形式为 ("pad_token",pad_width)。
          pad_width 的上限值为 `n` -1。例如,指定 `left_pad=("_", 2)` 将用 "__" 填充序列的左侧。默认值: ``("", 0)`` 。
        - **right_pad** (tuple, 可选) - 指定序列的右侧填充,传入tuple的形式为 ("pad_token", pad_width)。
          pad_width 的上限值为 `n` -1。例如,指定 `right_pad=("_", 2)` 将用 "__" 填充序列的右侧。默认值: ``("", 0)`` 。
        - **separator** (str, 可选) - 指定用于将字符串连接在一起的分隔符。
          例如,如果对 ["mindspore", "amazing"] 应用 2-gram 并指定分隔符为 ``"-"`` ,结果将是 ["mindspore-amazing"]。默认值: ``" "`` ,使用空格作为分隔符。

    异常:
        - **TypeError** - 参数 `n` 包含的值类型不为int。
        - **ValueError** - 参数 `n` 包含的值不为正数。
        - **ValueError** - 参数 `left_pad` 不是一个长度2的Tuple[str, int]。
        - **ValueError** - 参数 `right_pad` 不是一个长度2的Tuple[str, int]。
        - **TypeError** - 参数 `separator` 的类型不是str。

    教程样例:
        - `文本变换样例库
          <https://www.mindspore.cn/docs/zh-CN/master/api_python/samples/dataset/text_gallery.html>`_
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Python
1
https://gitee.com/mindspore/mindspore.git
git@gitee.com:mindspore/mindspore.git
mindspore
mindspore
mindspore
r2.3.1

搜索帮助