ascendc-api-adv: ascendc-api-adv，是昇腾硬件上面向算子开发场景的编程语言Ascend C的高阶类库。

算子开发样例

目录名称	算子样例	功能描述
activation	adjustsoftmaxres	用于对softmax结果进行后处理。当输入的max tensor中存在指定的值，调整输入x tensor中对应位置的数据为自定义的值。
	fastergelu	对输入tensor做FasterGelu计算。
	simplesoftmax	对输入tensor按行做softmax计算，计算过程中不包含按行reduce计算max和sum，所需的max和sum由外部输入。
	softmax	对输入tensor按行做softmax计算，计算过程包含按行reduce计算max和sum，同时会输出max和sum。
	softmaxflash	softmax增强版本，除了可以对输入tensor做softmaxflash计算，还可以根据上一次softmax计算的sum和max来更新本次softmax计算结果。
	softmaxgrad	对输入tensor按行做如下公式的计算：zi = ∑(xi * yi)，其中∑为按行reduce求和。
	softmaxgradfront	对输入tensor按行做如下公式的计算：zi = (xi - ∑(xi * yi)) * yi，其中∑为按行reduce求和。
matrix	basic_block_matmul	实现无尾块且tiling的base块大小固定的场景下的Matmul矩阵乘法，计算公式为：C = A * B + Bias。
	batch_matmul	一次完成BatchNum个Matmul矩阵乘法，单次Matmul计算公式为：C = A * B + Bias。
	matmul	实现Matmul矩阵乘法，计算公式为：C = A * B + Bias。
	matmul_async	实现异步场景下的Matmul矩阵乘法，计算公式为：C = A * B + Bias。
	matmul_constant	实现MDL模板下使能Tiling常量化的Matmul矩阵乘法，计算公式为：C = A * B + Bias。
	matmul_ibshare	实现A矩阵或B矩阵GM地址相同，共享L1 Buffer场景下的Matmul矩阵乘法，计算公式为：C = A * B + Bias。
	matmul_k_reorder_load	实现MDL模板下使能K轴错峰加载数据的Matmul矩阵乘法，计算公式为：C = A * B + Bias。
	matmul_mndb	实现M或N轴方向流水并行场景下的Matmul矩阵乘法，计算公式为：C = A * B + Bias。
	matmul_preload	实现MDL模板使能M或N方向预加载功能场景下的Matmul矩阵乘法，计算公式为：C = A * B + Bias。
	matmul_a2b2share	实现NORM模板使能A2和B2全局管理场景下的两次Matmul矩阵乘法，计算公式为：C1 = A1 * B1 + Bias，C2 = A2 * B2 + Bias。
	matmul_callback	实现NORM模板下自定义左矩阵搬运回调函数的Matmul矩阵乘法，计算公式为：C = A * B + Bias。
	matmul_l0c_extend	基于自主管理CO1的Iterate接口实现Matmul矩阵乘法，计算公式为：C = A * B + Bias。
	matmul_mixdualmaster	实现NORM模板下使能双主模式的Matmul矩阵乘法，计算公式为：C = A * B + Bias。
	matmul_splitk	实现多核切K场景下的Matmul矩阵乘法，计算公式为：C = A * B + Bias。
	matmul_nbuffer33	实现MDL模板下使能NBuffer33模板策略的Matmul矩阵乘法，计算公式为：C = A * B + Bias。
	matmul_l2cache	实现NORM模板下支持L2 Cache切分的Matmul矩阵乘法，计算公式为：C = A * B + Bias。
	matmul_nz	输入矩阵内轴非256B对齐场景下，在AIV核上使用DataCopyPad实现ND转换NZ格式的Matmul矩阵乘法，计算公式为：C = A * B + Bias。
	matmul_l0cache	实现NORM模板下使能L0A缓存特性的Matmul矩阵乘法，计算公式为：C = A * B + Bias。
	matmul_tscm	基于TSCM输入实现Matmul矩阵乘法，计算公式为：C = A * B + Bias。
	matmul_sparse	实现MDL模板下稀疏左矩阵A与4:2稠密化后的右矩阵B的Matmul矩阵乘法，计算公式为：C = A * B + Bias。
	matmul_triangle	实现NORM模板下使能上下三角模板策略的Matmul矩阵乘法，计算公式为：C = A * B + Bias。
	matmul_partial_output	实现MDL模板下使能Partial Output功能的Matmul矩阵乘法，计算公式为：C = A * B。
	matmul_unaligned	实现NORM模板下多核非对齐切分的Matmul矩阵乘法，计算公式为：C = A * B + Bias。
normalization	layernorm	将输入数据收敛到[0, 1]之间，每个tensor的特征值减去该特征的均值然后除以该特征的标准差，实现数据归一化。
	layernorm_grad	计算layernorm的反向传播梯度。
	layernorm_v2	将shape为[A, R]的输入数据收敛到[0, 1]之间，计算输入数据的标准差的倒数rstd与归一化结果y。
	normalize	已知均值和方差，计算shape为[A, R]的输入数据的标准差倒数rstd和归一化结果y的方法。
	welford_update	Welford算法的前处理，一种在线计算均值和方差的方法。
	welford_finalize	Welford算法的后处理，一种在线计算均值和方差的方法。
math	cos	对输入tensor做Cos计算。
filter	dropout	对输入tensor进行数据过滤。
reduce	sum	计算输入tensor最后一个维度的元素之和。
transpose	confusion_transpose	对输入数据进行数据排布及Reshape操作。
pad	broadcast	对输入tensor的shape进行广播。
quantization	quant	对输入tensor按元素做量化计算，将float数据类型量化为int8_t数据类型。
quantization	dequant	对输入tensor按元素做反量化计算，将int32_t数据类型反量化为float数据类型。
sort	sort	对输入tensor做Sort计算，按照数值大小进行降序排序。
sort	topk	对输入tensor做TopK计算，获取最后一个维度的前k个最大值或最小值及其对应的索引。
utils	init_global_memory	将Global Memory上的数据初始化为指定值。
index	arithprogression	基于给定的起始值，等差值和长度，返回一个等差数列。
select	selectwithbytesmask	对输入srcTensor和srcScalar，根据maskTensor相应位置的值从二者中选取元素得到dstTensor。

Ascend/ascendc-api-adv

算子开发样例

简介

发行版 (7)

贡献者

语言

近期动态

Ascend/ascendc-api-adv .gitee-modal { width: 500px !important; }

算子开发样例

简介

发行版 (7)

开源评估指数源自 OSS-Compass 评估体系，评估体系围绕以下三个维度对项目展开评估：

贡献者

语言

近期动态

搜索帮助

Ascend/ascendc-api-adv