1.main.py脚本对模板以及传进来的参数进行解析然后生成高性能汇编代码
2.目前可以生成X86 intrinsic和嵌入式汇编代码
3.Arm平台的在研发中
4.用户可以自定义模板生成自己想要的代码
1.包含@代表python需要执行的后得到的字符串
2.不包含@的模板字符串将会被直接解析
1.python3 main.py -I fma-broadcast_asm.c.in -A row_block=12 col_block=8 -O nnacl_gemm_12x8_kernel_fp32_asm.c
2. 模板计算:[row_block, deep] X [deep, col_block] ==> [row_block, col_block]
3. -I:
4. -A:row_block:按照行row分块的大小 col_block:按照col分块的大小
5. -O: 输出的高性能计算函数
6. 模板文件包含asm表示生成的时嵌入式汇编代码,不包含的intrinsic代码
void nnacl_gemm_@{row_block}x@{col_block}_kernel_f32(float *dst, const float *src, const float *weight,
const float *bias, const size_t act_flag, const size_t row_block,
const size_t col_block, const size_t deep, const size_t src_stride,
const size_t dst_stride, const size_t inc_flag)
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。