前言:2023年5月昇腾AI开发者峰会上,昇腾CANN首席架构师闫长江老师解密了全新的TIK C算子编程体系。正好CANN训练营开设了TIK C算子开发的课程,学习完成后再听大神的串讲,有种豁然开朗的感觉。
CANN训练营的TIK C算子课程参见:
https://www.hiascend.com/zh/developer/courses/detail/1627494761683783682
闫老师的演讲包括三部分内容:第一部分是基础概念,包括CANN的基础知识,以及Ascend C算子并行计算的硬件和理论基础;第二部分讲述了Ascend C算子编程的关键概念(核函数和编程范式)和编程实践,以及算子测试程序的编程方法;第三部分讲述了Ascend C算子在cpu和npu上的孪生调试。
下面是老师演讲的PPT。
一、基础知识
一)异构计算架构CANN
二)算子的硬件基础
下面这张图,清晰展示了AICore的内部架构及模块功能,也讲述了Global Mem和Local Mem的关系,Local Mem靠近计算单元,带宽非常高,但容量不大,一般是几百KB到几MB;而Global Mem容量大,但带宽不高。因此需要将Global Mem的数据搬运到Local Mem上,进行运算,运算完成后再将运算结构从Local Mem搬运到Global Mem上。
下面这张图讲述了一个Aicore的内部的计算单元,其中的向量和矩阵计算单元都是单指令多数据计算,也就是一个指令周期可以实现一组数据的加和乘。
三)并行计算
下面这张图,讲述了并行计算中的两种常见方法:SPMD和流水线,这两种方法都会提现到Ascend C的编程模型和编程方法中。
二、Ascend C算子编程
核函数体现的是SPMD的编程思想,同时简化了用户的代码实现。开发代码时,只需要写单个AI Core核的实现代码。
Ascend C算子采用标准的C++和一组专门的类库API进行编程的。这些API包括计算的,数据搬运以及同步等操作的API。API的操作对象是Tensor,Tensor根据存储位置不同分为GlobalTensor和LocalTensor。
TPIPE的编程范式,实现了前述的流水线方式的并行计算。
算子编写完成后,可以通过host侧的应用开发接口,调用开发好的算子进行测试,验证。
下图讲述的是直接调用核函数的方式进行算子代码测试的。包括CPU和NPU两种测试方法,通过“__CCE_KT_TEST__”宏定义区分是运行在CPU上的代码还是NPU上的代码。
三、Ascend C算子孪生调试
TIK C算子的调试手段丰富,可以在CPU,也可以在NPU上调试。这就是算子的孪生调试技术。
一)CPU域调试调优
在CPU侧调试时,可以使用gdb工具进行调试,还有指令LOG和NPUcheck主动错误分析工具两大神器。指令log功能会把真正执行的指令队列列出来,也就是在运行CPU的核函数调用方式的编译运行后,会生成*.cce的文件,数量和定义的AiCore的数量一致,里面记录某个核上的实际指令序列。
二)NPU的仿真调试能力
提供了强大的指令日志和数据日志功能,便于分析和调试问题。从下面的图,可以看出double buffer的作用。
三)上板运行调试能力:打印板上运行统计,以及支持打印数据功能
最后,闫老师对本次演讲的内容做了小结: