什么是SIMD
SIMD的全称是Single Instruction Multiple Data (单指令多数据流)。
在支持SIMD的CPU中,包含着一些特别宽的寄存器(比如512位)。通过特别的指令,可以在这些寄存器上执行指定操作。这些操作通常是对正常寄存器(比如64位)上操作的拓展,可以理解为一条指令同时操作了多个正常寄存器,也就是所谓的SIMD了。
SIMD的性能
做个简单的除法就能知道,512位的寄存器相比64位寄存器,速度提升了8倍。
但是实际情况不仅仅是如此。在SIMD的指令中,还包括了一些非常奇妙的指令,比如计算正态分布的累积分布函数和其反函数的指令。在看到它们的时候,我心里吼了一句:“还有这种操作!”。这些特化的指令在特别的场景下就是神器。
怎么用SIMD
首先,我们是在Linux的GCC编译器上使用SIMD指令。在这个条件下,有两个途径:
- 嵌入式汇编
- Intrinsics
嵌入式汇编不是今天的主题。我今天主要记录一下Intrinsics怎么用。不管使用哪种方法,有一个网站是一定要收藏的:Intel Intrinsics Guide
它给出了SIMD指令集的各个子集: MMX, SSE,SSE4.2,AVX2等等。同时,它给每个指令都打上一些标签用于检索:Load,Store,Cast,Arithmetic 等等。它还给出了每个指令的等价操作和汇编指令。
具体地说,在C语言中使用SIMD涉及三个方面:
- 头文件
- 函数调用
- 编译选项
头文件和函数调用很好办,它归属于Intel的规范。在Intel Intrinsics Guide中,每条指令需要的头文件都有标注,按图索骥即可。
编译选项则属于GCC的规范。 i386 and x86-64 Options 将相关选项包含在内,但是更宽一些。每条指令都有所属的指令集(比如SSE4.2),当使用到该指令后,就要在链接器的选项中加上相关的项 (比如-msse4.2
) 。
选项的命名很直接,在 i386 and x86-64 Options 里搜索 -mmmx
就可以跳到SIDM选项比较集中的区域,很容易就能确定需要的选项是什么。
内存对齐
使用SIMD指令的范式很简单:
- 用SIMD指令,将数据从内存导入特殊寄存器
- 用SIMD指令,在特殊寄存器间进行运算
- 用SIMD指令,将运算结果导出回内存
这里涉及到一个问题,就是导入导出使用到的内存必须满足特殊的对齐条件。比如使用了128位(16字节)的SIMD,则内存首地址必须能被16整除。如果不满足该条件,在导入数据时程序会引发段错误退出。
在C中,获得特定对齐方式的动态内存,使用的函数是来自stdlib.h
的void* aligned_alloc(size_t alignment, size_t size)
。
使用案例
// Filename: main.cpp
#include <cstdlib>
#include <cstdio>
#include <immintrin.h>
using namespace std;
void print(float* data, int n) {
for (int i = 0; i < n; i ++) {
printf("%f ", data[i]);
}
printf("\n");
}
int main() {
const int WIDTH = 256;
const float x = 0.2;
int n = WIDTH/8/sizeof(float);
float* w = (float*) aligned_alloc(64, sizeof(float)*n);
float* y = (float*) aligned_alloc(64, sizeof(float)*n);
// 生成数据
for(int i = 0; i < n; i ++) {
w[i] = rand();
}
print(w, n);
// y_i = w_i * x
__m256 _x = _mm256_set1_ps(0.2);
__m256 _w = _mm256_load_ps(w);
__m256 _y = _mm256_mul_ps(_x, _w);
_mm256_store_ps(y, _y);
print(y, n);
free(y);
free(w);
}
编译的指令如下:
g++ -o a.out -mavx main.cpp