SSE中使用_mm_prefetch加速计算

在SSE程序中使用_mm_prefetch可以在实际当前实际运算与数据从内存到cache的加载并行，从而达到加速的目的。

这个特性网上写的挺清楚的，直接粘过来了。

void _mm_prefetch(char *p, int i)
从地址P处预取尺寸为cache line大小的数据缓存，参数i指示预取方式（_MM_HINT_T0, _MM_HINT_T1, _MM_HINT_T2, _MM_HINT_NTA，分别表示不同的预取方式）
T0 预取数据到所有级别的缓存，包括L0。
T1 预取数据到除L0外所有级别的缓存。
T2 预取数据到除L0和L1外所有级别的缓存。
NTA 预取数据到非临时缓冲结构中，可以最小化对缓存的污染。
如果在CPU操作数据之前，我们就已经将数据主动加载到缓存中，那么就减少了由于缓存不命中，需要从内存取数的情况，这样就可以加速操作，获得性能上提升。使用主动缓存技术来优化内存拷贝。

注意，CPU对数据操作拥有绝对自由！使用预取指令只是按我们自己的想法对CPU的数据操作进行补充，有可能CPU当前并不需要我们加载到缓存的数据，这样，我们的预取指令可能会带来相反的结果，比如对于多任务系统，有可能我们冲掉了有用的缓存。不过，在多任务系统上，由于线程或进程的切换所花费的时间相对于预取操作来说太长了, 所以可以忽略线程或进程切换对缓存预取的影响。

最后编辑于：2017.12.11 05:11:16

SSE中使用_mm_prefetch加速计算

推荐阅读更多精彩内容