add 研究方向(2017.11.30)多核来解决带宽匹配的问题;cache以及buffer特性;preload的加速使用;burst传输如何手工启动? 0x01 硬件平台 ...
一、预备知识 1.1 卷积操作 卷积的基本操作就是这样的:这仅是单通道的计算,多通道类似。 1.2 img2col 思路: 首先,为啥要有这玩意? 其次,这玩意是怎么做的? ...
2018.12.29 写在2018的最后一个工作日 由于某些客观原因,这个lock down暂时是搞不定了,但是关于流水线以及cache的研究我会在知乎开个专栏出来的!到时欢...
0x01 前言 系统里面经常需要大量地搬运数据,一般调用的都是memcpy() C库来实现,因此本着“揪牛角尖”的精神,我们就来探究探究加速方案!毕竟很多事情被分解到底层之后...
其实被这个问题困扰了好久,不过秉承着三分钟热度的新年新气象,还是要多弄懂一点(⊙_⊙)ゞ Symbols是什么东西呢?虽然我对它没有深入的了解,但是大概知道它的作用。摘抄《深...
厉害!
Autoreleasepool局部释放池 创建一个新的自动释放池的方法:ARC下: 这相当于MRC下: 其中对象s会被加入到自动释放池,当ARC下代码执行到右大括号时(相当于MRC执行代码[pool dr...
CGContextRef context = CGBitmapContextCreate,这个context一直返回的是空值,请问大概是什么原因呢?多谢
CVPixelBufferRef UIImage 转换
问题现象 复现步骤Android 7.0平台安装手机百度apk(v8.6.5)启动App后必现native crash 分析定位 初步分析 tombstone文件如下*** ...
最近在尝试写一个L2 cache内的矩阵乘法,看了你的文章,成功的写了一个比Eigen快的fgemm,感谢分享!
写一个基于NEON指令的矩阵乘法(一)本文第一部分将讲解如何在计算机上实现通用的矩阵乘法(General matrix multiply, GEMM),第二部分讲解神经网络加速包NNPACK基于NEON指令实现的...
本文第一部分将讲解如何在计算机上实现通用的矩阵乘法(General matrix multiply, GEMM),第二部分讲解神经网络加速包NNPACK基于NEON指令实现的...