GitHub - lextm/windowsterminal-shell: Install/uninstall scripts for Windows Terminal co...
GitHub - lextm/windowsterminal-shell: Install/uninstall scripts for Windows Terminal co...
https://stackoverflow.com/questions/61543214/how-to-unload-an-nvidia-kernel-module-nvid...
貌似用的gcc的头文件 zlib 库可能不兼容 更改cmake_cache
transformer怎么加速?
旷视分布式、旷视video、滴滴depth、京东可信vision面经(均offer)旷视分布式一面 transformer加速 O(n2) O(nlogn) all reduce, ring all reduce batchnorm conv+batchn...
旷视分布式一面 transformer加速 O(n2) O(nlogn) all reduce, ring all reduce batchnorm conv+batchn...
参考如下命令,保存 core文件``[https://askubuntu.com/posts/1181036/timeline] For those googlin': ( ...
https://www.mindspore.cn/install[https://www.mindspore.cn/install] 根据提示 根据提示安装驱动和软件包版本要...
今天把vscode 更新到v1.62版,试着跑之前写的 ipynb notebook,跑的是tvm相关的代码。 tvm 是自己编译的,依赖的cuda cudnn是自己装的,而...
https://tvm.apache.org/docs/install/from_source.html#install-from-source[https://tvm.ap...
作者:严健文 | 旷视 MegEngine 架构师 背景 在数字信号和数字图像领域, 对频域的研究是一个重要分支。我们日常“加工”的图像都是像素级,被称为是图像的空域数据。空...
作者:曹彬 | 旷视 MegEngine 架构师 简介 从 2080Ti 这一代显卡开始,所有的民用游戏卡都取消了 P2P copy,导致训练速度显著的变慢。针对这种情况下的...
windows 10上的wsl2如果要使用 nvidia-driver ,需要加入 "windows 预览体验计划”。更新 wsl windows10 21H1版本好像没法用...
眼看游戏卡RTX3080 发售在即,我终于等到了滴滴云(感谢)A100的测试机会。因为新卡比较紧张,一直在排队中,直到昨天才拿了半张A100...今天终于上手了单张40G的A...
主要参考 论文 Huang, 2018 (arxiv.org)[https://arxiv.org/abs/1808.07984] 性能可达到 cublas的 96%目前只贴...
cuda transpose 可以使用 thrust ,cublas,cublasLt来实现以下这段代码使用 cublasLt 的api cublasLtMatrixTra...
写了一个明明没啥 bank conflict的测试代码,nsight compute却显示有 bank conflict. Shared memory bank confli...
到达syncthreads的线程继续运行下去的条件是 block内所有threads 都到达了syncthreads同步点 或者 , 停在sync点的线程为仍在运行的thre...
/cutlass/include/cutlass/reduction/device/tensor_reduce.h 怎么感觉只对4维的tensor有良好支持src_exten...
1. 代码补全 有时候 clangd 压根没什么用还是 c++ 插件比较靠谱C++插件需要分析compile_commands.json在 .vscode/c_cpp_pro...