zjun3021 - 简书

发简信

zjun3021

6
关注
0
粉丝
23
文章
26840

字数
1

收获喜欢
0

总资产

IP属地：贵州

zjun3021

MindIE推理采样后处理参数temperature和top_k的引发的精度问题
背景 MindIE跑Qwen系列模型推理，测试发现后处理参数top_k很大，temperature=2的场景，模型输出有精度问题。现象经过进一步复现和测试，发现如下现象。...

12 0 0
zjun3021

Ascend+FastAPI+ Uvicorn 实现推理
1、FastAPI & Uvicorn FastAPI FastAPI 是一个用于构建 API 的现代、快速（高性能）的 Python Web 框架，专为在 Python 中...

23 0 0

zjun3021

解决Ascend上vllm运行时出现urllib3.exceptions.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED]
背景尝试使用vllm模型，脚本代码如下：运行过程中出现：问题分析问题就出现在通过python去下载文件，然后SSL的安全校验出现了问题。临时解决办法是，可以规避该校验...

12 0 0
zjun3021

AscendC编程中的double buffer是什么？
执行于AI Core上的指令队列主要包括如下几类，即： Vector指令队列（V） Matrix指令队列（M）存储移动指令队列（MTE2、MTE3）。不同指令队列间的相互...

21 0 0
zjun3021

AscendC从入门到精通系列（五）调用基于工程开发AscendC算子
单算子API调用方式，是指直接调用单算子API接口，基于C语言的API执行算子。算子工程AscendC从入门到精通系列（三）基于自定义算子工程开发AscendC算子[http...

10 0 0
zjun3021

AscendC从入门到精通系列（四）使用Pybind调用AscendC算子
如果已经通过Ascend C编程语言实现了算子，那该如何通过pybind进行调用呢？ 1 Pybind调用介绍通过PyTorch框架进行模型的训练、推理时，会调用很多算子进...

33 0 0
zjun3021

AscendC从入门到精通系列（三）基于自定义算子工程开发AscendC算子
本次主要讨论下AscendC另外一种开发流程，基于自定义算子工程的算子开发。从算子工程创建、代码编写、编译部署到运行验证的开发全流程，让您对算子开发工程有个宏观的认识，此处我...

24 0 0

zjun3021

AscendC从入门到精通系列（二）基于Kernel直调开发AscendC算子
本次主要讨论下AscendC算子的开发流程，基于Kernel直调工程的算子开发。 1 AscendC算子开发的基本流程使用Ascend C完成Add算子核函数开发；使用IC...

30 0 0
zjun3021

AscendC从入门到精通系列（一）初步感知AscendC
1 什么是AscendC Ascend C是CANN针对算子开发场景推出的编程语言，原生支持C和C++标准规范，兼具开发效率和运行性能。基于Ascend C编写的算子程序，通...

45 0 0
zjun3021

如何在c++侧编译运行一个aclnn（AOL）算子？
1 AOL算子库 CANN（Compute Architecture for Neural Networks）提供了算子加速库（Ascend Operator Library...

37 0 0
zjun3021

Ascend推理组件MindIE LLM
MindIE LLM是MindIE解决方案下的大语言模型推理组件，基于昇腾硬件提供业界通用大模型推理能力，同时提供多并发请求的调度功能，支持Continuous Batchi...

36 0 0
zjun3021

ATB概念之：算子tiling
1 什么是算子tiling 在计算机科学和深度学习领域，算子 tiling（有时也被称作操作符 tiling 或者循环 tiling）是一种优化技术，主要用于提高计算效率，尤...

28 0 0

zjun3021

如何使用Ascend的ATB加速库？
1 前言 Ascend Transformer Boost加速库（下文简称为ATB加速库）是一款高效、可靠的加速库，基于华为Ascend AI处理器，专门为Transform...

21 0 0
zjun3021

ATB算子实现原理解读
1 前言从前文ATB是什么？[https://blog.csdn.net/xyz3120/article/details/143628522?sharetype=blogd...

35 0 0
zjun3021

ATB是什么？
1 ATB介绍 Ascend Transformer Boost加速库（下文简称为ATB加速库）是一款高效、可靠的加速库，基于华为Ascend AI处理器，专门为Transf...

32 0 0
zjun3021

Ascend上的PageAttention
1 PageAttention引入的原因 PageAttention的引入主要是为了解决大型语言模型（LLM）在服务过程中遇到的内存管理低效问题，具体原因如下：内存碎片化：...

29 0 0
zjun3021

SelfAttention在Ascend上的实现
1 SelfAttention是什么？ Self-Attention（自注意力）机制是深度学习领域的一种重要技术，尤其在自然语言处理（NLP）任务中得到广泛应用。它是 Tra...

38 0 0

zjun3021

Ascend上的FlashAttention实现
1 FlashAttention FlashAttention是一种优化Transformer模型计算效率和内存使用的技术。它通过减少存储访问开销（Memory Access...

37 0 0
zjun3021

Ascend Extension for PyTorch的源码解析
1 源码下载 Ascend对pytorch代码的适配，可从以下链接中获取。Ascend/pytorch[https://link.zhihu.com/?target=http...

42 0 0
zjun3021

Ascend Extension for PyTorch是个what？
1 Ascend Extension for PyTorch Ascend Extension for PyTorch 插件是基于昇腾的深度学习适配框架，使昇腾NPU可以支持...

40 0 0