2019-02-15 | 使用 Nsight 进行CUDA-C/C++开发简易教程

0. 写在前面

有一位朋友请教我这个软件如何使用，正赶上我吃饭，这位朋友说过段时间再说也行，于是我就准备程序完成了这篇简易教程。

运行环境：
XUbuntu 18.04 操作系统，CUDA版本为 9.1，设备为 Gforce GTX-850M。

教程内容包括：

新建CUDA C/C++ 项目

添加代码（计算矩阵相乘）

编译、链接、执行

分析程序性能

教程概览

Nsight Eclipse Edition 简介

使用方法（教程内容）

附录 - 程序完整源码

特别声明
此教程所用测试代码取自网络，原文链接如下，如若侵犯作者版权，请联系删帖。
作者：MingChaoSun
原文：https://blog.csdn.net/sunmc1204953974/article/details/51098028

1. Nsight Eclipse Edition 简介

NVIDIA®Nsight™Eclipse Edition是一个功能全面的IDE，由Eclipse平台提供支持，提供一体化的集成环境，用于编辑，构建，调试和分析CUDA-C应用程序。Nsight Eclipse Edition支持丰富的商业和免费插件。
点击跳转到 Nsight Eclipse Edition 介绍页。

2. 使用方法

2.1 打开 Nsight Eclipse Edition

Nsight Eclipse Edition 可以通过两种方式打开：

$ nsight # 通过终端命令打开

或者新建桌面图标，通过单击相应图标启动程序。下图为 Nsight Eclipse Edition主界面。

左侧区域为管理区，在这里可以管理整个项目属性；

中间区域为工作区，比如编写代码、查看程序分析结果等；

右侧区域为大纲区，可以查看项目的头文件、宏定义、函数名等内容。
ps: 上面三个区域是我自己想出来的名字，如果读者觉得不恰当，可以留言讨论，谢谢。

Nsight Eclipse Edition

2.2 新建 CUDA-C/C++ 项目

方法：菜单栏 -> File -> New -> CUDA C/C++ Project
最后，我们将见到如下图所示的窗口。在这里可以设置 Project name（项目名称）、Location（项目路径）、Project type（项目类型）等内容

新建 CUDA-C/C++ 项目

2.3 添加代码

方法：在 Nsight Eclipse Edition 主界面管理区单击鼠标右键，然后选择右键菜单中的New，再选择在出现在下级菜单中的Source File，如下图所示。

添加代码-1

完成上述操作后，出现下面窗口。

在这里，可以设置Source folder（源代码文件文件夹） Source file（源代码文件文件名，不带扩展名） Template（使用模板）。
本教程中，源代码文件文件名为main，未使用模板。

添加代码-2

2.4 编写代码

在中间的工作区编写相关代码。

编写代码

2.5 编译、链接、执行

通过工具栏，方法：点击工具栏按钮（下图中左起第一个），即可进行。

Run
通过菜单栏进行，方法：菜单栏 -> Project -> Build All 或 Build Project

2.6 分析程序

通过工具栏，方法：点击工具栏按钮（下图中左起第二个），即可进行。

Profile

比如此教程所用程序的性能分析如下图所示。

分析程序

3. 附录 - 程序完整源码

#include <stdio.h>
#include <stdlib.h>
#include <time.h>

//CUDA RunTime API
#include <cuda_runtime.h>

#define THREAD_NUM 256

#define MATRIX_SIZE 1000

const int blocks_num = MATRIX_SIZE * (MATRIX_SIZE + THREAD_NUM - 1) / THREAD_NUM;

//打印设备信息
void printDeviceProp(const cudaDeviceProp &prop) {
    printf("Device Name : %s.\n", prop.name);
    printf("totalGlobalMem : %d.\n", prop.totalGlobalMem);
    printf("sharedMemPerBlock : %d.\n", prop.sharedMemPerBlock);
    printf("regsPerBlock : %d.\n", prop.regsPerBlock);
    printf("warpSize : %d.\n", prop.warpSize);
    printf("memPitch : %d.\n", prop.memPitch);
    printf("maxThreadsPerBlock : %d.\n", prop.maxThreadsPerBlock);
    printf("maxThreadsDim[0 - 2] : %d %d %d.\n", prop.maxThreadsDim[0],
            prop.maxThreadsDim[1], prop.maxThreadsDim[2]);
    printf("maxGridSize[0 - 2] : %d %d %d.\n", prop.maxGridSize[0],
            prop.maxGridSize[1], prop.maxGridSize[2]);
    printf("totalConstMem : %d.\n", prop.totalConstMem);
    printf("major.minor : %d.%d.\n", prop.major, prop.minor);
    printf("clockRate : %d.\n", prop.clockRate);
    printf("textureAlignment : %d.\n", prop.textureAlignment);
    printf("deviceOverlap : %d.\n", prop.deviceOverlap);
    printf("multiProcessorCount : %d.\n", prop.multiProcessorCount);
}

//CUDA 初始化
bool InitCUDA() {
    int count;

    //取得支持Cuda的装置的数目
    cudaGetDeviceCount(&count);

    if (count == 0) {
        fprintf(stderr, "There is no device.\n");

        return false;
    }

    int i;

    for (i = 0; i < count; i++) {

        cudaDeviceProp prop;
        cudaGetDeviceProperties(&prop, i);
        //打印设备信息
        printDeviceProp(prop);

        if (cudaGetDeviceProperties(&prop, i) == cudaSuccess) {
            if (prop.major >= 1) {
                break;
            }
        }
    }

    if (i == count) {
        fprintf(stderr, "There is no device supporting CUDA 1.x.\n");
        return false;
    }

    cudaSetDevice(i);

    return true;

}

//生成随机矩阵
void matgen(float* a, int n) {
    int i, j;

    for (i = 0; i < n; i++) {
        for (j = 0; j < n; j++) {

            a[i * n + j] = (float) rand() / RAND_MAX
                    + (float) rand() / (RAND_MAX * RAND_MAX);

        }
    }
}

// __global__ 函数 并行计算矩阵乘法
__global__ static void matMultCUDA(const float* a, const float* b, float* c,
        int n, clock_t* time) {

    //表示目前的 thread 是第几个 thread（由 0 开始计算）
    const int tid = threadIdx.x;

    //表示目前的 thread 属于第几个 block（由 0 开始计算）
    const int bid = blockIdx.x;

    //从 bid 和 tid 计算出这个 thread 应该计算的 row 和 column
    const int idx = bid * THREAD_NUM + tid;
    const int row = idx / n;
    const int column = idx % n;

    int i;

    //记录运算开始的时间
    clock_t start;

    //只在 thread 0（即 threadIdx.x = 0 的时候）进行记录，每个 block 都会记录开始时间及结束时间
    if (tid == 0)
        time[bid] = clock();

    //计算矩阵乘法
    if (row < n && column < n) {
        float t = 0;

        for (i = 0; i < n; i++) {
            t += a[row * n + i] * b[i * n + column];
        }
        c[row * n + column] = t;
    }

    //计算时间,记录结果，只在 thread 0（即 threadIdx.x = 0 的时候）进行，每个 block 都会记录开始时间及结束时间
    if (tid == 0) {
        time[bid + blocks_num] = clock();
    }
}

int main() {

    //CUDA 初始化
    if (!InitCUDA())
        return 0;

    //定义矩阵
    float *a, *b, *c, *d;

    int n = MATRIX_SIZE;

    //分配内存
    a = (float*) malloc(sizeof(float) * n * n);
    b = (float*) malloc(sizeof(float) * n * n);
    c = (float*) malloc(sizeof(float) * n * n);
    d = (float*) malloc(sizeof(float) * n * n);

    //设置随机数种子
    srand(0);

    //随机生成矩阵
    matgen(a, n);
    matgen(b, n);

    /*把数据复制到显卡内存中*/
    float *cuda_a, *cuda_b, *cuda_c;

    clock_t* time;

    //cudaMalloc 取得一块显卡内存
    cudaMalloc((void**) &cuda_a, sizeof(float) * n * n);
    cudaMalloc((void**) &cuda_b, sizeof(float) * n * n);
    cudaMalloc((void**) &cuda_c, sizeof(float) * n * n);
    cudaMalloc((void**) &time, sizeof(clock_t) * blocks_num * 2);

    //cudaMemcpy 将产生的矩阵复制到显卡内存中
    //cudaMemcpyHostToDevice - 从内存复制到显卡内存
    //cudaMemcpyDeviceToHost - 从显卡内存复制到内存
    cudaMemcpy(cuda_a, a, sizeof(float) * n * n, cudaMemcpyHostToDevice);
    cudaMemcpy(cuda_b, b, sizeof(float) * n * n, cudaMemcpyHostToDevice);

    // 在CUDA 中执行函数 语法：函数名称<<<block 数目, thread 数目, shared memory 大小>>>(参数...);
    matMultCUDA<<<blocks_num, THREAD_NUM, 0>>>(cuda_a, cuda_b, cuda_c, n, time);

    /*把结果从显示芯片复制回主内存*/

    clock_t time_use[blocks_num * 2];

    //cudaMemcpy 将结果从显存中复制回内存
    cudaMemcpy(c, cuda_c, sizeof(float) * n * n, cudaMemcpyDeviceToHost);
    cudaMemcpy(&time_use, time, sizeof(clock_t) * blocks_num * 2,
            cudaMemcpyDeviceToHost);

    //Free
    cudaFree(cuda_a);
    cudaFree(cuda_b);
    cudaFree(cuda_c);
    cudaFree(time);

    //把每个 block 最早的开始时间，和最晚的结束时间相减，取得总运行时间
    clock_t min_start, max_end;

    min_start = time_use[0];

    max_end = time_use[blocks_num];

    for (int i = 1; i < blocks_num; i++) {
        if (min_start > time_use[i])
            min_start = time_use[i];

        if (max_end < time_use[i + blocks_num])
            max_end = time_use[i + blocks_num];
    }

    //核函数运行时间
    clock_t final_time = max_end - min_start;

    //CPU矩阵乘法，存入矩阵d
    for (int i = 0; i < n; i++) {
        for (int j = 0; j < n; j++) {
            double t = 0;

            for (int k = 0; k < n; k++) {

                t += a[i * n + k] * b[k * n + j];

            }

            d[i * n + j] = t;

        }
    }

    //验证正确性与精确性

    float max_err = 0;

    float average_err = 0;

    for (int i = 0; i < n; i++) {
        for (int j = 0; j < n; j++) {
            if (d[i * n + j] != 0) {
                //fabs求浮点数x的绝对值
                float err = fabs((c[i * n + j] - d[i * n + j]) / d[i * n + j]);

                if (max_err < err)
                    max_err = err;

                average_err += err;
            }
        }
    }

    printf("Max error: %g Average error: %g\n", max_err, average_err / (n * n));

    printf("gputime: %d\n", final_time);

    return 0;

}

最后编辑于：2019.02.17 12:16:47

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,607评论 6赞 507
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,239评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,960评论 0赞 355
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,750评论 1赞 294
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,764评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,604评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,347评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,253评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,702评论 1赞 315
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,893评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,015评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,734评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,352评论 3赞 330
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,934评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,052评论 1赞 270
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,216评论 3赞 371
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,969评论 2赞 355