Jetson Nano搭建人脸检测系统: (三)TensorRT优化

目录

一、TensorRT简介
二、利用TensorRT优化人脸检测模型
三、在Jetson Nano上部署TRT文件
四、总结

1、TensorRT简介

  TensorRT是英伟达(NVIDIA)开发的一个可以在NVIDIA旗下的GPU上进行高性能推理的C++库。它的设计目标是与现有的深度学习框架无缝贴合:比如Mxnet, PyTorch, Tensorflow 以及Caffe等。TensorRT只关注推理阶段(inference stage)的优化。
了解更多参考:
https://blog.csdn.net/g11d111/article/details/92061884
//www.greatytc.com/p/c9bb92b85905

2、利用TensorRT优化人脸检测模型

  上一篇文章(//www.greatytc.com/p/2f400c25179b)分别介绍了不同的人脸检测算法,本次我们选择第三种RFB-net进行Jetson Nano的部署。值得注意的是,TensorRT生成的序列化文件不能跨平台使用,比如在Jetson Nano上生成的文件不能在正常显卡端使用。
  本来选用onnx模型进行解析,但是不知道为什么无法解析完整网络,因此最后选择了caffe模型进行解析。TensorRT推理的步骤分为三个:建造engine、解析engine、inference。代码如下:

# coding: UTF-8
import tensorrt as trt 
# tensorrt 运行过程中的log信息收集,trt.Builder的必要参数
TRT_LOGGER = trt.Logger()
# caffe model
deploy_file = './caffe/model/RFB-320/RFB-320.prototxt'
model_file = './caffe/model/RFB-320/RFB-320.caffemodel'
# 生成的文件名,可以是trt、plan、engine
trt_path = './face_dec32.trt'
# 定义数据类型,可选trt.float32、trt.float16、trt.int8
# 选择trt.int8需要矫正程序,Jetson Nano不支持INT8
DTYPE = trt.float32

#创建 builder, network, 和 parser
with trt.Builder(TRT_LOGGER) as builder, \
    builder.create_network() as network, \
    trt.CaffeParser() as parser:
      # 设置最大可用内存,比如:1 << 30表示1G,2*1 << 30表示2G
      builder.max_workspace_size = 1 << 30
     # 设置batch size,最好与推理过程的batch一致可以到达最佳优化
      builder.max_batch_size = 1
      print("Building TensorRT engine. This may take few minutes.")
      # 解析器返回 model_tensors,它是一个表,包含从张量名称到 ITensor 对象的映射。
      model_tensors = parser.parse(deploy=deploy_file, model=model_file, network=network, dtype=DTYPE)
      # 检查必要节点的形状大小
      input = model_tensors.find('input')
      box = model_tensors.find('boxes')
      scores = model_tensors.find('scores')
      # output节点是我加入的一个Concat层:合并boxes与scores的新节点
      #  直接修改deploy_file文件即可
      output = model_tensors.find('output')
      for each in [input,box,scores,output]:
            print('\033[33m\tname:{name},  shape:{shape}\033[0m'.format(name=each.name, shape=each.shape))
      '''
      输出信息如下:
          name:input,   shape:(3, 240, 320)
          name:boxes,   shape:(4420, 4)
          name:scores,  shape:(4420, 2)
          name:output,  shape:(4420, 6)
      '''
      # 设置network的输出
      network.mark_output(output)
      # 建造engine并保存,时间较长需等待一会
      engine = builder.build_cuda_engine(network)
      with open(trt_path, "wb") as f:
            f.write(engine.serialize())
# 读取保存的trt文件
with open(trt_path, 'rb') as f, trt.Runtime(TRT_LOGGER) as runtime:
      engine = runtime.deserialize_cuda_engine(f.read())
# 检查输入输出
print(engine.get_binding_shape(0))  # (3, 240, 320)
print(engine.get_binding_shape(1))  # (4420, 6)

如果出现以下错误提示:
Caffe Parser: Invalid reshape param. TensorRT does not support reshape in N (batch) dimension
将所有Reshape层的第一个维度参数由1变成0,例如:

Reshape层参数修改

改写的output层如下:
output层修改

3、在Jetson Nano上部署TRT文件

  上面已经得到了TensorRT优化后的序列文件,下面将上述模型在Jetson Nano上进行推理。推理代码如下:

import tensorrt as trt
import numpy as np
import cv2
import pycuda.driver as cuda
import time
import os
import pycuda.autoinit
from box_util import *
TRT_LOGGER = trt.Logger()
trt_path = './face_dec.trt'

# 加载数据并将其喂入提供的pagelocked_buffer中.
def load_normalized_data(data_path, pagelocked_buffer, target_size=(320, 240)):
    ori_image = cv2.imread(data_path)
    ori_image = cv2.cvtColor(ori_image, cv2.COLOR_BGR2RGB)
    image = (cv2.resize(ori_image, (320, 240)) - 127.0) / 128
    image = np.transpose(image, [2, 0, 1])
    # Flatten the image into a 1D array, normalize, and copy to pagelocked memory.
    np.copyto(pagelocked_buffer, image.ravel())
    return ori_image


# 初始化(创建引擎,为输入输出开辟&分配显存/内存.)
def init():
    with open(trt_path, 'rb') as f, trt.Runtime(TRT_LOGGER) as runtime:
      engine = runtime.deserialize_cuda_engine(f.read())

    print(engine.get_binding_shape(0))
    print(engine.get_binding_shape(1))
    # 1. Allocate some host and device buffers for inputs and outputs:
    h_input = cuda.pagelocked_empty(trt.volume(engine.get_binding_shape(0)), dtype=trt.nptype(trt.float32))
    h_output = cuda.pagelocked_empty(trt.volume(engine.get_binding_shape(1)), dtype=trt.nptype(trt.float32))
    # Allocate device memory for inputs and outputs.
    d_input = cuda.mem_alloc(h_input.nbytes)
    d_output = cuda.mem_alloc(h_output.nbytes)
    # Create a stream in which to copy inputs/outputs and run inference.
    stream = cuda.Stream()
    context = engine.create_execution_context()
    return context, h_input, h_output, stream, d_input, d_output

# @profile
def inference(data_path):
  global context, h_input, h_output, stream, d_input, d_output
  image = load_normalized_data(data_path, pagelocked_buffer=h_input)
  cuda.memcpy_htod_async(d_input, h_input, stream)
  # Run inference.
  context.execute_async(bindings=[int(d_input), int(d_output)], stream_handle=stream.handle)
  cuda.memcpy_dtoh_async(h_output, d_output, stream)
  stream.synchronize()
  return h_output, image

if __name__ == '__main__':
    img_path = './img/'
    context, h_input, h_output, stream, d_input, d_output = init()  
    # 加快推理速度,提前计算好priors box, 修改一下box_util.py
    priors = np.load('priors.npy')
    listdir = os.listdir(img_path)
    listdir = [each.strip() for each in listdir]
    print(listdir)
    for _ in range(1):
      for file_path in listdir:
        t1 = time.time()
        output, image = inference(img_path + file_path)
        # caffe模型没有进行后处理操作,因此要进行后处理,所有函数都在box_util.py文件中
        # 如果想取出每个output,最好加上output.copy()
        fix_image(output.copy(), image, priors, file_path)
        print("推理时间", time.time() - t1)

box_util.py文件的fix_image函数如下:

def fix_image(output, img_ori, priors, file_path=None):
    # 改变output形状,解析出boxes和scores
    output = np.expand_dims(np.reshape(output, (-1, 6)), axis=0)
    # priors = define_img_size(input_size)
    boxes = output[:, :, :4]
    scores = output[:, :, 4:]
    boxes = convert_locations_to_boxes(boxes, priors, center_variance, size_variance)
    boxes = center_form_to_corner_form(boxes)
    boxes, labels,  probs = predict(img_ori.shape[1], img_ori.shape[0], scores, boxes, \
                                  prob_threshold=prob_threshold, iou_threshold=iou_threshold)
    # if len(boxes) == 0:
    #     return []
    # return boxes[0, :]
    for i in range(boxes.shape[0]):
        box = boxes[i, :]
        cv2.rectangle(img_ori, (box[0], box[1]), (box[2], box[3]), (0, 255, 0), 2)
    cv2.imwrite(os.path.join('./result/', file_path), img_ori)

另外一个需要注意的地方是,如果你想通过cv2调用摄像头,需要一些特殊的设置:

def get_jetson_gstreamer_source(capture_width=1280, capture_height=720, display_width=1280, display_height=720,
                                framerate=60, flip_method=2):
  # 可以修改一下flip_method的值,将倒置的画面修正
  """
  Return an OpenCV-compatible video source description that uses gstreamer to capture video from the camera on a Jetson Nano
  """
  return (
      f'nvarguscamerasrc ! video/x-raw(memory:NVMM), ' +
      f'width=(int){capture_width}, height=(int){capture_height}, ' +
      f'format=(string)NV12, framerate=(fraction){framerate}/1 ! ' +
      f'nvvidconv flip-method={flip_method} ! ' +
      f'video/x-raw, width=(int){display_width}, height=(int){display_height}, format=(string)BGRx ! ' +
      'videoconvert ! video/x-raw, format=(string)BGR ! appsink')

cv2.VideoCapture(get_jetson_gstreamer_source(), cv2.CAP_GSTREAMER)

4、总结

  这里我们通过TensorRT将人脸检测模型的caffe--->trt文件,并进行了推理部署。下一篇我们将优化这个后处理程序,将这一段计算也加入到trt文件中,直接输出box的坐标,简化计算过程。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,265评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,078评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,852评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,408评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,445评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,772评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,921评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,688评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,130评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,467评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,617评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,276评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,882评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,740评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,967评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,315评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,486评论 2 348

推荐阅读更多精彩内容