如何优雅地将Swin Transformer模型部署到AX650N Demo板上？-电子发烧友网

背景

今年来以ChatGPT为代表的大模型的惊艳效果，让AI行业迎来了新的动力。各种AIGC的应用接踵而至。我们知道类似ChatGPT的大模型，其核心网络结构均基于Google 2017年的论文提出的Transformer的论文《Attention Is All You Need》。在计算机视觉建模一直由卷积神经网络（CNN）主导，基于Transformer结构的网络模型长时间停留在各大顶会“刷榜”阶段，真正大规模落地并不突出。直到ICCV 2021的最佳论文《Swin Transformer》才达到了准确率和性能双佳的效果。

但是到目前为止，类似Swin Transformer的视觉类Transformer网络模型大多数还是部署在云端服务器上，原因是GPU对于MHA结构计算支持更友好，反而边缘侧/端侧AI芯片由于其DSA架构限制，为了保证CNN结构的模型效率更好，基本上对MHA结构没有过多性能优化，甚至需要修改网络结构才能勉强部署。这也间接限制了算法工程师在边缘计算应用上进一步发挥Transformer网络的想象力。

今年3月，爱芯元智发布了新一代产品AX650N，内置了其自主研发的第三代神经网络单元，进一步提升了最新AI算法模型的部署能力，可帮助用户在智慧城市，智慧教育，智能制造等领域发挥更大的价值。最近我通过正式渠道有幸拿到了一块AX650N Demo板进行尝鲜体验。

本文的目的是简单介绍基于AX650N Demo配套的新一代AI工具链如何优雅地将Swin Transformer模型部署到AX650N Demo板上，希望能给算法工程师们在Transformer网路部署落地上提供一种新的思路和途径。

Swin Transformer

The architecture of a Swin Transformer

目前Transformer应用到图像领域主要有两大挑战：

视觉实体变化大，在不同场景下视觉Transformer性能未必很好；

图像分辨率高，像素点多，Transformer基于全局自注意力的计算导致计算量较大。

2.1 原理

针对上述两个问题，微软在《Swin Transformer》的论文中提出了一种包含滑窗操作。其中滑窗操作包括不重叠的local window，和重叠的cross-window。将注意力计算限制在一个窗口中，一方面能引入CNN卷积操作的局部性，另一方面能节省计算量。在各大图像任务上，Swin Transformer都具有很好的性能。

2.2 分析

相比常见CNN网络模型，其实也就是新增了MHA（Multi Head Attention）的关键算子

LayerNormalization

Matmul

GELU

量化

LN、GELU、Matmul存在掉点风险

计算效率

占比最大的计算操作由Conv变成Matmul，因此要求硬件平台MatMul计算能力强

模型转换

Pulsar2介绍

Pulsar2（暂定名）是我们的新一代AI工具链，在吸取上一代工具链Pulsar的优秀行业经验和不足之处的反思后进行的重构，依然包含“模型转换、离线量化、模型编译、异构调度”四合一功能，进一步强化的网络模型快速、高效的部署需求。在针对第三NPU架构进行了深度定制优化的同时，也扩展了算子&模型支持的能力及范围，对Transformer结构的网络也有较好的支持。

pulsar2 deploy pipeline

3.1 模型下载

从Swin Transformer的官方仓库获取模型，由于是基于PyTorch训练，导出的是原始的pth模型格式，而对于部署的同学而言，更喜欢使用ONNX模型进行后续的产品落地，为了方便测试，我们提供该模型的ONNX版本导出脚本，降低模型获取门槛，便于之前不熟悉的同学直接掌握其中的关键操作。

import onnx
import torch
import requests
from onnxsim import simplify
from PIL import Image
from transformers import AutoFeatureExtractor, SwinForImageClassification


def download_swin_model(model_name):
  prefix = "microsoft"
  model_id = f"{prefix}/{model_name}" # google/vit-base-patch16-384


  url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
  image = Image.open(requests.get(url, stream=True).raw)
  feature_extractor = AutoFeatureExtractor.from_pretrained(model_id)
  model = SwinForImageClassification.from_pretrained(model_id)
  inputs = feature_extractor(images=image, return_tensors="pt")
  outputs = model(**inputs)
  logits = outputs.logits
  # model predicts one of the 1000 ImageNet classes
  predicted_class_idx = logits.argmax(-1).item()
  print("Predicted class:", model.config.id2label[predicted_class_idx])


  # export
  model_path = f"{model_name}.onnx"
  torch.onnx.export(
    model,
    tuple(inputs.values()),
    f=model_path,
    do_constant_folding=True,
    opset_version=13,
    input_names=["input"],
    output_names=["output"]
  )


  # simplify
  model = onnx.load(model_path)
  model_simp, check = simplify(model)
  assert check, "Simplified ONNX model could not be validated"
  simp_path = f"{model_name}_sim.onnx"
  onnx.save(model_simp, simp_path)


def main():
  download_swin_model(model_name="swin-tiny-patch4-window7-224") # microsoft/swin-tiny-patch4-window7-224


if __name__ == "__main__":
  main()

3.2 模型编译

Pulsar2为了提升用户使用体验，降低Pulsar客户迁移的学习成本，基本上延续了原有风格，包括Docker环境安装、命令行指令、配置文件修改参数、仿真功能等。同时针对编译速度慢的痛点，进行了大幅度优化，模型编译的耗时相比第一代工具链平均降低了一个数量级（分钟->秒）。

$ pulsar2 build --input model/swin-t.onnx --output_dir output --config config/swin-t.json --target_hardware=AX650
32 File(s) Loaded.
[10:22:36] AX Quantization Config Refine Pass Running ... Finished.
[10:22:36] AX Quantization Fusion Pass Running ...    Finished.
[10:22:36] AX Quantize Simplify Pass Running ...     Finished.
[10:22:36] AX Parameter Quantization Pass Running ...   Finished.
Calibration Progress(Phase 1): 100%|████████| 32/32 [00:08<00:00,  3.92it/s]
Finished.
[10:22:45] AX Passive Parameter Quantization Running ...  Finished.
[10:22:45] AX Parameter Baking Pass Running ...           Finished.
[10:22:45] AX Refine Int Parameter pass Running ...       Finished.
Network Quantization Finished.
quant.axmodel export success: output/quant/quant_axmodel.onnx
Building native ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 0:00:00
......
2023-04-13 10:23:07.109 | INFO     | yasched.test_onepass1475 - max_cycle = 6689562
2023-04-13 10:23:25.765 | INFO     | yamain.command.build832 - fuse 1 subgraph(s)

从编译log中我们大致看出，计算图优化、PTQ量化、离线编译总共耗时只需50秒。然后我们来看一下大家比较关心的MHA结构变成了什么样子：

MHA ONNX原始结构

MHA由工具链进行图优化之后的quant.axmodel结构

3.3 仿真运行

在这一代工具链，我们提供更方便的pulsar2-run-helper的插件，可以模拟NPU计算流程，方便提前获得上板运行结果。（请大家记住仿真运行的结果，后续章节将与上板实际部署的推理结果进行比对）

python3 cli_classification.py --post_processing --axmodel_path models/swin-t.axmodel --intermediate_path sim_outputs/0
[I] The following are the predicted score index pair.
[I] 2.6688, 285
[I] 1.9528, 223
[I] 1.8877, 279
[I] 1.8877, 332
[I] 1.8226, 282

上板部署

AX650N Demo板的BSP上已经预装了NPU模型测试需要的工具

/root # sample_npu_classification -m swin-t.axmodel -i cat.jpg -r 100
--------------------------------------
model file : swin-t.axmodel
image file : cat.jpg
img_h, img_w : 224 224
--------------------------------------
Engine creating handle is done.
Engine creating context is done.
Engine get io info is done.
Engine alloc io is done.
Engine push input is done.
--------------------------------------
2.6688, 285
1.9528, 223
1.8877, 332
1.8877, 279
1.8226, 282
--------------------------------------
Repeat 100 times, avg time 8.64 ms, max_time 8.65 ms, min_time 8.64 ms
--------------------------------------

对比上一章节的仿真结果，完全一致。

4.1 算力分配

AX650N的10.8Tops@Int8的算力其实是可分配的，上述内容中，按照默认的编译选项，其实只发挥了一部分算力（3.6Tops@Int8）。我们来看看满算力下的耗时表现如何呢？

/root # ax_run_model -m swin-t-npu3.axmodel -r 100
Run AxModel:
   model: swin-t-npu3.axmodel
    type: NPU3
    vnpu: Disable
  affinity: 0b001
   repeat: 100
   warmup: 1
   batch: 1
  tool ver: 1.0.0
 ------------------------------------------------------
 min =  3.769 ms  max =  3.805 ms  avg =  3.778 ms
 ------------------------------------------------------
/root #
/root # sample_npu_classification -m swin-t-npu3.axmodel -i cat.jpg -r 100
--------------------------------------
model file : swin-t-npu3.axmodel
image file : cat.jpg
img_h, img_w : 224 224
--------------------------------------
Engine creating handle is done.
Engine creating context is done.
Engine get io info is done.
Engine alloc io is done.
Engine push input is done.
--------------------------------------
2.6688, 285
1.9528, 223
1.8877, 332
1.8877, 279
1.8226, 282
--------------------------------------
Repeat 100 times, avg time 3.78 ms, max_time 3.79 ms, min_time 3.77 ms
--------------------------------------

性能统计

算力	耗时（ms）	帧率（fps）
3.6Tops@Int8	8.64	115
10.8Tops@Int8	3.77	265

NPU工具链的性能优化是个长期坚持的过程，最新版本的性能数据会更优秀。

审核编辑：刘清

gpu

gpu

+关注

关注
27

文章
3306

浏览量
124144
cnn

cnn

+关注

关注
3

文章
246

浏览量
20642
卷积神经网络

卷积神经网络

+关注

关注
2

文章
144

浏览量
11117
ChatGPT

ChatGPT

+关注

关注
8

文章
511

浏览量
1620

基于NK-N9H30开发板跑一下LVGL的demo实现

今天终于收到了GUI挑战赛的开发板。申请的是N9H30的。本人对于新唐的芯片和LVGL是小白。先简单做个开箱测试，跑一下LVGL的demo。后面再慢慢玩。包装是个主白色盒子，比较简约。里面有一块

发表于 06-20 11:33

全志V853 NPU 转换部署 YOLO V5 模型

全志V853开发板购买链接：https://item.hqchip.com/2500385672.htmlNPU 转换部署 YOLO V5 模型本文以 YOLO v5s 模型为例，详述 ONNX

发表于 11-29 09:26

怎样使用UDE 5.0将代码部署到SPC58xx板上呢

我正在使用 SPC58xx、SPC5Stuido 6.0、Windows 10，我正在尝试使用 UDE 5.0 将代码部署到板上。尽管我已经阅读了有关这些问题的所有主题，但我仍然无法连接到目标。已正确安装驱动程序并启用 Load VCA 设置。我还能做些什么来让它发挥作用？谢谢！

发表于 12-22 06:52

如何将ML模型部署到微控制器？

大家好，的我正在尝试将 ML 模型部署到微控制器，我有两块 STM32L4R9I-Discovery 和 STM32H7B3I-Discovery 板。实验及相关结果如下所示：我使用 TFLite

发表于 12-29 13:09

如何通过cube-ai扩展将机器学习模型部署到STM32H743ZIT6？

我正在尝试通过 cube-ai 扩展将机器学习模型部署到 STM32H743ZIT6。该模型采用 .tflite 格式。当我尝试分析模型时，结果如下：该工具指出 MCU 总共有 512KB 可用，模型超过了它，但在数据表上我发现有 1024KB。什

发表于 12-30 08:57

基于凌蒙派开发板的FastDeploy适配

编译（即在Ubuntu进行交叉编译）。目标检测模型速度表为了方便大家选择最适合自己的模型，我们选取了目前最流行的几个模型，并整理了模型速度表供大家快速浏览。以下测试速度均为端到端的速度。Demo演示

发表于 02-16 09:43

imx287板dll被复制到Windows文件夹中，然后在板重置后丢失怎么解决？

与 wp8025ro 模块交互的方法。问题是在将应用程序部署到板上后，它（imx287）无法找到我复制到设备上的 Windows 文件夹中的“libmbusmaster.dll 文件”，将 dll 复制到板

发表于 03-15 07:31

如何避免在每次部署和部署到RAM时闪烁代码？

每次部署都需要很长时间的编程和验证。我们想加快部署过程。到目前为止，我们所有的 IDE 都允许将图像部署到 RAM。MCUxpresso 有可能吗？

发表于 03-27 06:51

如何在MIMXRT1064评估套件上部署tflite模型？

我有一个婴儿哭声检测 tflite (tensorflow lite) 文件，其中包含模型本身。我如何将此模型部署到 MIMXRT1064-evk 以通过 MCUXpresso IDE 运行推理。你能推荐一些用于婴儿哭声检测的教程和输入数据集吗？

发表于 04-06 06:24

LPCXpresso55S69应该对IDE的源代码进行哪些更改，以便它正确地与新模型交互并处理实时数据？

、Az数据训练的。我修改了 Jupyter-notebook 中的输入数据集，通过集成 Bx、By 和 Bz 数据来添加更多数据，并将模型部署到 MCUXpresso IDE 上，以获得更准确的摆动状态

发表于 04-11 06:15

把.NET程序部署到没有安装.NET Framwork的机器上

，发送到目标机器上，然后运行"setup.exe", 安装程序会自动检测是否有.NET Framwork, 如果没有，将首先运行dotnetfx.exe。通过上述步骤，您可以将自己的.NET程序成功的部署到没有安装.NET Framwork环境的机器上。&nbs

发表于 03-04 17:01

ad中电流互感器选择哪个模型

在画路时，需要用到电流互感器，需要选择哪个模型呢？一下这些transformer 分别是什么意思？那些在我们设计电路时候比较常用？一些变压器的表述中“Transformer (Coupled Inductor Model)”的耦合电感模型是什么意思？

发表于 12-01 16:32

SF-650电磁继电器端子板

SF-650电磁继电器端子板由37针D形插座或40芯牛角插座输入开关量信号，通过16通道电磁继电器隔离进行信号调理和驱动。板上专用插座可连接另一块SF-650端子板，实现通道扩展。SF-650端子板

发表于 05-15 09:59

AD650模拟地PCB设计问题

`我看到AD650的技术文档上说要将信号地直接连在AD650芯片的模拟地管脚上，请问我直接将一整块电路板覆铜，然后把模拟地接在覆铜上可以吗？会影响电路的效果吗？`

发表于 01-25 13:56

2N650X

`2N650X单向可控硅2N650X， VDRMV 800VRRM V800ITMAX A 25IGTTYP UA 9MAX UA 30VTM MAX V 1.8 封装：TO-220 .以上是关于

发表于 08-21 11:06

ABBYY FineReader 和 ABBYY PDF Transformer+功能比对

ABBYY FineReader 12是市场领先的文字识别（OCR），可快速方便地将扫描纸质文档、PDF文件和数码相机的图像转换成可编辑、可搜索信息。ABBYY PDF Transformer

发表于 09-01 10:45

在阿里云上轻松部署Kubernetes GPU集群，遇见TensorFlow

GN5，基于P100 nvidia GPU, 提供灵活强悍的异构计算模型，从基础设施到部署环境全面升级，可有效提升矩阵运算、视频识别、机器学习、搜索排序等处理计算效率。当Kubernetes和GPU在

发表于 09-26 17:21

如何更改ABBYY PDF Transformer+界面语言

在安装ABBYY PDF Transformer+时会让您选择界面语言。此语言将用于所有消息、对话框、按钮和菜单项。在特殊情况下，您可能需要在安装完成后更改界面语言以适应需求，方法其实很简单，本文

发表于 10-11 16:13

PDF Transformer+“调整亮度”警告消息解决办法

在扫描期间，如果亮度设置不正确，ABBYY PDF Transformer+将显示警告消息。用黑白模式扫描时，也可能需要调整亮度设置。下面小编给大家讲讲ABBYY PDF Transformer

发表于 10-13 14:20

如何更改ABBYY PDF Transformer+旋转页面

PDF Transformer+旋转页面。1、打开想要旋转的页面的图像。2、从“编辑>旋转页面”菜单中，选择以下项之一：向右旋转——将图像向右旋转 90 度；向左旋转——将图像向左旋转 90 度

发表于 10-16 10:19

ABBYY PDF Transformer+快捷键教程

ABBYY PDF Transformer+提供了一系列的操作快捷键，恰当的运用快捷键能够很好的帮助你节约时间，提高效率。文本下面介绍了ABBYY PDF Transformer+快捷键的具体指令

发表于 10-26 11:33

ESS-200AX静电枪，ESS-200AX

,选用人体-金属模型,测试静电电磁脉冲(ESD EMP)对FPGA的影响,并针对试验结果对故障原因进行分析。产品简介：NoiseKen公司的ESS-2000AX静电模拟试验器，模拟当人体或物体所带静电能

发表于 01-26 16:55

在ABBYY PDF Transformer+中创建图像图章和文本图章

图像文件，或如果您已经将某个图像复制到剪切板，则从剪贴板粘贴图像。4.如果您需要调整图像大小，使用图章大小滑块。5.单击保存。在ABBYY PDF Transformer+创建文本图章步骤：1.在主工具栏

发表于 01-31 10:53

应用程序部署到CompactRIO上的Windows Embedded Standard 7操作系统的步骤

概览以下文档描述了将一个应用程序部署到一台CompactRIO上的Windows Embedded Standard 7操作系统中的过程。文档涵盖安装相应软件，部署应用程序文件，以及运行和调试

发表于 04-08 09:42

请问SWIN对STM8S微控制器进行编程的最小电路是多少？

SWIN对STM8S微控制器进行编程的最小电路是多少？＃minimun电路以上来自于谷歌翻译以下为原文 What is the minimum electrical circuit

发表于 06-06 08:58

如何将GPIO集成到项目中？

我最近收到了Nexys 4，并且正在尝试学习如何将GPIO集成到项目中。我想要做通常的教程示例，将开关映射到LED，但是，我希望LED只能按下按钮更新（即设置开关，按钮，然后用开关值更新LED）。我

发表于 10-22 06:10

Sqlite3移植和使用-移植到ARM开发板上

本篇介绍如何将sqlite3移植到 ARM开发板上，以及在开发板上用 C语言操作sqlite3，操作源码下载地址：https://www.sqlite.org/download.html，我们直接

发表于 09-18 11:37

从利用认知 API 到构建出自定义的机器学习模型面临哪些挑战？

模型，这些模型能让风机和风力电场更高效、更安全并且更少中断地运转。随着新版本模型的部署，将产生一组新数据，这些数据可用于评估和理解模型的表现情况，从而反过来促成开发更好的模型用于部署。数百年来，风车

发表于 07-12 06:19

深度融合模型的特点

躺在实验机器上在现有条件下，一般涉及到模型的部署就要涉及到模型的转换，而转换的过程也是随着对应平台的不同而不同，一般工程师接触到的平台分为GPU云平台、手机和其

发表于 07-16 06:08

手把手教你将MQTT客户端移植到stm32开发板上

手把手教你将MQTT客户端移植到stm32开发板上，使用TencentOS tiny官方开发板——TencentOS_tiny_EVB_MX_Plus开发板作为移植实验，使用wifi模块连接到云平台。

发表于 08-03 07:33

如何将程序很好的部署

的完整性这一思想，将cobemx生成的文件和自己编写的文件独立开。这就是所提出这种工程部署方法的初衷。拿STM32F103VBT6这块单片机来说我们要注意以下几点：基础底层头文件汇总我们通过cobemx生成的一些列基础功能配置，都会产生单独的.c和.h文件。将一些底层配置的头文件汇总到一个头文件中，在

发表于 08-24 07:40

将MQTT客户端移植到stm32开发板上

手把手教你将MQTT客户端移植到stm32开发板上，使用野火stm32f429官方开发板作为移植实验，使用lwip+以太网连接到云平台。

发表于 08-24 08:04

Qt程序部署到瑞星微RV1126开发板上，使用QCursor::pos()获取鼠标为零是为什么？

发表于 10-21 06:23

怎样将uC/osii移植到stm32开发板上

怎样将uC/osii移植到stm32开发板上呢？有哪些步骤？

发表于 10-29 06:19

怎样将UCOSIII移植到STM32F103RC开发板上呢

怎样将UCOSIII移植到STM32F103RC开发板上呢？其移植过程是怎样的？

发表于 11-02 08:38

如何将AI模型部署到嵌入式系统中

本期我们分享主题是如何将 AI 模型部署到嵌入式系统中，下一期将介绍如何在 RT-Thread 操作系统上运行 Mnist Demo（手写数字识别）。嵌入式关联 AIAI落地一直是一...

发表于 12-14 07:55

介绍在STM32cubeIDE上部署AI模型的系列教程

介绍在STM32cubeIDE上部署AI模型的系列教程，开发板型号STM32H747I-disco，值得一看。MCUAI原文链接:【嵌入式AI开发】篇四|部署篇：STM32cubeIDE上部署神经网络之模型部署

发表于 12-14 09:05

Pytorch模型如何通过paddlelite部署到嵌入式设备？

发表于 12-23 09:38

如何在RK3308嵌入式开发板上使用ncnn部署mobilenetv2_ssdlite模型呢

如何在RK3308嵌入式开发板上使用ncnn部署mobilenetv2_ssdlite模型呢？

发表于 12-27 07:19

怎样将u-boot2020.04移植到alpha开发板上呢

怎样将u-boot2020.04移植到alpha开发板上呢？有哪些移植步骤？

发表于 01-18 07:15

有什么办法可以将Qt5.13移植到RK3399开发板上吗

有什么办法可以将Qt5.13移植到RK3399开发板上吗？

发表于 03-07 06:14

怎样将HDMI屏移植到RK3328开发板上呢

怎样将HDMI屏移植到RK3328开发板上呢？

发表于 03-09 06:13

如何将Splunk Universal Forwarder部署到基于Arm的设备上呢

，我们就可以搜索并可视化传感器数据。以下是仪表板的局部图像，显示了边缘设备生成的压力数据。用例部署辅助资料部署此用例所需的所有文件都托管在github上。在repo中，有各种README.md文件

发表于 03-30 11:45

DIGIPCBA的平台是否支持将云平台部署到本地服务器

DIGIPCBA的平台是否支持将云平台部署到本地服务器，只对本地的内部人员开放

发表于 06-22 14:13

MPVA12N65F 650V12A功率MOSFET

MPVA12N65FTO-220F650V12A功率MOSFET

发表于 11-16 15:08 •0次下载

LND12N65 12A N沟道650V MOS管-骊微电子

LND12N6512AN沟道650VMOS管

发表于 11-17 15:29 •0次下载

SVF4N65F/M/MJ/D 650v mos管n沟道

骊微电子供应SVF4N65F/M/MJ/D650vmos管n沟道大电流4a提供-svf4n65f详细参数、典型电路、规格书等，是士兰微MOS代理商，更多产品手册、应用料资请向骊微电子申请。>>

发表于 03-30 15:33 •0次下载

acer TravelMate 650系列触摸板驱动下载

宏基Travelmate 650系列触摸板驱动驱动名称: 触摸板驱动版本号: 7.2.0操作系统: WinXP适用机型: Travelmate 650系列备注说明: 解压后双击Setup.exe运行

发表于 02-28 22:36 •6次下载

P2DR模型中策略部署模型的研究与设计

分析动态自适应网络安全模型P2DR的缺陷，提出对P2DR模型的几点改进建议。针对模型中策略相关不足设计了一个策略部署模型，该部署模型实现了策略统一定制、自动分发、自适应管

发表于 04-13 09:40 •27次下载

ZLG I2C及UART器件DEMO板简介

介绍I2C器件和UART器件的DEMO板。如有需要DEMO板的工程师，请跟各地分公司销售联系。

发表于 03-09 15:09 •24次下载

从实验室到工厂，模型部署中几个重要问题

在我们的产业中，很多关注都集中在开发分析模型来解决关键商业问题以及预测消费者行为上。但是，当数据科学家研发完模型，需要部署模型以供更大的组织使用时，会发生什么情况？

发表于 05-03 14:11 •0次下载

AM3358 DEMO板的原理图pdf下载

AM3358 DEMO板的原理图，基本上AM335X系列的都可以用，管脚定义是一样的

发表于 03-14 15:30 •16次下载

神经网络模型部署到MCU 之环境搭建教程

神经网络模型部署到MCU 之环境搭建教程前提工作：已经搭建好了神经网络模型（tensorflow、keras），并进行了训练。目前工作：将网络部署到单片机上，用到的是STM32的开发板，使用到

发表于 10-26 18:36 •3次下载

神经网络<b>模型</b><b>部署</b><b>到</b>MCU 之环境搭建教程

【R329开发板评测】R329 初体验：ShuffleNet 上板部署

接上篇文章 R329 AIPU 初体验：ShuffleNet 编译到仿真我们生成了 ShuffleNet 的 AIPU 程序，本文将详细介绍模型上板部署的整个流程。

发表于 01-25 14:43 •1次下载

【R329开发<b>板</b>评测】R329 初体验：ShuffleNet <b>上</b><b>板</b><b>部署</b>

【周易AIPU 仿真】在R329上部署VGG_16网络模型

经过一周多时间的探索，参考了n篇历程，跑通了俩个网络模型，这里记录一下VGG\_16网络模型的部署。全部操作都是在虚拟机的Ubuntu14.04操...

发表于 01-25 17:29 •1次下载

【周易AIPU 仿真】在R329上<b>部署</b>VGG_16网络<b>模型</b>

【嵌入式AI入门日记】将 AI 模型移植到 RT-Thread 上（2）

本期将介绍如何在 RT-Thread 操作系统上运行 Mnist Demo（手写数字识别），可支持自己手写数字验证。

发表于 01-26 17:05 •3次下载

【嵌入式AI入门日记】<b>将</b> AI <b>模型</b>移植<b>到</b> RT-Thread <b>上</b>（2）

【嵌入式AI入门日记】将 AI 模型移植到 RT-Thread 上（1）

本期我们分享主题是如何将 AI 模型部署到嵌入式系统中，下一期将介绍如何在 RT-Thread 操作系统上运行 Mnist Demo（手写数字识别）。

发表于 01-26 17:08 •2次下载

【嵌入式AI入门日记】<b>将</b> AI <b>模型</b>移植<b>到</b> RT-Thread <b>上</b>（1）

20V,共漏极N沟道沟槽 MOSFET-PMCM650CUNE

20 V、共漏极 N 沟道沟槽 MOSFET-PMCM650CUNE

发表于 02-23 19:09 •0次下载

20V,共漏极<b>N</b>沟道沟槽 MOSFET-PMCM<b>650</b>CUNE

12V,N 沟道沟槽 MOSFET-PMCM650VNE

12 V、N 沟道沟槽 MOSFET-PMCM650VNE

发表于 02-27 19:05 •0次下载

12V,<b>N</b> 沟道沟槽 MOSFET-PMCM<b>650</b>VNE

万用NLP模型Transformer的升级版

Transformer-XL在5个数据集上都获得了强大的结果：在enwiki8上将bpc/perplexity的最新 state-of-the-art(SoTA)结果从1.06提高到0.99，在

发表于 02-11 09:37 •3739次阅读

ModelOp帮助企业部署监视和维护AI模型

术语ModelOps是指以部署和更新的节奏将分析模型从数据科学团队循环到生产团队的过程，并且通常需要所涉及的工程师广泛的领域知识。ModelOp的平台旨在通过对模型进行分类并在整个客户组织中自动化部署，监视和治理流程来简化此过程。

发表于 04-09 14:36 •2026次阅读

使用Cortex将PyTorch模型部署到生产中

从 NLP 到计算机视觉都可以通过 Cortex来非常方便的部署PyTorch模型。作者：Caleb Kaiser编译：ronghuaiyang首发：AI公园公众号

发表于 12-10 20:14 •111次阅读

Google科学家设计简化稀疏架构Switch Transformer，语言模型的参数量可扩展至 1.6 万亿

刚刚，Google Brain 高级研究科学家 Barret Zoph 发帖表示，他们设计了一个名叫「Switch Transformer」的简化稀疏架构，可以将语言模型的参数量扩展至 1.6 万亿

发表于 01-13 16:50 •2202次阅读

Transformer模型的多模态学习应用

随着Transformer在视觉中的崛起，Transformer在多模态中应用也是合情合理的事情，甚至以后可能会有更多的类似的paper。

发表于 03-25 09:29 •7267次阅读

如何使用Transformer来做物体检测？

）是Facebook研究团队巧妙地利用了Transformer 架构开发的一个目标检测模型。在这篇文章中，我将通过分析DETR架构的内部工作方式来帮助提供一些关于它的含义。下面，我将解释一些结构，但是

发表于 04-25 10:45 •1977次阅读

使用跨界模型Transformer来做物体检测！

用了Transformer 架构开发的一个目标检测模型。在这篇文章中，我将通过分析DETR架构的内部工作方式来帮助提供一些关于它的直觉。下面，我将解释一些结构，但是如果你只是想了解如何使用模型，可以直接跳到代码部分

发表于 06-10 16:04 •1640次阅读

如何在移动设备上训练和部署自定义目标检测模型

上，目标检测模型的训练和部署的过程：设备端 ML 学习路径：关于如何在移动设备上，训练和部署自定义目标检测模型的分步教程，无需机器学习专业知识。设备端 ML 学习路径 https

发表于 08-16 17:09 •2232次阅读

Transformer的复杂度和高效设计及Transformer的应用

的25个Transformers模型总结 ACL 2021中的25个Transformers模型 NLP中的层次结构Hi-Transformer： Hierarchical Interactive Transformer for Efficient and Effective Long Docume

发表于 09-01 09:27 •4309次阅读

<b>Transformer</b>的复杂度和高效设计及<b>Transformer</b>的应用

超大Transformer语言模型的分布式训练框架

NVIDIA Megatron 是一个基于 PyTorch 的框架，用于训练基于 Transformer 架构的巨型语言模型。本系列文章将详细介绍Megatron的设计和实践，探索这一框架如何助力

发表于 10-11 16:46 •1660次阅读

探究超大Transformer语言模型的分布式训练框架

发表于 10-20 09:25 •1560次阅读

使用OpenVINO™ 部署PaddleSeg模型库中的DeepLabV3+模型

下的DeepLabV3+路面语义分割模型转换为OpenVINO 工具套件的IR模型并且部署到CPU上。为了使本文拥有更广的受众面，文章的目标部署平台选择了CPU和iGPU。关于如何部署到边缘设备例如Intel

发表于 11-22 14:58 •6453次阅读

使用OpenVINO™ <b>部署</b>PaddleSeg<b>模型</b>库中的DeepLabV3+<b>模型</b>

NVIDIA助力微软将AI Transformer模型投入生产用途

Microsoft 的目标是，通过结合使用 Azure 与 NVIDIA GPU 和 Triton 推理软件，率先将一系列强大的 AI Transformer 模型投入生产用途。

发表于 03-28 09:43 •735次阅读

将NVIDIA Riva模型部署到生产中

Riva 是一款用于开发语音应用程序的端到端 GPU 加速 SDK 。在本系列文章中，我们讨论了语音识别在行业中的重要性，介绍了如何在您的领域定制语音识别模型以提供世界级的准确性，并向您展示了如何使用 Riva 部署可实时运行的优化服务。

发表于 04-01 14:12 •672次阅读

<b>将</b>NVIDIA Riva<b>模型</b><b>部署</b><b>到</b>生产中

Microsoft使用NVIDIA Triton加速AI Transformer模型应用

Microsoft 的目标是，通过结合使用 Azure 与 NVIDIA GPU 和 Triton 推理软件，率先将一系列强大的 AI Transformer 模型投入生产用途。

发表于 04-02 13:04 •1016次阅读

如何手动编程将其无缝部署到TI处理器上

从模型选择到在处理器上部署，TI 可免费提供相关工具、软件和服务，为您深度神经网络（DNN）开发工作流程的每一步保驾护航。

发表于 04-08 11:41 •1190次阅读

如何手动编程将其无缝<b>部署</b><b>到</b>TI处理器<b>上</b>

Swin Transformer在MIM中的应用

而跟SimMIM相比，这一方法在所需训练时间大大减少，消耗GPU内存也小得多。具体而言，在相同的训练次数下，在Swin-B上提高2倍的速度和减少60%的内存。

发表于 05-31 10:15 •732次阅读

模型部署是打通AI应用的最后一公里

为了更好的满足用户多种视觉任务场景，部署Demo基于PaddleX的Deployment模块进行二次开发，不仅仅支持对PaddleX自身训练的模型进行推理，同时支持PaddleClas、PaddleDetection、PaddleSeg视觉开发套件的模型，满足多种场景需求。

发表于 06-07 11:06 •565次阅读

新型transformer模型实现3D医学图像分析最新基准

　　Swin UNETR 体系结构在使用变压器的医疗成像方面提供了急需的突破。鉴于医学成像需要快速构建准确的模型， Swin UNETR 体系结构使数据科学家能够对大量未标记数据进行预训练。

发表于 08-15 15:01 •2738次阅读

新型<b>transformer</b><b>模型</b>实现3D医学图像分析最新基准

如何在Arm虚拟硬件的虚拟树莓派4上完成图像识别应用的部署

本期课程，小编将以计算机视觉领域的图像识别任务为目标，带领大家动手实现在树莓派的虚拟设备上部署基于 Paddle Lite 的图像识别模型，以及如何将在 Arm 虚拟硬件 (Arm Virtual Hardware, AVH) 上开发测试完成的应用快捷地移植到实体树莓派开发板上

发表于 09-30 10:00 •1313次阅读

如何将pytorch的模型部署到c++平台上的模型流程

最近因为工作需要，要把pytorch的模型部署到c++平台上，基本过程主要参照官网的教学示例，期间发现了不少坑，特此记录。

发表于 10-26 14:36 •1368次阅读

如何使用TensorRT框架部署ONNX模型

模型部署作为算法模型落地的最后一步，在人工智能产业化过程中是非常关键的步骤，而目标检测作为计算机视觉三大基础任务之一，众多的业务功能都要在检测的基础之上完成，本文提供了YOLOv5算法从0部署的实战教程，值得各位读者收藏学习。

发表于 10-31 14:27 •1321次阅读

利用Transformer和CNN 各自的优势以获得更好的分割性能

Transformer 和 CNN 各自的优势以获得更好的分割性能。具体来说，PHTrans 沿用 U 形设计，在深层引入并行混合模块，其中卷积块和修改后的 3D Swin Transformer

发表于 11-05 11:38 •2782次阅读

低门槛AI部署工具FastDeploy开源！

为了解决AI部署落地难题，我们发起了FastDeploy项目。FastDeploy针对产业落地场景中的重要AI模型，将模型API标准化，提供下载即可运行的Demo示例。相比传统推理引擎，做到端到端的推理性能优化。

发表于 11-08 14:28 •675次阅读

三行代码完成AI模型的部署！

为了解决AI部署落地难题，我们发起了FastDeploy项目。FastDeploy针对产业落地场景中的重要AI模型，将模型API标准化，提供下载即可运行的Demo示例。相比传统推理引擎，做到端到端的推理性能优化。FastDeploy还支持在线（服务化部署）和离线

发表于 11-10 10:18 •431次阅读

深度学习模型的部署方法

当我们辛苦收集数据、数据清洗、搭建环境、训练模型、模型评估测试后，终于可以应用到具体场景，但是，突然发现不知道怎么调用自己的模型，更不清楚怎么去部署模型！这也是今天“计算机视觉研究院”要和大家

发表于 12-01 11:30 •648次阅读

3运行一个简单的Demo（N32G45XVL）

N32G45XVL-STB 开发板：一个简单的demo

发表于 12-14 08:58 •285次阅读

如何让Transformer在征程5上跑得既快又好？以SwinT部署为例的优化探索

，另一方面是如何通过调整模型结构使得SwinT在征程5平台上能够得到最优的延时性能。最终在地平线征程5平台上，可以通过低于1%的量化精度损失，得到FPS为133的部署性能。同时该结果与端侧最强GPU上SwinT的部署性能相当(FPS为165)。

发表于 03-03 09:34 •213次阅读

爱芯元智发布第三代智能视觉芯片AX650N，为智慧生活赋能

中国上海 2023 年 3 月 6 日 ——人工智能视觉感知芯片研发及基础算力平台公司爱芯元智宣布推出第三代高算力、高能效比的SoC芯片——AX650N。这是继AX620、AX630系列后，爱芯元

发表于 03-07 10:57 •950次阅读

爱芯元智第三代智能视觉芯片AX650N高能效比SoC芯片

爱芯元智正式推出第三代高算力、高能效比的SoC芯片——AX650N。这是继AX620、AX630系列后，爱芯元智推出的又一款高性能智能视觉芯片。 AX650N是一款兼具高算力与高能效比的SoC芯片

发表于 03-10 17:13 •2006次阅读

AI芯片公司爱芯元智荣获2023中国IC领袖峰会两项殊荣

3月30日，由AspenCore主办的“2023中国IC领袖峰会暨中国IC成就奖颁奖典礼”在上海成功举办。凭借在AI芯片赛道的强大自研实力和突出落地成果，爱芯元智AX650N获评“中国IC设计成就奖

发表于 03-31 17:31 •1081次阅读

如何优雅地将Swin Transformer模型部署到AX650N Demo板上？

评论

下载硬声App