如何借助分布式GPU环境来提升神经网络训练系统的浮点计算能力-电子发烧友网

前言

在大型数据集上进行训练的现代神经网络架构，可以跨广泛的多种领域获取可观的结果，涵盖从图像识别、自然语言处理，到欺诈检测和推荐系统等各个方面。但训练这些神经网络模型需要大量浮点计算能力。虽然，近年来 GPU 硬件算力和训练方法上均取得了重大进步，但在单一机器上，网络训练所需要的时间仍然长得不切实际，因此需要借助分布式GPU环境来提升神经网络训练系统的浮点计算能力。

TensorFlow分布式训练

如何借助分布式GPU环境来提升神经网络训练系统的浮点计算能力

TensorFlow 采用了数据流范式，使用节点和边的有向图来表示计算。TensorFlow 需要用户静态声明这种符号计算图，并对该图使用复写和分区（rewrite & partitioning）将其分配到机器上进行分布式执行。

如何借助分布式GPU环境来提升神经网络训练系统的浮点计算能力

TensorFlow 中的分布式机器学习训练使用了如图所示的参数服务器方法。

Cluster、Job、Task

关于TensorFlow的分布式训练，主要概念包括Cluster、Job、Task，其关联关系如下：

TensorFlow分布式Cluster由多个Task组成，每个Task对应一个tf.train.Server实例，作为Cluster的一个单独节点；

多个相同作用的Task可以被划分为一个Job，在分布式深度学习框架中,我们一般把Job划分为Parameter Server和Worker，Parameter Job是管理参数的存储和更新工作，而Worker Job运行OPs，作为计算节点只执行计算密集型的Graph计算；

Cluster中的Task会相对进行通信，以便进行状态同步、参数更新等操作，如果参数的数量过大，一台机器处理不了，这就要需要多个Task。

TensorFlow分布式计算模式

In-graph 模式

In-graph模式，将模型计算图的不同部分放在不同的机器上执行。把计算从单机多GPU扩展到了多机多GPU，不过数据分发还是在一个节点。这样配置简单，多机多GPU的计算节点只需进行join操作，对外提供一个网络接口来接受任务。训练数据的分发依然在一个节点上，把训练数据分发到不同的机器上，将会影响并发训练速度。在大数据训练的情况下，不推荐使用这种模式。

Between-graph 模式

Between-graph模式下，数据并行，每台机器使用完全相同的计算图。训练的参数保存在参数服务器，数据不用分发，而是分布在各个计算节点自行计算，把要更新的参数通知参数服务器进行更新。这种模式不需要再练数据的分发，数据量在TB级时可以节省大量时间，目前主流的分布式训练模式以 Between-graph为主。

参数更新方式

同步更新

各个用于并行计算的节点，计算完各自的batch 后，求取梯度值，把梯度值统一送到PS参数服务机器中，并等待PS更新模型参数。PS参数服务器在收集到一定数量计算节点的梯度后，求取梯度平均值，更新PS参数服务器上的参数，同时将参数推送到各个worker节点。

异步更新

PS参数服务器只要收到一台机器的梯度值，就直接进行参数更新，无需等待其它机器。这种迭代方法比较不稳定，因为当A机器计算完更新了PS参数服务器中的参数，可能B机器还是在用上一次迭代的旧版参数值。

分布式训练步骤

命令行参数解析，获取集群的信息ps_hosts和worker_hosts，以及当前节点的角色信息job_name和task_index

创建当前Task结点的Server

cluster = tf.train.ClusterSpec({"ps": ps_hosts, "worker": worker_hosts})server = tf.train.Server(cluster, job_name=FLAGS.job_name, task_index=FLAGS.task_index)

如果当前节点是Parameter Server，则调用server.join()无休止等待；如果是Worker，则执行下一步

if FLAGS.job_name == "ps": server.join()

构建要训练的模型

# build tensorflow graph model

创建tf.train.Supervisor来管理模型的训练过程

# Create a "supervisor", which oversees the training process.sv = tf.train.Supervisor(is_chief=(FLAGS.task_index == 0), logdir="/tmp/train_logs")# The supervisor takes care of session initialization and restoring from a checkpoint.sess = sv.prepare_or_wait_for_session(server.target)# Loop until the supervisor shuts downwhile not sv.should_stop() # train model

UAITrain分布式训练部署

UCloud AI 训练服务（UCloud AI Train）是面向AI训练任务的大规模分布式计算平台，基于高性能GPU计算节点提供一站式托管AI训练任务服务。用户在提交AI训练任务后，无需担心计算节点调度、训练环境准备、数据上传下载以及容灾等问题。

目前，UAI--Train平台支持TensorFlow 和 MXNet 框架的分布式训练。需要将PS代码和Worker代码实现在同一个代码入口中，执行过程中，PS 和 Worker 将使用相同的Docker容器镜像和相同的python代码入口进行执行，系统将自动生成PS和Worker的env环境参数。TensorFlow 分布式训练采用PS-Worker的分布式格式，并提供python的接口运行分布式训练。

如何借助分布式GPU环境来提升神经网络训练系统的浮点计算能力

UAI--Train分布式训练采用Parameter Server和Worker Server混合部署的方法，所有计算节点均由GPU物理云主机组成。PS 仅使用CPU进行计算，Worker Server则同时使用GPU和CPU进行计算，PS 和 Worker的比例为1:1。

如何借助分布式GPU环境来提升神经网络训练系统的浮点计算能力

数据存储

分布式训练所使用的输入数据可以来自不同的数据源，目前UAI--Train仅支持UFS作为数据的存储。

Input 数据存储

指定一个UFS网盘作为Input数据源，UAI--Train平台在训练执行过程中会将对应的UFS数据映射到训练执行的Worker容器的 /data/data 目录下，系统会自动将数据映射到执行的容器中，如 ip:/xxx/data/imagenet/tf → /data/data/。

Output 数据存储

指定一个UFS网盘作为output数据源，UAI--Train平台在训练执行过程中会将对应的UFS数据映射到训练执行的每一个PS容器和Worker容器的 /data/output 目录下，并以共享的方式访问同一份数据。同时，在训练过程可以通过其云主机实时访问训练保存的模型checkpoint。

案例：通过CIFAR-10进行图像识别

CIFAR-10是机器学习中常见的图像识别数据集，该数据集共有60000张彩色图像。这些图像，分为10个类，每类6000张图，有50000张用于训练，另外10000用于测试。

http://groups.csail.mit.edu/vision/TinyImages/

调整训练代码

为了在UAI平台上进行训练，首先下载源代码，并对cifar10_main.py做如下修改：

添加相关参数：--data_dir, --output_dir, --work_dir, --log_dir, --num_gpus，UAITrain平台将会自动生成这些参数；

在代码中增加UAI参数：使用data_dir配置输入文件夹、使用output_dir配置输出文件夹。

具体案例代码可以在https://github.com/ucloud/uai-sdk/tree/master/examples/tensorflow/train/cifar获取

在UAI--Train平台执行训练

据https://github.com/tensorflow/models/tree/master/tutorials/image/cifar10_estimator 的说明生成CIFAR-10的tfrecords；

使用UAI-SDK提供的tf_tools.py 生成CIFAR-10样例的Docker镜像；

确保Docker镜像已经上传至UHub，在UAI--Train平台上执行。

/data/cifar10_main.py --train-batch-size=16

在UAI平台上的分布式训练

CIFAR-10样例代码使用tf.estimator.Estimator API，只需一个分布式环境和分布式环境配置便可直接进行分布式训练，该配置需要适用于tf.estimator.Estimator API的标准，即定义一个TF_CONFIG 配置。

TF_CONFIG = {

"cluster":{

"master":["ip0:2222"],

"ps":["ip0:2223","ip1:2223"],

"worker":["ip1:2222"]},

"task":{"type":"worker","index":0},

"environment":"cloud"

}

UAITrain平台的分布式训练功能可以自动生成TensorFlow分布式训练的GPU集群环境，同时为每个训练节点自动生成TF_CONFIG。因此，在UAITrain平台上执行CIFAR-10的分布式训练和单机训练一样，仅需要指定input/output的UFS地址并执行如下指令即可：

/data/cifar10_main.py --train-batch-size=16

总结

UAI--Train TensorFlow的分布式训练环境实现基于TensorFlow 的分布式训练系统实现，采用默认的grpc协议进行数据交换。PS和Worker采用混合部署的方式部署，PS使用纯CPU计算，Worker使用GPU+CPU计算。

在UAI--Train平台中可以非常方便的开展分布式计算，提高效率、压缩训练时间。最后通过CIFAR-10 案例解析在UAITrain平台上训练所需做出的修改，并在UAITrain平台上进行分布式UAI--Train平台训练。

神经网络

神经网络

+关注

关注
42

文章
3914

浏览量
97045
网络训练

网络训练

+关注

关注
0

文章
3

浏览量
1466

卷积神经网络模型发展及应用

。神经网络的思想起源于1943年McCulloch 和 Pitts 提出的神经元模型[19]，简称 MCP 神经元模型。它是利用计算机来模拟人的神经元反应的过程，具有开创性意义。此模型将神经元反应简化

发表于 08-02 10:39

卷积神经网络表征可视化研究综述（1）

突破性进展, 这些任务多以卷积神经网络为基础搭建识别模型, 训练后的模型拥有优异的自动特征提取和预测性能, 能够为用户提供“输入–输出”形式的端到端解决方案. 然而, 由于分布式的特征编码和越来越复杂

发表于 08-09 10:53

卷积神经网络简介：什么是机器学习？

通过网络训练来确定才能使模型工作。这将在后续文章“训练卷积神经网络：什么是机器学习？—第 2 部分”中解释。第 3 部分将解释我们讨论过的神经网络的硬件实现（例如猫识别）。为此，我们将使

发表于 02-23 20:11

人工神经网络原理及下载

这个网络输入和相应的输出来“训练”这个网络，网络根据输入和输出不断地调节自己的各节点之间的权值来满足输入和输出。这样，当训练结束后，我们给定一个输入，网络便会根据自己已调节好的权值计算出一个输出。这就是神经网络的简单原理。 &

发表于 06-19 14:40

分布式软件系统

三个特点：分布性、通信性和稳健性。 分布式文件系统具有执行远程文件存取的能力,并以透明方式对分布在网络上的文件进行管理和存取。 分布式数据库系统由分布于多个计算机结点上的若干个数据库系统组成,它提供有

发表于 07-22 14:53

MATLAB神经网络工具箱函数

递归网络newelm 创建一Elman递归网络2. 网络应用函数sim 仿真一个神经网络init 初始化一个神经网络adapt 神经网络的自适应化train 训练一个神经网络3. 权函数dotprod

发表于 09-22 16:10

分布式控制系统

控制级（控制回路）仍具有独立控制能力，个别控制回路发生故障时也不致影响全局。与计算机多级控制系统相比，分布式控制系统在结构上更加灵活、布局更为合理和成本更低。　　分散型控制系统（DCS）是以微处理机为

发表于 02-26 15:04

粒子群优化模糊神经网络在语音识别中的应用

一定的早熟收敛问题,引入一种自适应动态改变惯性因子的PSO算法,使算法具有较强的全局搜索能力.将此算法训练的模糊神经网络应用于语音识别中,结果表明,与BP算法相比,粒子群优化的模糊神经网络具有较高

发表于 05-06 09:05

神经网络教程（李亚非）

　　第1章概述　　1.1 人工神经网络研究与发展　　1.2 生物神经元　　1.3 人工神经网络的构成　　第2章人工神经网络基本模型　　2.1 MP模型　　2.2 感知器模型　　2.3 自适应线性

发表于 03-20 11:32

当训练好的神经网络用于应用的时候，权值是不是不能变了？

当训练好的神经网络用于应用的时候，权值是不是不能变了？？？？就是已经训练好的神经网络是不是相当于得到一个公式了，权值不能变了

发表于 10-24 21:55

如何看待AI时代的芯片之争,FPGA成一代新贵

分布式表示，继而展现强大的从少数样本集中学习数据集本质特征的能力，并使概率向量更加收敛。简单来说，深度学习神经网络对数据的处理方式和学习方式与人类大脑的神经元更加相似，比传统的神经网络更准确。难以满足

发表于 04-20 14:15

人工智能到底用 GPU？还是用 FPGA？

`我思故我在亮出你的观点自从类神经网络算法可以用强大的运算能力加以模拟之后，强人工智能才开始出现。即便如此，以目前 CPU 的运算能力来讲，模拟类神经网络算法的代价非常之大，于是有人想到了用

发表于 08-23 15:42

神经网络解决方案让自动驾驶成为现实

使用最为有利的系统。训练往往在线下通过基于 CPU 的系统、图形处理器 (GPU) 或现场可编程门阵列 (FPGA) 来完成。由于计算功能强大且设计人员对其很熟悉，这些是用于神经网络训练的最为理想

发表于 12-21 17:11

阿里云GPU云服务器年付5折！阿里云异构计算助推行业发展！

，本周将会推出针对异构计算GPU实例GN5年付5折的优惠活动，希望能够打造良好的AI生态环境，帮助更多的人工智能企业以及项目顺利上云。随着深度学习对人工智能的巨大推动，深度学习所构建的多层神经网络模型

发表于 12-26 11:04

【产品活动】阿里云GPU云服务器年付5折！阿里云异构计算助推行业发展！

发表于 12-26 11:22

智能手机跑大规模神经网络的主要策略

解决的问题，一般都需要大硬盘服务器上运行驱动器和多个GPU模块。不幸的是，在移动设备上运行神经网络并不容易。事实上，即使智能手机变得越来越强大，它们仍然具有有限的计算能力、电池寿命和可用磁盘空间，尤其是对于

发表于 05-07 16:02

从AlexNet到MobileNet，带你入门深度神经网络

通过堆叠卷积层使得模型更深更宽，同时借助GPU使得训练再可接受的时间范围内得到结果，推动了卷积神经网络甚至是深度学习的发展。下面是AlexNet的架构：AlexNet的特点有：1.借助拥有1500万标签

发表于 05-08 15:57

人脸识别、语音翻译、无人驾驶...这些高科技都离不开深度神经网络了！

、像素点与像素点之间一一对应的乘法，再进行求和。图形处理器-GPU（Graphics ProcessingUnit）由于采用多层的神经网络，且每一层的结果都是一个高维的特征图像，所以计算量也相当大

发表于 05-11 11:43

AI知识科普 | 从无人相信到万人追捧的神经网络

工智能。几乎是一夜间，神经网络技术从无人相信变成了万人追捧。神经网络之父Hiton1、人工神经网络是什么？人工神经网络：是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统

发表于 06-05 10:11

请问Labveiw如何调用matlab训练好的神经网络模型呢？

我在matlab中训练好了一个神经网络模型，想在labview中调用，请问应该怎么做呢？或者labview有自己的神经网络工具包吗？

发表于 07-05 17:32

非局部神经网络，打造未来神经网络基本组件

，非局部运算将某一处位置的响应作为输入特征映射中所有位置的特征的加权和来进行计算。我们将非局部运算作为一个高效、简单和通用的模块，用于获取深度神经网络的长时记忆。我们提出的非局部运算是计算机视觉中经

发表于 11-12 14:52

基于BP神经网络的手势识别系统

的矩阵元素值输入神经网络的各个输入单元，并为每个输出单元指定期望输出，计算每个输出单元的实际输出与期望输出的误差以及隐含层误差。计算实际输出与期望输出的误差公式为：　　　　式中的负号表示梯度下降，常数

发表于 11-13 16:04

【PYNQ-Z2申请】基于PYNQ的卷积神经网络加速

，得到训练参数2、利用开发板arm与FPGA联合的特性，在arm端实现图像预处理已经卷积核神经网络的池化、激活函数和全连接，在FPGA端实现卷积运算3、对整个系统进行调试。4、在基本实现系统的基础上

发表于 12-19 11:37

CV之YOLO：深度学习之计算机视觉神经网络tiny-yolo-5clessses训练自己的数据集全程记录

CV之YOLO：深度学习之计算机视觉神经网络tiny-yolo-5clessses训练自己的数据集全程记录

发表于 12-24 11:50

CV之YOLOv3：深度学习之计算机视觉神经网络Yolov3-5clessses训练自己的数据集全程记录

CV之YOLOv3：深度学习之计算机视觉神经网络Yolov3-5clessses训练自己的数据集全程记录

发表于 12-24 11:51

计算机视觉神经网络资料全集

CV之YOLOv3：深度学习之计算机视觉神经网络Yolov3-5clessses训练自己的数据集全程记录(第二次)——Jason niu

发表于 12-24 11:52

【PYNQ-Z2申请】基于PYNQ-Z2的神经网络图形识别

项目名称：基于PYNQ-Z2的神经网络图形识别试用计划：申请理由：本人为一名嵌入式软件工程师，对FPGA有一段时间的接触，基于FPGA设计过简单的ASCI数字芯片。目前正好在学习基于python

发表于 01-09 14:48

【PYNQ-Z2试用体验】基于PYNQ的神经网络自动驾驶小车 - 项目规划

，训练并测试神经网络；5. 软硬件联合调试。准备好手边的开发板和开发环境，从下一篇帖子开始，跟我动手制作一辆属于自己的自动驾驶小车吧！`

发表于 03-02 23:10

【PYNQ-Z2试用体验】神经网络基础知识

学习和认知科学领域，是一种模仿生物神经网络（动物的中枢神经系统，特别是大脑）的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络

发表于 03-03 22:10

基于赛灵思FPGA的卷积神经网络实现设计

作者：Nagesh Gupta 创始人兼 CEOAuviz Systems Nagesh@auvizsystems.com凭借出色的性能和功耗指标，赛灵思 FPGA 成为设计人员构建卷积神经网络

发表于 06-19 07:24

卷积神经网络如何使用

卷积神经网络(CNN)究竟是什么，鉴于神经网络在工程上经历了曲折的历史，您为什么还会在意它呢? 对于这些非常中肯的问题，我们似乎可以给出相对简明的答案。

发表于 07-17 07:21

【案例分享】基于BP算法的前馈神经网络

}或o koko_{k}）的误差神经元偏倚的变化量：ΔΘ ΔΘ Delta Theta=学习步长η ηeta × ×imes 乘以神经元的误差BP神经网络算法过程网络的初始化：包括权重和偏倚的初始化计算

发表于 07-21 04:00

【案例分享】ART神经网络与SOM神经网络

元，它决定了该输入向量在地位空间中的位置。SOM神经网络训练的目的就是为每个输出层神经元找到合适的权向量，以达到保持拓扑结构的目的。SOM的训练过程其实很简单，就是接收到一个训练样本后，每个输出层神经

发表于 07-21 04:30

人工神经网络实现方法有哪些？

人工神经网络(Artificial Neural Network，ANN)是一种类似生物神经网络的信息处理结构，它的提出是为了解决一些非线性，非平稳，复杂的实际问题。那有哪些办法能实现人工神经网络呢？

发表于 08-01 08:06

如何设计BP神经网络图像压缩算法？

神经网络的并行特点，而且它还可以根据设计要求配置硬件结构，例如根据实际需要，可灵活设计数据的位宽等。随着数字集成电路技术的飞速发展，FPGA芯片的处理能力得到了极大的提升，已经完全可以承担神经网络数据压缩

发表于 08-08 06:11

如何设计分布式干扰系统？

什么是分布式干扰系统？分布式干扰系统是一种综合化、一体化、小型化、网络化和智能化系统，是将众多体积小，重量轻，廉价的小功率侦察干扰机装置在易于投放的小型平台上，撒布在接近***扰目标空域地，通过指令

发表于 08-08 06:57

怎么设计ARM与神经网络处理器的通信方案？

人工神经网络在很多领域得到了很好的应用，尤其是具有分布存储、并行处理、自学习、自组织以及非线性映射等特点的网络应用更加广泛。嵌入式便携设备也越来越多地得到应用，多数是基于ARM内核及现场可编程门阵列

发表于 09-20 06:15

分布式数据库有什么优缺点？

分布式数据库系统（DDBS）是数据库技术和网络技术两者相互渗透和有机结合的结果。涉及数据库基本理论和网络通信理论。分布式数据库由一组数据组成，这些数据在物理上分布在计算机网络的不同节点上，逻辑上是属于同一个系统。

发表于 09-24 09:13

如何利用FPGA设计无线分布式采集系统？

的选择无线分布式采集来进行。现有的无线分布式采集系统中，往往使用单片机、DSP等作为系统的主控控制单元。但是由于其自身工作特点，往往对于精确的定时控制以及并行处理能力上比FPGA弱。

发表于 10-14 07:10

分布式系统的优势是什么？

当讨论分布式系统时，我们面临许多以下这些形容词所描述的同类型： 分布式的、删络的、并行的、并发的和分散的。分布式处理是一个相对较新的领域，所以还没有‘致的定义。与顺序计算相比、并行的、并发的和分布式的计算包括多个PE问的集体协同动作。这些术语在范围一卜相互覆盖

发表于 03-31 09:01

ETPU-Z2全可编程神经网络开发平台

嵌入式应用开发流程。神经网络算法的开发通常在Host主机上使用GPU加速完成，其简要的流程如下：开发人员在Host主机上进行算法开发工作（训练）；开发（训练）完成后，通过交叉编译的方式，在主机环境下

发表于 05-18 17:13

MATLAB训练好的神经网络移植到STM32F407上

我在MATLAB中进行了神经网络模型训练，然后将训练好的模型的阈值和权值导出来，移植到STM32F407单片机上进行计算，但是在单片机上的计算结果和在MATLAB上的不一样，一直找不到原因。代码在

发表于 06-16 11:14

嵌入式神经网络有哪些挑战

　　1、宽频限制以及嵌入式系统的计算能力　　NN需要大量数据，利用DDR在各层之间进行传输。如为卷积和完全连接数据重量来自DDR，数据传输极其庞大。在这些情况下，也要使用浮点精度。在许多情况下，相同网络

发表于 06-30 11:01

【大联大世平Intel®神经计算棒NCS2试用体验】0.开箱帖

` 本帖最后由 jackeyt 于 2020-7-27 22:17 编辑 0、背景自从深度学习火起来之后，Nvidia GPU大卖。因为可以做神经网络的训练(Training)，搭配CUDA享用

发表于 07-27 17:28

HarmonyOS应用开发-分布式任务调度

1. 介绍本篇CodeLab将实现的内容HarmonyOS是面向全场景多终端的分布式操作系统，使得应用程序的开发打破了智能终端互通的性能和数据壁垒，业务逻辑原子化开发，适配多端。通过一个简单应用开发

发表于 09-18 09:21

【AI学习】第3篇--人工神经网络

`本篇主要介绍：人工神经网络的起源、简单神经网络模型、更多神经网络模型、机器学习的步骤：训练与预测、训练的两阶段：正向推演与反向传播、以TensorFlow + Excel表达训练流程以及AI普及化教育之路。`

发表于 11-05 17:48

如何移植一个CNN神经网络到FPGA中？

训练一个神经网络并移植到Lattice FPGA上，通常需要开发人员既要懂软件又要懂数字电路设计，是个不容易的事。好在FPGA厂商为我们提供了许多工具和IP，我们可以在这些工具和IP的基础上做

发表于 11-26 07:46

什么是LSTM神经网络

简单理解LSTM神经网络

发表于 01-28 07:16

请问怎么设计一种分布式无线测控系统？

怎么设计一种分布式无线测控系统？无线测控网络系统具有哪些优点及应用？

发表于 04-13 06:29

如何实现校园分布式网络测量系统的应用设计？

本文所述测量系统主要是基于校园网络，实现一个具有分布式、可扩展性的网络测量平台。利用各种测量方法和测量工具，测量校园网访问公网和其他校园网络各种相关的网络性能参数。从而获得网络的状态信息，掌握和分析校园网络中各种性能参数，研究校园网多出口环境

发表于 05-06 08:48

怎么实现分布式测试系统的一种网络通信设计

怎么实现分布式测试系统的一种网络通信设计？

发表于 05-08 09:48

如何去设计分布式车身控制系统？

分布式车身控制系统的结构是怎样构成的？分布式车身控制系统有哪些功能？

发表于 05-13 07:03

如何对分布式天线系统(DAS)进行优化？

什么是分布式天线系统？如何对分布式天线系统(DAS)进行优化？

发表于 05-24 06:03

基于光学芯片的神经网络训练解析，不看肯定后悔

基于光学芯片的神经网络训练解析，不看肯定后悔

发表于 06-21 06:33

计及分布式发电的配电网潮流计算精选资料分享

分布式电源的并网对配电系统的稳定性有着重要影响。分析了几种常见的分布式电源(DG)，建立潮流模型，采用前推回代法进行潮流计算。鉴于前推回代法处理PV 节点的能力较弱，对PV 节点进行无功补偿修正

发表于 07-12 07:30

如何构建神经网络？

原文链接：http://tecdat.cn/?p=5725 神经网络是一种基于现有数据创建预测的计算系统。如何构建神经网络？神经网络包括：输入层：根据现有数据获取输入的层隐藏层：使用反向传播优化输入变量权重的层，以提高模型的预测能力输出层：基于输入和隐藏层的数据输出预测

发表于 07-12 08:02

分享一种400×25×2的三层BP神经网络

本文首先简单的选取了少量的样本并进行样本归一化，这样就得到了可供训练的训练集和测试集。然后训练了400×25×2的三层BP神经网络，最后对最初步的模型进行了误差分析并找到了一种效果显著的提升方法！

发表于 07-12 06:49

可分离卷积神经网络在 Cortex-M 处理器上实现关键词识别

有限的内存空间典型的 Cortex-M 系统最多提供几百 KB 的可用内存。这意味着，整个神经网络模型，包括输入/输出、权重和激活，都必须在这个很小的内存范围内运行。2.有限的计算资源由于 KWS 要

发表于 07-26 09:46

利用神经网络来根据RGB判断pH值

正在从事智能假肢的课题，需要用到，这篇给我的实现起到到很好的指导意义，特此转载，也特此感谢作者，利用颜色传感器读取pH试纸的颜色，然后得到他代表的pH值。一开始想拟合出一个关于RGB和pH的函数，但是总是效果不好。于是利用神经网络来根据RGB判断他的pH值。思路是首先利用MATLAB训练...

发表于 08-17 08:19

用S3C2440训练神经网络算法

嵌入式设备自带专用属性，不适合作为随机性很强的人工智能深度学习训练平台。想象用S3C2440训练神经网络算法都会头皮发麻，PC上的I7、GPU上都很吃力，大部分都要依靠服务器来训练。但是一旦算法训练

发表于 08-17 08:51

matlab实现神经网络 精选资料分享

习神经神经网络，对于神经网络的实现是如何一直没有具体实现一下：现看到一个简单的神经网络模型用于训练的输入数据:对应的输出数据:我们这里设置：1：节点个数设置：输入层、隐层、输出层的节点

发表于 08-18 07:25

基于BP神经网络的PID控制

最近在学习电机的智能控制，上周学习了基于单神经元的PID控制，这周研究基于BP神经网络的PID控制。神经网络具有任意非线性表达能力，可以通过对系统性能的学习来实现具有最佳组合的PID控制。利用BP

发表于 09-07 07:43

嵌入式AI平台有哪些？

11.2.2 修剪神经网络 21.2.3 嵌入式终端优化 21.3 GPU 21.4 ARM 31.5 FPGA结构的并行计算 41.5.1 介绍 41.5.2 流水线计算 41.5.3 分布式流水线计...

发表于 10-27 06:45

嵌入式中的人工神经网络的相关资料分享

人工神经网络在AI中具有举足轻重的地位，除了找到最好的神经网络模型和训练数据集之外，人工神经网络的另一个挑战是如何在嵌入式设备上实现它，同时优化性能和功率效率。使用云计算并不总是一个选项，尤其是当

发表于 11-09 08:06

HDC2021技术分论坛：跨端分布式计算技术初探

HarmonyOS跨端分布式计算的整体概念，现在我们来探索一下跨端分布式计算面临的挑战。“跨端分布式计算面临的挑战就是无线不可靠的网络环境”，因为在无线不可靠的网络环境下，跨端分布式计算

发表于 11-15 14:54

轻量化神经网络的相关资料下载

视觉任务中，并取得了巨大成功。然而，由于存储空间和功耗的限制，神经网络模型在嵌入式设备上的存储与计算仍然是一个巨大的挑战。前面几篇介绍了如何在嵌入式AI芯片上部署神经网络：【嵌入式AI开发】篇五|实战篇一：STM32cubeIDE上部署神经网络之pytorch搭

发表于 12-14 07:35

基于深度神经网络的激光雷达物体识别系统

【新技术发布】基于深度神经网络的激光雷达物体识别系统及其嵌入式平台部署激光雷达可以准确地完成三维空间的测量，具有抗干扰能力强、信息丰富等优点，但受限于数据量大、不规则等难点，基于深度神经网络

发表于 12-21 07:59

卷积神经网络一维卷积的处理过程

inference在设备端上做。嵌入式设备的特点是算力不强、memory小。可以通过对神经网络做量化来降load和省memory，但有时可能memory还吃紧，就需要对神经网络在memory使用上做进一步优化

发表于 12-23 06:16

图像预处理和改进神经网络推理的简要介绍

为提升识别准确率，采用改进神经网络，通过Mnist数据集进行训练。整体处理过程分为两步：图像预处理和改进神经网络推理。图像预处理主要根据图像的特征，将数据处理成规范的格式，而改进神经网络推理主要用于输出结果。整个过程分为两个步骤：图像预处理和神经网络推理。需要提前安装Ten

发表于 12-23 08:07

神经网络移植到STM32的方法

将神经网络移植到STM32最近在做的一个项目需要用到网络进行拟合，并且将拟合得到的结果用作控制，就在想能不能直接在单片机上做神经网络计算，这样就可以实时计算，不依赖于上位机。所以要解决的主要是两个

发表于 01-11 06:20

优化神经网络训练方法有哪些？

优化神经网络训练方法有哪些？

发表于 09-06 09:52

基于BP神经网络的分布式传感器网络的可靠性分析

针对分布式传感器中的故障点多、导致估计系统可靠性参数困难的特点, 提出了一种基于BP 三层神经网络的M arkov 可靠性模型。仿真结果表明, 神经网络收敛时的可用度与M arkov 模型计

发表于 07-13 11:21 •18次下载

BP神经网络在配方模拟评估系统中的应用

人工神经网络是一种并行和分布式的信息处理网络，具有对外部环境自适应学习的能力，有很强的容错性和鲁棒性，善于联想、综合和推广，近十几年来在工程技术领域得到广泛

发表于 01-09 14:07 •11次下载

实例分析神经网络给我们带来的变化

、分布式的表示与快速的、经GPU优化的梯度计算结合的思想是非常强大的。初期的神经网络会碰到局部最优的问题，但是训练更深层网络的能力解决了此问题，并使得反向传播大放光彩。在通过简单的架构决策得到少量的专业知识之后，深度学

发表于 10-11 11:38 •0次下载

基于神经网络的分布式电源在PSASP中应用

neural network，ANN）以其强非线性映射能力和自适应自学习能力为此问题的研究提供了有效途径，综述了各种神经网络模型在电力系统负荷建模中的应用，并比较其优劣。对Elman神经网络的反馈支路进行了改进，使之适应分布式电源统一等效建模的需要，提出了一种改进Elman

发表于 02-28 15:20 •5次下载

基于虚拟化的多GPU深度神经网络训练框架

多GPU训练过程中的参数交换的位置，达到两者兼容的目的。该方法利用分布式环境中的远程GPU资源实现深度神经网络的加速训练，且达到单机多GPU和多机多GPU在CUDA编程模式上的统一。以手写数字识别为例，利用通用网络

发表于 03-29 16:45 •0次下载

一种优化的分布式二维卷积算法

，提高卷积计算效率一直是亟需探讨的问题。近年来，很多研究指出分布式计算架枃可以提髙卷积神经网络的计算速度，进而优化深度学习的训练效率，然而由于分布式系统中普遍存在落跑者问题（ straggler），该问题可能会拖慢整个

发表于 04-13 14:33 •1次下载

基于小波神经网络的信息系综合评价系统的训练算法

基于小波神经网络的信息系综合评价系统的训练算法为了对基于小波神经网络的信息系统综合评价系统进行训练，必须确定网络参数Wk ，bk

发表于 02-27 09:36 •594次阅读

卷积神经网络检测脸部关键点的教程之卷积神经网络训练与数据扩充

上一次我们用了单隐层的神经网络，效果还可以改善，这一次就使用CNN。卷积神经网络 上图演示了卷积操作 LeNet-5式的卷积神经网络，是计算机视觉领域近期取得的巨大突破的核心。卷积层和之前的全连接

发表于 11-16 11:45 •1815次阅读

训练神经网络的五大算法

神经网络模型的每一类学习过程通常被归纳为一种训练算法。训练的算法有很多，它们的特点和性能各不相同。问题的抽象人们把神经网络的学习过程转化为求损失函数f的最小值问题。一般来说，损失函数包括误差项和正则

发表于 11-16 15:30 •9183次阅读

神经网络算法原理_神经网络算法的应用_神经网络算法实例说明

神经网络是一种模拟人脑结构的算法模型。其原理就在于将信息分布式存储和并行协同处理。虽然每个单元的功能非常简单，但大量单元构成的网络系统就能实现非常复杂的数据计算，并且还是一个高度复杂的非线性动力学习系统。

发表于 12-05 15:06 •5w次阅读

如何使用硬件的计算能力来获取摄像头采集的视频并采用多个卷积神经网络进行处理

Demo展示了我们如何使用硬件（比如GPU）的计算能力来获取摄像头采集的视频并采用多个卷积神经网络（CNNs）进行处理。经过神经网络算法处理后会在画面中标出每张人脸的位置，并且提供“标识符”指向每张人脸

发表于 04-27 16:10 •2215次阅读

基于 FPGA 客户端的分布式计算网络设计

的分布式计算网络一般用CPU 或 GPU 来计算项目数据。 FPGA 也正被像 COPACOBANA这样的项目所采用，该项目使用 120个赛灵思 FPGA 通过暴力处理来破解DES 加密文件。

发表于 01-12 11:20 •837次阅读

利用SQL查询语句构建隐藏层的神经网络

它在 BigQuery 中运行时，实际上我们正在成百上千台服务器上进行分布式神经网络训练。听上去很赞，对吧？

发表于 05-15 17:48 •781次阅读

基于Numpy实现同态加密神经网络

在分布式AI环境下，同态加密神经网络有助于保护商业公司知识产权和消费者隐私。本文介绍了如何基于Numpy实现同态加密神经网络。

发表于 03-27 14:52 •7076次阅读

fireflyNCC S1--PLAI神经网络量化工具介绍

PLAI是一个基于PyTorch的神经网络量化工具 - 用于将浮点神经网络转换为定点 神经网络实现（给GTI 2801s使用）, 或从头开始训练定点模型。 PLAI使用主机的CPU和GPU进行训练，使用GTI NPU USB Dongle进行推理验证。

发表于 11-18 14:13 •695次阅读

NVIDIA GPU加快深度神经网络训练和推断

深度学习是推动当前人工智能大趋势的关键技术。在 MATLAB 中可以实现深度学习的数据准备、网络设计、训练和部署全流程开发和应用。联合高性能 NVIDIA GPU 加快深度神经网络训练和推断。

发表于 02-18 13:31 •1281次阅读