您当前的位置:钢材 > 型钢 > 市场分析

树莓派模型训练,树莓派模型部署

来源:头条 作者: chanong
分享到
关注德勤钢铁网在线:
  • 扫描二维码

    关注√

    德勤钢铁网微信

在线咨询:
  • 扫描或点击关注德勤钢铁网在线客服

本文翻译自Alasdair Allan 的Benchmarking Machine Learning on the New Raspberry Pi 4, Part I — Benchmark of Model B。我们旨在帮助更多的中国读者快速了解AI模型在Raspberry Pi上的性能测试结果。四。

大家应该感兴趣的是,Model B 的AI 模型的计算性能比之前的硬件快了多少。答案是:“确实快多了。”

Raspberry Pi 3(蓝色,左)和Raspberry Pi 4(绿色,右)的推理时间(毫秒)

上个月,科技博主Alasdair Allan 将一些流行的Edge 硬件与上一代Raspberry Pi 进行了比较。评估发现算力比预期慢很多。根据社区的修复,这不是硬件本身的问题,而是软件选择错误造成的。没有使用Tensorflow Lite,而使用了速度较慢的Tensorflow,因此计算时间有明显的差异。

Xnor.ai 最近发布的AI2GO 使用了新一代的Binary Weight 模型,因此作者Allan 也添加了这个模型进行比较,并且这些新一代模型肯定我们发现它比传统的“TensorFlow”要快得多。

但计划跟不上变化,在新款Raspberry Pi 4B 发布的同时,Alasdair Allan 决定进行一次性能测试,看看新款Raspberry Pi 4 与上一代相比到底快了多少。再次运行它。结果正如预期的那样,新的速度确实很快。

总体而言,新的Raspberry Pi 4 比上一代Raspberry Pi 3 快得多。

无论是原来的TensorFlow还是Xnor AI2GO平台的推理计算基准测试,性能提升约为2倍。

以上/这些是MobileNet v1 SSD 0.75 深度模型和MobileNet v2 SSD 模型的基准测试结果(以毫秒为单位)。两者均使用COCO 数据集进行训练,输入图像大小为300300,在Raspberry Pi 3B+(左)和新的Raspberry Pi 4B(右)上运行

更有趣的是,谷歌Coral USB AI 加速器的基准测试显示出显着的改进。这与Raspberry Pi 4上新的USB 3.0有关,与连接USB 2.03相比,它提高了整体计算性能。次。

相反,当相同的Coral USB AI 加速器连接到USB 2 而不是USB 3 时,在相同硬件和相同型号的比较基准中,整体计算性能比Raspberry Pi 3 慢2 倍。 Alan对这个结果有点惊讶,因为改进系统架构可以改变整个计算。

Raspberry Pi 基金会创始人Eben Upton 在评论性能测试结果时表示:“这展示了NEON 计算性能的提升以及采用USB 3.0 带来的好处。USB 设计的初衷是我已经改变了“它确实是为了让用户连接更大的存储设备,但看看这种设计在其他应用程序中如何改进将会很有趣。我想。”

更详细的性能测试分析

Raspberry Pi 3 测试基于TensorFlow 和Tensorflow Lite,并在Model B+ 上运行。 Raspberry Pi 4 性能测试采用相同的软件配置,硬件为具有4GB RAM 的Model B。

推理模型使用MobileNet v2 SSD 和MobileNet v1 0.75 深度SSD 运行,两者均在COCO 数据集上进行训练。

上述测试配置也应用于新的Coral USB AI加速器,以比较USB 2.0和USB 3.0之间的差异。

补货:

原始性能测试,比较Coral 开发板、NVIDIA Jetson Nano、Raspberry Pi 3B+ 和Coral USB 加速器、RPi 3B+ 和第一代英特尔Movidus 神经计算棒、RPi 3B+ 和第二代英特尔神经计算棒以及作者自己的Apple MacBook Pro (四核2.9 GHz Intel Core i7)于2016 年制造,标配不带加速的RPi 3B+。

Xnor.ai AI2GO 平台的性能测试使用厨房物体检测模型。该模型是二值权重模型,训练数据集不公开,但Xnor.ai提供了技术文档供用户参考。

用于测试的原始图像是一张3888 x 2916 像素的照片,其中包含香蕉和苹果。作者将图像大小调整为300300像素,运行推理模型10,000次,最终获得平均推理时间。

TensorFlow 模型会在您第一次使用时预加载,因此第一次推理运行的时间不包含在平均值中。

Top/MobileNet v1 SSD深度0.75模型和MobileNet v2 SSD模型在COCO数据集上训练,模型输入大小为300300。

温馨提示:

在测试过程中,作者必须将RPi 上的Raspbian 系统从Stretch 更新为Buster,才能运行TensorFlow、AI2GO 和Coral USB AI 加速器。这意味着安装的Python版本将从Python 3.5升级到3.7。

此更改可能会阻止TensorFlow Lite、Movidus 神经计算棒或英特尔神经计算棒2 运行。 TensorFlow Lite 问题可能很容易解决,但如果使用Intel OpenVINO 框架,从Python 3.5 迁移到3.7 将需要很长时间,并且可能会导致Raspberry Pi 错误。短时间内,Pi 4 可能无法再与Raspberry Pi 4 配合使用。由英特尔神经计算棒使用。

一般来说,如果您的模型在CPU 上运行,您可以在新的Raspberry Pi 上实现至少2 倍的性能提升。

与Raspberry Pi 3 相比,RPi 4 的NEON 容量大约是Raspberry Pi 3 的两倍。基于良好实现的NEON 核心并解决了温度控制和频率调制问题,MobileNet v1 模型和Xnor.ai AI2GO 框架的运行速度提升了2 倍,符合预期。

AI2GO 平台上的二进制权重模型在未加速的Raspberry Pi 4 上达到了79.5 毫秒的推理时间。性能与2016 款MacBook Pro 相当(运行MobileNet v2 SSD 推理时为71 毫秒)。

但相比之下,MobileNet V2 模型的性能提升要小得多,这表明v2 模型在TensorFlow 上运行时,在优化某些操作方面仍有改进的空间。

顶部/MobileNet v1 SSD 深度0.75 模型(左)和MobileNet v2 SSD 模型(右)的推理时间(毫秒)。两者均使用COCO 数据集进行训练,模型输入大小为300 300。 Xnor AI2GO 平台使用专有的二进制加权模型。 Raspberry Pi 3B+ 的所有测试结果均为黄色,Raspberry Pi 4B 的所有测试结果均为红色。其他平台都是绿色的。

由于升级到Python 3.7时Wheel包出现一些问题,Allan估计RPi4的性能大约是RPi3的两倍。

对于想要使用Raspberry Pi 4 进行推理的用户来说,最大的好处也许是与在Raspberry Pi 3 上运行相比,Coral USB AI 加速器的性能提高了3 倍。

Top/Coral USB AI 加速器使用MobileNet v1 SSD 0.75 深度模型和MobileNet v2 SSD 模型的性能测试结果(毫秒)。两者均在Raspberry Pi 3B+(左)、Raspberry Pi 4B USB 3.0(中)和USB 2(右)上使用COCO 数据集进行训练。

测试结果显示,MobileNet V1 0.75 SSD 模型的运行时间从49.3 ms 降至14.9 ms,MobileNet V2 SSD 模型的运行时间也从58.1 ms 降至18.2 ms。换句话说,Raspberry Pi 4B 和Coral USB AI Accelerator(带USB 3.0)的整体推理时间低于Coral 开发板(15.7 ms 和20.9 ms)。

但奇怪的是,当Coral USB AI 加速器通过USB 2.0 而不是USB 3.0 连接时,推理时间比Coral 开发板慢两倍。这是因为XHCI 主机位于PCIe 的远端。由于巴士的原因,延误时间可能会很长。使用传输通道时,阻塞模式比流模式慢。

补货:

作者使用了4GB RPi 4B,但如果将其替换为具有1GB 或2GB RAM 和Coral 开发板的Raspberry Pi 4 主板,您可以期待类似或类似的性能测试结果。

环境因素虽然推理速度可能是运行边缘AI的设备质量的最重要标准,但散热和能耗仍然需要同时考虑。各种因素之间的权衡。

使用通过USB 电缆连接的万用表进行电流消耗测量,精度为0.01 A (10 mA)。电流消耗的空闲值和峰值分别代表能耗测试之前和过程中。通过USB 连接的加速器的所有测量均基于Raspberry Pi 3B+。

除MacBook Pro 之外的所有平台均使用标准5V 输入电源。但实际上,电压会因电路板要求而有所不同,大多数USB电压实际上落在+5.1至+5.2V左右。因此,作者选择+5.15V作为以瓦为单位的功率计算标准。

Raspberry Pi 的能耗可能会波动,尤其是在使用外围设备时。因此,很多手机充电器无法通过micro USB提供稳定的电流。这就是Raspberry Pi 从micro USB 切换到标准USB-C 的原因之一。

峰值电流(黄色,右)和空闲电流(绿色,左)的比较

在之前的性能测试中,Raspberry Pi 3B+ 比较耗电,仅在功耗方面输给了NVIDIA Jetson Nano。新的测量结果显示,Raspberry Pi 4 的功耗是所有边缘AI 平台中最高的,峰值时需要超过1,400mA。空闲时的能耗也最高,高于Coral 开发板所需的功率。

加热和冷却在之前的测试中,Raspberry Pi 的温度接近但没有超过80C(如果超过,CPU 会自动进行热节流)。

当我第一次运行AI2GO性能测试时,推理时间为90.9ms,比我预期的要长得多。但在测试过程中,我们发现温度远高于温控调频阈值。

当我在Raspberry Pi自带的GPIO上加一个小风扇时,CPU温度保持在45摄氏度。

一个小风扇足以保持CPU温度稳定

CPU温度稳定后,推理时间从90.9ms下降到79.5ms,更接近预期结果。

Raspberry Pi 在测试过程中需要主动冷却,因此作者建议如果用于长期推理,至少添加一个被动散热器。如果你想避免CPU温度控制的限制,你可能需要安装一个小风扇。

综上所述,新款Raspberry Pi 4带来的性能提升使其成为极具竞争力的机器学**推理平台。通过性能测试,我们发现使用AI2GO 平台在RPi 4B 上进行二进制权重模型的推理时间与针对NVIDIA Jetson Nano 和TensorRT 优化的TensorFlow 模型的推理时间相当。随着USB 3.0的加入,Raspberry Pi不仅在计算性能方面具有竞争力,而且在价格上也与同类最佳的Google Coral开发板相比具有竞争力。

35 美元的Raspberry Pi 4 1GB 版本比149 美元的Coral 开发板便宜得多。价格为74.99 美元的Coral USB AI 加速器和Raspberry Pi 4 的性能优于以前的“同类最佳”开发板,价格为109.99 美元。它不仅比Coral 开发板性能更好,而且还能为您节省39.01 美元。

编辑:AI智慧

责任编辑:德勤钢铁网 标签:

热门搜索

相关文章

广告
德勤钢铁网 |市场分析

树莓派模型训练,树莓派模型部署

chanong

|

本文翻译自Alasdair Allan 的Benchmarking Machine Learning on the New Raspberry Pi 4, Part I — Benchmark of Model B。我们旨在帮助更多的中国读者快速了解AI模型在Raspberry Pi上的性能测试结果。四。

大家应该感兴趣的是,Model B 的AI 模型的计算性能比之前的硬件快了多少。答案是:“确实快多了。”

Raspberry Pi 3(蓝色,左)和Raspberry Pi 4(绿色,右)的推理时间(毫秒)

上个月,科技博主Alasdair Allan 将一些流行的Edge 硬件与上一代Raspberry Pi 进行了比较。评估发现算力比预期慢很多。根据社区的修复,这不是硬件本身的问题,而是软件选择错误造成的。没有使用Tensorflow Lite,而使用了速度较慢的Tensorflow,因此计算时间有明显的差异。

Xnor.ai 最近发布的AI2GO 使用了新一代的Binary Weight 模型,因此作者Allan 也添加了这个模型进行比较,并且这些新一代模型肯定我们发现它比传统的“TensorFlow”要快得多。

但计划跟不上变化,在新款Raspberry Pi 4B 发布的同时,Alasdair Allan 决定进行一次性能测试,看看新款Raspberry Pi 4 与上一代相比到底快了多少。再次运行它。结果正如预期的那样,新的速度确实很快。

总体而言,新的Raspberry Pi 4 比上一代Raspberry Pi 3 快得多。

无论是原来的TensorFlow还是Xnor AI2GO平台的推理计算基准测试,性能提升约为2倍。

以上/这些是MobileNet v1 SSD 0.75 深度模型和MobileNet v2 SSD 模型的基准测试结果(以毫秒为单位)。两者均使用COCO 数据集进行训练,输入图像大小为300300,在Raspberry Pi 3B+(左)和新的Raspberry Pi 4B(右)上运行

更有趣的是,谷歌Coral USB AI 加速器的基准测试显示出显着的改进。这与Raspberry Pi 4上新的USB 3.0有关,与连接USB 2.03相比,它提高了整体计算性能。次。

相反,当相同的Coral USB AI 加速器连接到USB 2 而不是USB 3 时,在相同硬件和相同型号的比较基准中,整体计算性能比Raspberry Pi 3 慢2 倍。 Alan对这个结果有点惊讶,因为改进系统架构可以改变整个计算。

Raspberry Pi 基金会创始人Eben Upton 在评论性能测试结果时表示:“这展示了NEON 计算性能的提升以及采用USB 3.0 带来的好处。USB 设计的初衷是我已经改变了“它确实是为了让用户连接更大的存储设备,但看看这种设计在其他应用程序中如何改进将会很有趣。我想。”

更详细的性能测试分析

Raspberry Pi 3 测试基于TensorFlow 和Tensorflow Lite,并在Model B+ 上运行。 Raspberry Pi 4 性能测试采用相同的软件配置,硬件为具有4GB RAM 的Model B。

推理模型使用MobileNet v2 SSD 和MobileNet v1 0.75 深度SSD 运行,两者均在COCO 数据集上进行训练。

上述测试配置也应用于新的Coral USB AI加速器,以比较USB 2.0和USB 3.0之间的差异。

补货:

原始性能测试,比较Coral 开发板、NVIDIA Jetson Nano、Raspberry Pi 3B+ 和Coral USB 加速器、RPi 3B+ 和第一代英特尔Movidus 神经计算棒、RPi 3B+ 和第二代英特尔神经计算棒以及作者自己的Apple MacBook Pro (四核2.9 GHz Intel Core i7)于2016 年制造,标配不带加速的RPi 3B+。

Xnor.ai AI2GO 平台的性能测试使用厨房物体检测模型。该模型是二值权重模型,训练数据集不公开,但Xnor.ai提供了技术文档供用户参考。

用于测试的原始图像是一张3888 x 2916 像素的照片,其中包含香蕉和苹果。作者将图像大小调整为300300像素,运行推理模型10,000次,最终获得平均推理时间。

TensorFlow 模型会在您第一次使用时预加载,因此第一次推理运行的时间不包含在平均值中。

Top/MobileNet v1 SSD深度0.75模型和MobileNet v2 SSD模型在COCO数据集上训练,模型输入大小为300300。

温馨提示:

在测试过程中,作者必须将RPi 上的Raspbian 系统从Stretch 更新为Buster,才能运行TensorFlow、AI2GO 和Coral USB AI 加速器。这意味着安装的Python版本将从Python 3.5升级到3.7。

此更改可能会阻止TensorFlow Lite、Movidus 神经计算棒或英特尔神经计算棒2 运行。 TensorFlow Lite 问题可能很容易解决,但如果使用Intel OpenVINO 框架,从Python 3.5 迁移到3.7 将需要很长时间,并且可能会导致Raspberry Pi 错误。短时间内,Pi 4 可能无法再与Raspberry Pi 4 配合使用。由英特尔神经计算棒使用。

一般来说,如果您的模型在CPU 上运行,您可以在新的Raspberry Pi 上实现至少2 倍的性能提升。

与Raspberry Pi 3 相比,RPi 4 的NEON 容量大约是Raspberry Pi 3 的两倍。基于良好实现的NEON 核心并解决了温度控制和频率调制问题,MobileNet v1 模型和Xnor.ai AI2GO 框架的运行速度提升了2 倍,符合预期。

AI2GO 平台上的二进制权重模型在未加速的Raspberry Pi 4 上达到了79.5 毫秒的推理时间。性能与2016 款MacBook Pro 相当(运行MobileNet v2 SSD 推理时为71 毫秒)。

但相比之下,MobileNet V2 模型的性能提升要小得多,这表明v2 模型在TensorFlow 上运行时,在优化某些操作方面仍有改进的空间。

顶部/MobileNet v1 SSD 深度0.75 模型(左)和MobileNet v2 SSD 模型(右)的推理时间(毫秒)。两者均使用COCO 数据集进行训练,模型输入大小为300 300。 Xnor AI2GO 平台使用专有的二进制加权模型。 Raspberry Pi 3B+ 的所有测试结果均为黄色,Raspberry Pi 4B 的所有测试结果均为红色。其他平台都是绿色的。

由于升级到Python 3.7时Wheel包出现一些问题,Allan估计RPi4的性能大约是RPi3的两倍。

对于想要使用Raspberry Pi 4 进行推理的用户来说,最大的好处也许是与在Raspberry Pi 3 上运行相比,Coral USB AI 加速器的性能提高了3 倍。

Top/Coral USB AI 加速器使用MobileNet v1 SSD 0.75 深度模型和MobileNet v2 SSD 模型的性能测试结果(毫秒)。两者均在Raspberry Pi 3B+(左)、Raspberry Pi 4B USB 3.0(中)和USB 2(右)上使用COCO 数据集进行训练。

测试结果显示,MobileNet V1 0.75 SSD 模型的运行时间从49.3 ms 降至14.9 ms,MobileNet V2 SSD 模型的运行时间也从58.1 ms 降至18.2 ms。换句话说,Raspberry Pi 4B 和Coral USB AI Accelerator(带USB 3.0)的整体推理时间低于Coral 开发板(15.7 ms 和20.9 ms)。

但奇怪的是,当Coral USB AI 加速器通过USB 2.0 而不是USB 3.0 连接时,推理时间比Coral 开发板慢两倍。这是因为XHCI 主机位于PCIe 的远端。由于巴士的原因,延误时间可能会很长。使用传输通道时,阻塞模式比流模式慢。

补货:

作者使用了4GB RPi 4B,但如果将其替换为具有1GB 或2GB RAM 和Coral 开发板的Raspberry Pi 4 主板,您可以期待类似或类似的性能测试结果。

环境因素虽然推理速度可能是运行边缘AI的设备质量的最重要标准,但散热和能耗仍然需要同时考虑。各种因素之间的权衡。

使用通过USB 电缆连接的万用表进行电流消耗测量,精度为0.01 A (10 mA)。电流消耗的空闲值和峰值分别代表能耗测试之前和过程中。通过USB 连接的加速器的所有测量均基于Raspberry Pi 3B+。

除MacBook Pro 之外的所有平台均使用标准5V 输入电源。但实际上,电压会因电路板要求而有所不同,大多数USB电压实际上落在+5.1至+5.2V左右。因此,作者选择+5.15V作为以瓦为单位的功率计算标准。

Raspberry Pi 的能耗可能会波动,尤其是在使用外围设备时。因此,很多手机充电器无法通过micro USB提供稳定的电流。这就是Raspberry Pi 从micro USB 切换到标准USB-C 的原因之一。

峰值电流(黄色,右)和空闲电流(绿色,左)的比较

在之前的性能测试中,Raspberry Pi 3B+ 比较耗电,仅在功耗方面输给了NVIDIA Jetson Nano。新的测量结果显示,Raspberry Pi 4 的功耗是所有边缘AI 平台中最高的,峰值时需要超过1,400mA。空闲时的能耗也最高,高于Coral 开发板所需的功率。

加热和冷却在之前的测试中,Raspberry Pi 的温度接近但没有超过80C(如果超过,CPU 会自动进行热节流)。

当我第一次运行AI2GO性能测试时,推理时间为90.9ms,比我预期的要长得多。但在测试过程中,我们发现温度远高于温控调频阈值。

当我在Raspberry Pi自带的GPIO上加一个小风扇时,CPU温度保持在45摄氏度。

一个小风扇足以保持CPU温度稳定

CPU温度稳定后,推理时间从90.9ms下降到79.5ms,更接近预期结果。

Raspberry Pi 在测试过程中需要主动冷却,因此作者建议如果用于长期推理,至少添加一个被动散热器。如果你想避免CPU温度控制的限制,你可能需要安装一个小风扇。

综上所述,新款Raspberry Pi 4带来的性能提升使其成为极具竞争力的机器学**推理平台。通过性能测试,我们发现使用AI2GO 平台在RPi 4B 上进行二进制权重模型的推理时间与针对NVIDIA Jetson Nano 和TensorRT 优化的TensorFlow 模型的推理时间相当。随着USB 3.0的加入,Raspberry Pi不仅在计算性能方面具有竞争力,而且在价格上也与同类最佳的Google Coral开发板相比具有竞争力。

35 美元的Raspberry Pi 4 1GB 版本比149 美元的Coral 开发板便宜得多。价格为74.99 美元的Coral USB AI 加速器和Raspberry Pi 4 的性能优于以前的“同类最佳”开发板,价格为109.99 美元。它不仅比Coral 开发板性能更好,而且还能为您节省39.01 美元。

编辑:AI智慧


市场分析