加入收藏 | 设为首页 | 会员中心 | 我要投稿 广安站长网 (https://www.0826zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

前缀,后缀,中缀表达式转化求值问题

发布时间:2021-02-01 15:04:15 所属栏目:外闻 来源:互联网
导读:最重要的参数 针对不同深度学习架构,GPU参数的选择优先级是不一样的,总体来说分两条路线: 卷积网络和Transformer:张量核心FLOPs(每秒浮点运算次数)显存带宽16位浮点计算能力 循环神经网络:显存带宽16位浮点计算能力张量核心FLOPs 这个排序背后有一套

最重要的参数

针对不同深度学习架构,GPU参数的选择优先级是不一样的,总体来说分两条路线:

卷积网络和Transformer:张量核心>FLOPs(每秒浮点运算次数)>显存带宽>16位浮点计算能力

循环神经网络:显存带宽>16位浮点计算能力>张量核心>FLOPs

这个排序背后有一套逻辑,下面将详细解释一下。

在说清楚哪个GPU参数对速度尤为重要之前,先看看两个最重要的张量运算:矩阵乘法和卷积。

举个栗子🌰,以运算矩阵乘法A×B=C为例,将A、B复制到显存上比直接计算A×B更耗费资源。也就是说,如果你想用LSTM等处理大量小型矩阵乘法的循环神经网络,显存带宽是GPU最重要的属性。

矩阵乘法越小,内存带宽就越重要。

相反,卷积运算受计算速度的约束比较大。因此,要衡量GPU运行ResNets等卷积架构的性能,最佳指标就是FLOPs。张量核心可以明显增加FLOPs。

Transformer中用到的大型矩阵乘法介于卷积运算和RNN的小型矩阵乘法之间,16位存储、张量核心和TFLOPs都对大型矩阵乘法有好处,但它仍需要较大的显存带宽。

需要特别注意,如果想借助张量核心的优势,一定要用16位的数据和权重,避免使用RTX显卡进行32位运算!

下面Tim总结了一张GPU和TPU的标准性能数据,值越高代表性能越好。RTX系列假定用了16位计算,Word RNN数值是指长度<100的段序列的biLSTM性能。

这项基准测试是用PyTorch 1.0.1和CUDA 10完成的。
 

2018年,麻省理工学院和微软公司共同发布的一项研究论文发现,大型科技公司出售的面部识别系统在识别肤色较深的人时遭受的错误率明显更高,这一问题归因于训练数据集主要由白人组成。

一年后的另一项研究强调,亚马逊的Rekognition面部识别系统在识别肤色较深的人的性别方面存在问题。

自从这项研究报告发布以来,许多大型科技公司暂时停止了向警察部门提供面部识别系统。

2018年,亚马逊公司废弃了一款机器学习招聘工具,该工具将男性求职者视为首选,这是培训数据差异化导致结果扭曲的另一个例子。如今,正在进行研究以抵消自学系统中的偏见。

(7) 人工智能与全球变暖

随着机器学习模型和用于训练它们的数据集的规模不断扩大,塑造和运行这些模型的庞大计算集群的碳足迹也在增长。世界经济论坛在2018年发表了一篇论文,主题是数据中心供电和制冷设备对环境的影响。2019年的一项估计是,机器学习系统所需的电力每3.4个月翻一番。

最近,通过发布语言预测模型GPT-3(一个拥有约1,750亿个参数的庞大的神经网络),人们开始关注训练强大的机器学习模型所需的大量能源问题。

(编辑:广安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读