吉利“K车型”官图发布,搭载混动系统
05-27
【报道】马斯克在推特上宣布,特斯拉“AI日”将于8月19日揭幕,介绍特斯拉人工智能领域的软硬件进展,特别是在神经网络的训练和预测推理。
就像2019年的“自主日”和2018年的“电池日”一样,预计整个“AI日”发布会将涉及大量软硬件技术细节,向外界“秀肌肉”。
神秘的 Dojo 计算机芯片参加“AI Day”会议的邀请函中包含一张夸张的芯片图片。
推测该芯片采用了非常规的封装形式。
第一、五层铜结构为水冷散热模块;红色圈出的第二层结构由总共25个芯片组成5x5阵列;第三层是阵列25核心的BGA封装基板;第四层和第七层应该只是物理承重结构,具有一定的导热性能;蓝色圈出的第六层应该是电源模块,上面的竖黑条可能是为了散热。
与芯片进行高速通信的互连模块;从第二层结构的圆角和25芯片结构来看,与Cerebras的WSE超大型处理器非常相似。
特斯拉可能采用了台积电(TSMC)的InFO-SoW(集成扇出系统)设计。
所谓InFo-SoW设计,简单来说就是将一块原始晶圆(Wafer)“切割”成许多芯片,从而制作出许多CPU/GPU等类型的芯片(根据设计,芯片类型是在光刻时确定的) 。
另一方面,InFo-SoW 的所有芯片都来自同一晶圆。
不进行切割,而是直接将整个晶圆制作成非常大的芯片,实现晶圆上系统设计。
这样做有三个好处:极低的通信延迟、大的通信带宽和提高的能源效率。
由于C2C(芯片到芯片)之间的物理距离极短,并且通信结构可以直接布置在晶圆上,因此所有内核可以使用统一的2D网状结构互连,实现C2C通信的超低延迟。
和高带宽;由于结构上的优势,实现了较低的PDN阻抗,提高了能源效率。
此外,由于阵列是由多个小芯片组成,因此可以采用冗余设计来避免“良率”问题,实现chiplet处理的灵活性。
特斯拉前段时间宣布的超级计算机总共使用了 Nvida A80GB GPU。
这些芯片之间,需要大量的物理结构连接来实现通信。
这不仅消耗大量成本,而且由于连接结构的带宽限制而成为“问题”。
“木桶有短板”,导致整体效率较低,分散散热问题巨大。
这里我们以Cerabraas的WSE-2作为参考对比。
芯片核心数是Nvdia A的2倍,芯片缓存是1倍,缓存带宽是3倍,Fabric结构带宽是3倍。
这个级别的性能怪物的主要目的是用于AI数据处理和训练。
其第一代芯片WSE已经被众多重量级用户使用,如阿贡国家实验室、劳伦斯利弗莫尔国家实验室、匹兹堡超级计算中心、爱丁堡大学超级计算中心、葛兰素史克、东京电子器件等。
Kim Branson,高级副总裁全球制药巨头葛兰素史克对WSE的卓越表现表示赞赏,将训练时间缩短至之前的1/80。
在美国最大的科学与工程研究实验室阿贡国家实验室,WSE芯片被用于癌症研究,将癌症模型的实验周转时间缩短至1/更少。
因此,不难推断,“AI Day”邀请函上贴出的图片应该是马斯克所谓的Dojo超级计算机的自研芯片。
有趣的是,发布会是在2018年8月19日举行的。
就在一年前的8月19日,马斯克发推文称:“Dojo V1.0还没有完成,估计还需要一年时间。
”时间。
不仅芯片本身的研发难度很大,能效和散热问题也很困难。
“散热问题之所以困难,是因为按照标准晶圆尺寸,特斯拉的Dojo芯片设计比较单一。
该芯片应该和RTX类似。
每个芯片至少有大约100-1亿个晶体管。
单颗芯片功耗可达w左右,整体功耗约为w-w;而台积电也曾表示,InFo-SoW设计的最大功耗约为w,这也印证了这一点。
几个月后,他补充道:“Dojo 使用我们自主研发的芯片和针对神经网络训练优化的计算架构,而不是 GPU 集群。
虽然可能不准确,但我认为 Dojo 将是世界上最受欢迎的。
”一台很棒的超级计算机。
”而且,马斯克在Q1财报中还表示:Dojo是一台针对神经网络训练而优化的超级计算机。
我们相信Dojo在视频数据处理速度方面将是世界上最高效的。
”其实马斯克早在2018年的“自治日”就提到了Dojo,称Dojo是一台超级计算机,可以利用海量视频(级别)数据做“无监督”的标注和训练。
而如果你仔细了解“自治日” “元旦期间”的发布会,你会发现特斯拉推出Dojo超算和自研芯片是必然的、有计划的,是特斯拉不得不做的事情。
为什么要做道场?事实上,马斯克曾在推特上回复过这个问题:“只有解决现实世界的人工智能问题,才能解决自动驾驶问题……除非我们拥有强大的人工智能能力和超强的计算能力,否则没有办法……自动驾驶业内人士都清楚,无数的边缘场景只能通过现实世界的视觉AI来解决,因为整个世界的道路都是按照人类认知建造的……一旦拥有了解决上述问题的AI芯片问题,剩下的就只能算是锦上添花了。
“马斯克已经明确表示,自动驾驶目前需要解决的最核心、最难的问题是‘感知’。
换言之,系统感知周围驾驶环境的能力越强,自动驾驶能力就越强。
”整体驾驶能力更强;也就是从这里开始,行业分为两大流派,一是以特斯拉和Mobileye为首的纯视觉方案(也有激光雷达方案);二是其他相关公司都在尝试。
他们最好可能会添加更多的传感器融合解决方案,这里我们不会讨论哪条路径是正确的,因为将来我们很可能会取得相同的结果,但无论走哪条路径,都需要深度学习。
海量的数据,也就是神经网络的训练,来实现所谓的完全自动驾驶,而这个道理很简单,自动驾驶的问题可以理解为应对各种驾驶场景。
以及可能遇到的操作,所以这基本上是“无限”的;如果编程方法有限,永远无法解决所有可能的情况。
遇到的问题,或者说人的能力无法涵盖这么多变化的情况。
早期的各种自动驾驶系统除了以这种“僵化”的方式开发软件之外,别无他法。
因此,它们的能力非常有限,只能应对相对稳定和限制性的场景。
而想要实现各类场景的识别,那么这个“软件”就需要不断地适应和“进化”自己。
这就是使用神经网络进行深度学习的原因。
神经网络可以简单理解为通过“仿生学”模拟人类大脑皮层神经元的“交流和学习”来处理数据,用来实现“类人”的学习方式。
然而,想法很美好,现实却很残酷。
2000 年,Warren McCulloch 和 Walter Pitts 撰写了一篇关于人工神经网络如何工作的论文,并使用电路构建了一个简单的模型。
后来经过很多人的努力和研发,直到2000年,斯坦福大学的Bernard Widrow和Marcian Hoff才创建了第一套用于解决实际问题的人工神经网络。
2007年,多位专家在达特茅斯夏季会议上提出了人工智能的定义,极大地推动了人工智能和人工神经网络的发展,被广泛认为是人工智能元年。
当时,人们信心十足,认为用不到20年的时间,就可以建立一个与人脑几乎相同的AI系统。
结果在不断的研究中发现深度神经网络的算法过于复杂,无从下手。
因此,原来的“大而全”的目标形式被抛弃,转向执行单一目标的方向。
除了对人脑的非常肤浅的认识、人工神经网络架构的限制和软件算法的限制之外,还有计算能力的问题,这受到半导体行业发展的限制。
不同的处理器芯片具有不同的功能。
比如CPU更通用计算,可以理解为总司令,负责逻辑上更线性的计算和判断; GPU是专门用于图像处理的芯片,能够吞吐大量数据,同时进行矩阵计算。
另外,它已经是成熟的量产产品,因此被广泛应用于AI学习中。
NPU(NeuralProcessingUnit,神经网络处理器)从设计层面专门针对神经网络学习进行了优化。
谷歌的TPU和特斯拉的FSD芯片都属于NPU系列。
这种类型的芯片抛弃了与 GPU 类似的功能。
神经网络中不需要的功能仅服务于神经网络所需的数据处理形式,其速度和能源效率要高得多。
不过,还需要区分ASIC(Application Specific Integrated Circuit,专用集成电路)芯片和FPGA(Field Programmable Gate Array,可编程逻辑门阵列)芯片。
ASIC芯片生产出来后,其运行逻辑和功能就固定下来了。
它无法修改。
它是为特定任务(软件)而设计的,并且非常节能。
另一方面,FPGA可以通过软件改变其操作逻辑。
它是半定制芯片,可以通过软件修改,适合训练和优化。
能源效率低于ASIC芯片。
TPU和FSD都是ASIC芯片,而特斯拉此次发布的Dojo芯片就属于FPGA系列。
回顾过去,市场上既没有满足需求的板载芯片,也没有满足更好地利用这些数据需求的超级计算机。
特斯拉想要实现这一切,当时就必须自己做软件和硬件。
2016年特斯拉建立FSD芯片项目时,谷歌独家AI芯片TPU刚刚问世,车载AI芯片几乎没有可用的。
因此,FSD和Dojo的立项时间很可能不会相差太远。
但由于能耗和需求问题,Dojo等到7nm技术相对成熟后才开始逐步推进。
从另一个维度理解Dojo的必然性就是从神经网络学习的计算量级来理解它。
在2019年的“自主日”发布会上,特斯拉其实明确表示要去掉雷达,走向纯视觉,直接处理视频级数据。
举个简单的例子,对于p的图像,在最简单的神经网络结构下,如果不使用激活函数(tanh、ReLU)进行数据“优化”,计算复杂度将约为4万亿倍;即使使用激活函数优化的卷积神经网络处理也将需要超过 1.3 亿次计算;而如果以视频的形式处理的话,按每秒24帧计算,就有24张图像。
总的计算量是惊人的。
值得注意的是,自动驾驶收集的数据中约95%是无效数据,对于神经网络训练完全无用。
简单来说,如果你每天都做几乎同样的论文,你不会获得任何进步。
因此,即使特斯拉的车辆只是在特定的触发条件下收集一些数据,获得的数据量仍然非常大。
需要像Dojo这样针对特斯拉自己的软件进行优化的定制超级计算机才能大幅提高效率。
此外,“无监督训练”也是Dojo的另一个核心目的,用于大幅提升训练效率。
在神经网络训练中,实际上有大量的研究人员是“参数调节者”。
简单的理解就是通过不断调整“权重”,或者通过人工标注各种“正确答案”,让神经网络判断越来越准确,让它学习。
这会导致“人”成为效率上的短板,导致整个过程的训练速度大幅降低。
而如果实现“无监督训练”,即系统通过海量数据和之前的“学习”结果自动标记和调整自己,那么其效率将在量子层面得到提升。
举个简单的例子,相信很多人都知道谷歌的Alpha Go战胜了世界围棋大师。
这也是人工智能在特定领域战胜人类的标志性事件。
作为对比,Alpha Go 经过几年的人工调整和标注训练结果,击败了全球高手。
以无监督训练为例,Alpha Zero 通过与自己对战,仅用了三天时间就击败了 Alpha Go Lee,用了 21 天达到了 Alpha Master 的水平,并用了 40 天超越了所有旧版本。
综上所述,如果特斯拉完成Dojo的创建,将能够以惊人的效率利用海量数据进行训练,解决各种“边缘场景”问题,加速自动驾驶系统的成熟和完善;更重要的是,特斯拉的软硬件垂直整合度非常高。
不仅不受制于人,还可以将其作为一种服务,向外界提供深度学习训练服务。
马斯克曾表示,一旦Dojo相对完善,Dojo将作为一项服务开放,对外提供训练服务,Dojo几乎可以承担所有机器学习任务。
这就是为什么马斯克敢说特斯拉将是未来最大的人工智能公司之一。
还会有一件事吗?不出所料,特斯拉“AI Day”将以Dojo芯片为最重要内容介绍软硬件;当然,也会涵盖FSD Beta相关的进展,但从目前的信息来看,还是很有可能推出基于7nm技术的新HW4.0硬件。
毕竟在2018年“自主日”期间,马斯克曾表示HW4.0的研发已经进行了一半,所以这次发布会很可能会借此机会发布新的车载芯片硬件。
总之,本次特斯拉“AI Day”发布会很可能再次掀起汽车行业乃至AI领域的浪潮。
至于是否还会有更多惊喜,我们就拭目以待那一天吧。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
05-27
05-18
05-17
05-17
05-18
05-27
05-16
最新文章
工信部将继续支持新能源汽车,两个机会不容错过
续航300公里的比亚迪秦EV电动版或将于3月上市
中国汽车工业协会数据!前11个月自主品牌出口下降9.3%
蜂巢能源常州工厂一期工程已投产,探路者车规级AI动力电池工厂
奥迪首款量产纯电动SUV e-tron正式亮相,续航400公里,明年进入中国
2024年,特斯拉电动汽车全球分离器使用量将达到3.4亿平方米
极氪汽车重启美股IPO,目标估值51.3亿美元
江淮iEV6S消息曝光 将于今年4月25日上市