全球首款ai芯片，西方芯片主要国家

chanong

文宇多田

本文转载自微信公众号“虎秀APP”（ID：huxiu_com）。原文首次发表于2021年1月22日，原标题为《西方唯一AI芯片独角兽，单挑英伟达》。不代表展望智库观点。图片| 视觉中国

从布里斯托尔A38 公路旁边的喷泉池出发，我们将自行车“冲”出这座英国西南部城市的中央商务区，进入灌木丛和河流，两旁几乎都是一排排英式平房。不到20分钟就可以进去。课程。

是的，尽管布里斯托尔是英格兰西南部的心脏地带，但从城市规模来看，它仍然被许多中国学生赋予了一个非常清爽和精致的名字：——“布村”。（“伦敦以外的一切都是村庄”）

但当他接触到芯片行业后，他突然发现，这座英国老城区其实隐藏着英国最强大的半导体产业集群之一。

图为NVIDIA位于布里斯托尔的研发中心。

2011年收购英国半导体公司Icera后，英伟达扎根布里斯托尔。

我们在这里投资了数千万英镑建造新工厂和实验室。

1972年，硅谷著名公司仙童半导体（Intel、AMD的创始人均出自该公司）做出了进军欧洲市场的重要决定，在布里斯托尔设立了办事处。自此，这个英格兰西部的小镇为半导体行业拓展了全球视野。

六年后，出生于布里斯托尔的微处理器公司Inmos 在1980 年代占据了全球SRAM 市场的60%，获得了卡拉汉和撒切尔政府高达2 亿英镑的投资，并最终将其投资组合扩展到英国的半导体基础设施布里斯托尔的核心生态系统是许多半导体超级精英的家园，例如XMOS半导体公司创始人、英国著名计算机科学家David May。

“事实上，布里斯托尔一直是英国的IT之都，与周边地区斯温顿和格洛斯特形成三角关系，被誉为欧洲的‘硅谷’。当半导体企业在欧洲设立研发中心时，布里斯托尔通常是最重要的地点。” “布里斯托尔是首选。英伟达、惠普、博通、高通等世界级巨头都在布里斯托尔设有办事处。”

一位欧洲半导体行业专家告诉虎嗅，虽然很多人因为ARM而对剑桥印象深刻，但历史上布里斯托尔实际上一直是英国的芯片设计之都。

“华为在布里斯托尔也有一个研发中心。”

正如20 世纪50 年代八位天才“叛徒”离开仙童半导体，创办了英特尔、AMD、泰瑞达等公司，成就了硅谷的今天，布里斯托尔的才华横溢的工程师们也无意停留在“过去”。随着摩尔定律到期的争论达到高潮，人工智能和计算架构发生变异，谁不想成为这个变革时代的领导者呢？

1989 年，一位名叫西蒙·诺尔斯(Simon Knowles) 的工程师从剑桥大学毕业后首次踏足布里斯托尔，在内存公司Inmos 从事芯片设计工作。

此后的近20 年里，Knowles 几乎见证了摩尔定律的巅峰和衰落，从领导Inmos 内部的专门处理器团队，到成为Element 14 和Icela 两家半导体公司的创始人之一。我做到了。幸运的是，Knowles 联合创立的两家公司估值合计超过10 亿美元，并分别于2000 年和2011 年被博通和英伟达收购。

不出所料，这位才华横溢的半导体设计师和连续创业者在2016年重新开始，积极响应人工智能市场需求驱动的芯片架构，并与才华横溢的半导体工程师Nigel Thune共同创立了一家新的半导体设计公司。

是的，该公司刚刚于2020年12月29日宣布完成2.22亿美元融资（这为公司资产负债表增加了4.4亿美元现金），其估值达到27.7亿美元。 media Graphcore 是人工智能加速处理器的设计者，被称为Nvidia 最大的竞争对手之一。

值得注意的是，该公司也是西方人工智能芯片领域唯一的独角兽。图为Graphcore的IPU处理器

西方私募股权和风险投资公司对于半导体等项目一直极为谨慎。这是因为这些项目资本高度密集，初始投资回报难以预测。正如诺尔斯在接受采访时承认的那样，“与软件行业相比，你可以小规模地尝试，如果不起作用，你可以尝试另一个洞。如果芯片设计失败，公司就会拥有所有的钱。”我们别无选择，只能花钱。” ”

因此，正是在2018年，随着人工智能商业化潜力的不断推动和放大，投资者开始相信“大规模人工智能计算驱动芯片结构变革”的趋势可以提供回报前景。到后来。 ”。

因此，2017 年获得超过8000 万美元投资的Graphcore 在2018 年和2020 年分别获得了2 亿美元和1.5 亿美元的风险投资。

除了参与A 轮融资的博世和三星之外，我们注意到红杉资本是Graphcore C 轮融资的领投方，微软和BMW i Ventures 是D 轮融资的领投方。

E轮融资的主要参与方为非工业基金——加拿大安大略省教师养老金计划委员会领投，富达国际和施罗德集团也参与了该轮融资。

从投资者来看，我们看到Graphcore的行业投资者基本分为三个行业方向：云计算（数据中心）、移动设备（手机）、汽车（自动驾驶）。是的，这就是人工智能技术最先“入侵”的三个行业。图片来自Crunchbase

业界似乎越来越有共识，未来移动设备时代需要像ARM这样的底层创新公司，希望能卖出数亿颗芯片。它跨行业融合，最终将触及数百亿消费者。

从产品角度来看，Graphcore在2020年拿出了一款比较抢眼的创世——，在名为IPU Machine平台的计算平台上推出了第二代IPU-M2000芯片。支持该公司芯片的软件堆栈工具Poplar也同时更新。

“教计算机如何学**是一回事；教计算机解决数学问题则完全是另一回事。要提高机器的‘理解’，根本驱动因素是效率，而不是速度。Graphcore 首席执行官Nigel Toon 解释了新一代产品。开发人工智能芯片被认为是“一生一次的机会”。

“能够做到这一点的公司将在未来几十年内分享人工智能技术创新和商业化的决策权。”

1 利用Nvidia的“弱点”

没有一家AI芯片设计公司想碾压市值3394亿美元的英伟达。换句话说，没有一家公司希望做出比GPU 更好的人工智能加速器产品。

因此，近五年来，各种规模的芯片设计公司都在使用NVIDIA的T4、V100，甚至是最近发布的A100来对比自己的企业级芯片产品，并用PPT来对比，有一种通过做事来证明自己的倾向。所以。提高处理器的计算效率。

Graphcore 也不例外。

此外，前几代微处理器，例如中央处理单元（CPU）和图形处理单元（GPU），并不是专门为人工智能相关任务而设计的，因此该行业正在努力跟上新数据处理的步伐。我们也相信我们需要一个新的芯片架构。方法。

当然，这种说法并不只是当事人的想象。

学术界和工业界关于GPU 的呼声越来越高，这一点不容忽视。 —— 随着人工智能算法训练和推理模型的多样性迅速增加，原本并非为人工智能设计的GPU 也开始发挥作用。 ” “专业”。

“如果你所做的只是深度学**中的卷积神经网络(CNN)，那么GPU 是一个很好的解决方案。但是，网络变得越来越长、越来越复杂，GPU 无法满足人工智能开发人员不断增长的需求。它已经消失了。”

算法工程师向虎嗅指出，GPU之所以快，是因为它们天生可以并行处理任务（GPU定义和特性请参见这篇文章《干掉英伟达》）。如果你的数据是“顺序的”并且无法并行化，那么你将需要再次使用CPU。

“很多时候硬件修好了之后，我们就会想办法从软件层把顺序数据转换成并行数据。比如在语言模型中，文本是连续的，可以转换‘导师驱动’的训练模型。进行并行训练。

然而，并不是所有模型都能做到这一点；例如深度学**“强化学**”并不适合GPU，并行方法也很难找到。 ”

从这个角度来看，学术界有很多人大声疾呼“GPU正在阻碍人工智能的创新”，但这并不是耸人听闻。深度学**的四大发展思路，绘图：Utada

“深度学**”是过去十年机器学**增长最快的领域。神经网络模型发展如此迅速且如此多样化，以至于很难单独跟上GPU 硬件的复杂性。计算步骤。

Graphcore 向虎嗅做出了更详细的回应。他们认为，除了CNN 之外的其他深度学**领域，尤其是循环神经网络（RNN）和强化学**（RL），限制了许多开发人员的研究领域。

例如，利用强化学**开发AlphaGo的英国AI公司Deepmind，由于GPU的计算限制，很早就转向了Graphcore，而其创始人Demis Hassabis最终也成为了Graphcore的投资者。

“当许多企业产品部门的开发人员向计算平台部门提交需求（特别是延迟和吞吐量的数据指标）时，他们通常会被拒绝，他们会说，‘GPU 目前支持如此低的延迟和高吞吐量。’我没有能力。'

主要原因是，虽然GPU 架构非常适合具有密集数据的计算机视觉(CV) 任务，例如静态图像分类和识别，但它们并不是稀疏数据模型训练的最佳选择，因为事实并非如此。

虽然文本相关的“自然语言处理”（NLP）等领域的算法没有大量数据（稀疏），但此类算法需要在训练期间多次传递数据。提供反馈，为后续培训步骤提供易于理解的背景信息。 ”

换句话说，这是一个数据不断流动和循环的训练过程。

类似于淘宝的“猜你喜欢”界面，在“学**”你第一天的浏览和订购数据后，太多的经验会反馈到算法中进行修正，而在第二天、第三天以及以后的日子里，反馈都会被反馈到算法中。仅在当天提供。持续的日常学**和反馈使我们能够更好地认识产品偏好。

这类任务比如Google在2018年为了更好的优化用户搜索而提出的BERT模型，是最好的、影响最深远的RNN模型之一，也是Google提到的最好的、影响最深远的RNN模型之一.这也是一种任务。图核。许多公司仍然使用大量的CPU来训练来解决这些问题。 CPU和GPU架构比较

从根本上来说，这是当前芯片操作系统——最大的瓶颈之一：如何在不消耗大量功耗的情况下尽可能快地将数据从内存模块传输到处理器上的逻辑单元。在数据爆炸的时代，解决这一瓶颈变得越来越紧迫。

例如，截至2018 年10 月，BERT-Large 的模型量仍为3.3 亿个参数，但到2019 年，GPT2 的模型量已达到15.5 亿个参数（均为自然语言处理模型）。数据量对底层系统硬件和上层SaaS服务的影响不可低估。

传统的GPU和CPU当然可以执行多个连续的操作，但它们必须首先访问寄存器或共享内存，然后读取并存储中间计算结果。这就像将室外储存的食物带到地下室，然后返回室内厨房进行处理，往返肯定会影响整个系统的效率和功耗。

因此，许多新兴半导体公司的产品架构中的一个中心思想是——集成近存储计算，“让内存更接近处理任务，以加速系统”。这个概念实际上并不新鲜，但很少有公司能够真正实现它。

而GraphCore到底做了什么？简单来说，它“改变了处理器上内存的排列方式”。

IPU处理器的大小与小型苏打饼干差不多，集成了1216个称为IPU-Core的处理单元，它与GPU或CPU最大的区别在于它具有“片上内存”。大规模安装。

这意味着SRAM（静态随机存取存储器）分布并集成在计算单元旁边，从而无需外部存储并最大限度地减少数据移动量。该方法的目标是通过减少负载和存储量来突破内存带宽瓶颈，显着降低数据传输延迟，同时降低功耗。 IPU架构

因此，对于某些特定的算法训练任务，IPU 的速度实际上可以达到GPU 的20-30 倍，因为所有模型都可以在测试后存储在处理器上。

例如，在计算机视觉领域，除了众所周知且广泛使用的残差网络模型ResNets（非常适合GPU）之外，还使用基于分组和深度卷积的图像分类模型EfficientNet和ResNeXt模型。也被使用。一个新的研究领域。

“分组卷积”的特点之一是数据不够密集。

微软的机器学**科学家Sujeeth 使用Graphcore 的IPU 来训练基于EfficientNet 模型的图像分类。最终结果是，IPU 花了30 分钟完成了COVID-19 胸部X 光样本的图像分析。在传统GPU 上，该工作负载通常需要5 小时才能完成。

2多次测试

但就像GPU 的普及和计算机视觉领域占主导地位的算法模型ResNet 的盛行一样，Graphcore 成功的关键也在于特异性。

Graphcore销售副总裁兼中国区总经理在接受虎嗅采访时指出：

不过，阿里云和百度均表示，该公司的产品更适合训练市场中数据稀疏、精度要求较高的深度学**任务，比如与自然语言处理相关的推荐任务，这也是一个重要原因。与他们合作。

另一方面，计算机视觉领域刚刚流行的新模型是IPU试图“克服”的方向，而之前的许多模型仍然最适合GPU。

再者，Cuda这个由GPU打造的强大软件生态系统，比硬件更不易受到破坏（Cuda在这篇文章《干掉英伟达》中也有详细讨论），而这堵墙是产业影响力的屏障，也是发展的关键。

相对简单、小型、专用加速器的市场，例如用于手机、相机和其他智能设备的IP 核。

再比如ASIC芯片，适合数据中心的特定功能，可以详细解决特定的问题，所以非常大的数据中心运营商（云厂商）在这个市场有很多机会，我可以。

最后一个是可编程AI处理器，这是GPU存在的市场。未来肯定会有更多的企业进入这个市场，更多的创新一定会创造出更大的份额。

CPU 将继续存在，而GPU 则不断创新，成为某些人工智能计算任务的必需品，甚至是最佳选择。但摩尔定律的崩溃、人工智能计算和数据爆炸等趋势所创造的新市场将是巨大且多样化的。多元化为更专业的芯片公司提供了新的机遇。

这就是为什么像Cerebras、Groq、SambaNova Systems 和Mythic AI 这样的芯片初创公司能够筹集到数亿美元的资金，而英特尔今年还投资了Untether AI，彻底改变了AI 芯片架构。许多人已经预测，新一代的“苹果”和“英特尔”可能会在人工智能计算市场诞生。

现在软件还没有赶上硬件，激烈的竞争才刚刚开始。

九州福利

我们一直在捐赠库叔叔的书！中国地图学会为广大读者提供了21本库叔叔《透过地理看历史：三国篇》。本书采用“左图右史”的方法，精心结合历史地形图和文字史料，直观而深入地阐释了《三国演义》中的人和事。请在文章下方留言，点赞数最多的前3名（50以上）将获得一本书。

全球首款ai芯片，西方芯片主要国家

热门搜索

相关文章

全球首款ai芯片，西方芯片主要国家

三级螺纹钢有哪些型号规格？怎么挑

三级螺纹钢和三级抗震的区别是什么

x四代土影黑土腿中间

废文网李鬼分站的安安静静备胎计划

一级二级三级螺纹钢用途有什么区别

2023年新电费收费标准？公布2023年