8月26日,GTIC 2022全球AI芯片峰会在深圳市南山区正式开幕!
这场高规格产业会议由芯东西与智东西公开课联合主办,以“不负芯光 智算未来”为主题,汇集了来自国内外AI芯片领域的产学研专家及创业先锋代表,畅谈前沿技术创新与最新落地进展。
经过一天精彩的干货分享与思想交锋,峰会全场座无虚席,人气爆棚,现场交流氛围热烈,全网直播人数高达100万+人次。
深圳市南山区科技创新局党组书记、局长曹环出席峰会开幕式并致辞。北京大学集成电路学院院长蔡一茂教授分享了存算一体与类脑计算芯片的创新路径与技术挑战。
值得一提的是,在峰会现场,上海交通大学计算机科学与工程系教授梁晓峣宣布,正式推出第一代开源GPU——“青花瓷”架构,打造开源通用智能算力芯片平台,“做人人都用得起的GPU”。
本届峰会覆盖当前AI芯片产业的核心议题,涉及领域专用架构、通用GPU、存算一体、类脑计算、光子计算、量子计算等技术路线和EDA工具、Chiplet等上游技术创新,并纵览云端数据中心、车路协同、自动驾驶、边缘计算、智能家居等主流的落地应用场景。
在上午的AI芯片高峰论坛期间,NVIDIA、壁仞科技解读了最新旗舰通用GPU的架构创新;瀚博半导体、地平线、后摩智能分享了用AI芯片助力车路协同与自动驾驶的心得;智一科技联合创始人、总编辑张国仁现场对话临芯投资董事长李亚军、和利资本董事总经理肖鹏、天数智芯CTO吕坚平,畅聊对AI芯片企业创新与生存的思考。
在下午的云端AI芯片专题论坛上,Graphcore、墨芯人工智能、昆仑芯科技、鲲云科技从不同维度分享了在技术创新与量产落地的经验之谈,芯行纪、奇异摩尔分别从EDA创新和3DIC Chiplet角度探讨了破解高性能计算挑战的思路。
01.开幕致辞:聚焦集成电路与人工智能有机结合的最前领域
在开幕式上,深圳市南山区科技创新局党组书记、局长曹环发表致辞:“AI芯片峰会交流聚焦的边缘计算、存算一体芯片等主题代表着集成电路和人工智能有机结合的最前领域,与深圳市南山区的战略新兴产业的布局高度契合。”
▲深圳市南山区科技创新局党组书记、局长曹环
曹环谈道,南山区在具有雄厚的集成电路产业基础和突出的创立优势,2021年南山区的集成电路企业超过200家,年销售额超过700亿元,同比增长逾68%,培育了中兴微电子、国微集团、奥比中光等一批行业领军企业。未来,南山区将继续全力推动集成电路产业集群的高质量发展。
智一科技联合创始人、CEO龚伦常代表主办方为本次峰会致辞。在简要复盘了近年中国半导体行业面临的挑战后,他指出挑战的另一面是机遇,中国是全球最大的单一市场,改革开放的战略并未改变,同时在全面推进产业升级和生产生活的数字化,需求并不会因人为的限制而消失,企业在砥砺奋进中创新、创造至关重要。
▲智一科技联合创始人、CEO龚伦常
创新需要良好的产业环境,这也是今年AI芯片峰会选址深圳南山的重要考量。深圳是创新之都,南山则是深圳这片创新热土的核心区,在研发投入、硬科技数量、独角兽和投资机构数量等方面都居深圳之首。龚伦常希望AI芯片峰会成为前沿技术交流和产业落地对接的重要平台。
今年是智一科技成立的第6个年头。智一科技坚持技术和产业双轮驱动,聚焦以人工智能、集成电路为代表的前沿技术及其行业应用,构建产业媒体与企业服务两大业务体系。
智一科技拥有以芯东西、智东西、车东西为代表的产业媒体矩阵,已成为国内定位独特且具有较高影响力和公信力的产业媒体;同时针对产业升级需求,发展出以智东西公开课为核心的企业服务体系,与产业优秀公司、全球顶级高校的专家学者合作,举办系列talk及新青年讲座,并与国内外顶级企业合作举办定制公开课,截至目前已完成的课程超过600节,收获良好口碑。
02.北京大学蔡一茂:新型存储器是AI芯片的重要助推器
随着AI技术逐渐获得广泛应用,智能计算正呈现从提高性能到降低能耗、从计算密集型到数据密集型、从结构化数据到半结构化或非结构化数据的趋势。进入软硬件并进时代的AI,对硬件提出高算力、高并行、低功耗等需求。
在上午举办的AI芯片高峰论坛期间,北京大学集成电路学院院长蔡一茂教授分享道,新型存储器与先进封装技术是AI芯片的重要助推器,其中大容量、高速、高带宽存储器是瓶颈,AI时代正带动存储器接口标准的持续创新。
▲北京大学集成电路学院院长蔡一茂教授
基于存算分离架构的传统智能芯片受制于器件、架构、能耗瓶颈,存在低效率、高功耗的问题,而存算一体芯片能消除数据搬运造成的算力瓶颈,显著降低功耗,提高计算能效。
借鉴人类大脑体系结构的类脑仿生芯片,同样采用新型存储器,通过片间互连运行大规模的脉冲神经网络是一个重要的智能芯片技术。蔡一茂教授认为,相比采用传统器件,采用RRAM忆阻器等神经形态器件的类脑仿生芯片具有多重优势,是突破算力瓶颈与实现更高智能的重要技术,但目前还面临工艺不成熟和底层器件性能有待提高,集成密度受限等挑战。
目前,北京大学研发的类脑计算芯片已具备高集成度、高扩展性、高通用性等特征,支持运行图像识别、音频识别、人脸识别与跟踪等常见DNN/BNN模型。
03.上海交大梁晓峣:推出通用智能算力芯片平台,宣布首个开源GPU架构
上海交通大学计算机科学与工程系教授梁晓峣在会上宣布,正式推出开源通用智能算力芯片平台,将第一代GPU架构“青花瓷”免费开源,“做人人都用得起的GPU”。
“青花瓷”的架构和指令兼容(或二进制转译或兼容)NVIDIA,支持SIMT为主体的可扩展性架构以保证强大可编程性,并支持超薄的软件栈设计,通过极简的API封装将硬件细节暴露给程序员,降低软件开发难度。
▲上海交通大学计算机科学与工程系教授梁晓峣
谈及国产自主云端GPGPU的发展机遇,梁晓峣教授金句频出,比如将国内格局总结成: 南“昇腾”,北“昆仑”,“平头”当中坐,东西齐上阵 (分别代指华为昇腾、百度昆仑芯、阿里平头哥、众多创业公司)。
纵观云端AI芯片产业发展路径,是要做得更专业还是通用?梁晓峣幽默地谈道,摩尔定律已经被“社死”了很多次,但仍然顽强地活着,而且是GPU历史上对冲2P风险的最强武器,数据并行计算作为可扩展性最强的并行方式,与摩尔定律是“佳偶天成”。
他直言市场需要的不是“好”芯片,而是“好用”的芯片,“不好用”是自主芯片公司的通病,是目前行业的最大痛点。
据他分享,商业化市场最希望做到与NVIDIA兼容,做到无缝切换,但要做一款能与NVIDIA完全兼容的芯片,需要至少3000人的团队、花费10年时间、付出超过100亿美元的投资。
其中最根本的问题是软件。从旧世界发展起来的传统软件架构和层次要经历巨大的变革。当下国内芯片产业在软件层面存在“重复造轮子”问题。
梁晓峣教授说,云端大算力芯片的投资,要的是“细水长流”,凭的是“天荒地老”,第一层次投资金,第二层次投团队,第三层次投时间。要后来居上,需要以免费解决“钱”的问题,以开放解决“人”的问题,以开源解决“时间”的问题。
他认为国产芯片生态弱小的时候,需要学术界雪中送碳。这也是为什么其团队打造了三个“一”工程(一本GPGPU架构和芯片设计专业教材、一门核心课程、一个开源通用智能算力芯片平台),形成四大支柱(行业人才支柱、知识产权支柱、产业联盟支柱、开放生态支柱)。
04.巅峰对话:一半火焰一半海水,AI芯片企业要学会“向客户要钱”
围绕AI芯片的趋势变化,智一科技联合创始人、总编辑张国仁,与临芯投资董事⻓李亚军、和利资本董事总经理肖鹏、天数智芯CTO吕坚平进行了一场以“创新与⽣存,AI芯⽚的现在和未来”为主题的巅峰对话。
▲巅峰对话环节,从左到右依次是:智一科技联合创始人、总编辑张国仁,临芯投资董事长李亚军,和利资本董事总经理肖鹏,天数智芯CTO吕坚平
临芯投资董事⻓李亚军曾参投过许多半导体项目,但对AI芯片项目一向谨慎,直至观察到AI芯片走到了创新发展“S曲线”的第二波小高峰,他才开始出手,陆续投资黑芝麻智能、昆仑芯等知名AI芯片独角兽企业。
“一半火焰,一半海水。”李亚军谈道,参考“过剩经济学”的说法,AI芯片领域高端的人才及产品仍然稀缺,但一些中低端领域的芯片创业公司已显过剩。AI芯片是一个周期性行业,当下贸易战、疫情把周期拉长了周期长度,既然是周期,低谷也会回归到正常周期,全球化浪潮不可阻挡。
现阶段,从投资角度来看,他更看好有软硬结合和场景应用结合能力的企业,看重核心团队的本身素质,以及公司生态朋友圈的打造。
和利资本同样长期重视半导体投资,从2019年至今投了30多个半导体项目。和利资本董事总经理肖鹏也重视对AI芯片团队的考察,对于大芯片赛道,他会更看重核心团队的同类芯片成功经验,团队完整性以及团队配合的默契程度;对于技术门槛相对低的小芯片赛道,他会看重这家企业的核心指标是否有10倍于竞争对手的优势,团队的缺点是否容易补齐。同时,他也非常重视公司生态“朋友圈”,认为整个团队的学习能力和边界延展性强,能够通过上下游伙伴补齐短板。
谈及“创新与生存”问题,肖鹏认为,AI芯片企业需要着重想清楚“万物+AI”还是“AI+万物”这个问题,即企业要想清楚AI的附加值到底是在产品中占80%还是20%,不同占比做法完全不一样。不管是采用哪种技术路径去实现AI的功能,AI芯片企业都要更加关注“向客户要钱”。
在他看来,今年AI创企或许不能再像前两年那样活得很轻松,需要考虑三个关键问题:1、如果行业还是像前几年那么火热,公司CTO、合伙人还会不会接着跟你干?2、热度降下来的时候,正好可用来思考团队怎么建设,产品如何,服务客户等关键问题。3、做好现金流的管理。
天数智芯是国内通用GPU高端芯片的代表企业之一,今年7月刚宣布完成超10亿元C+轮及C++轮融资。天数智芯CTO吕坚平从被投资者的角度分享了他的洞察。
吕坚平说,天数智芯已走过寻找客户的阶段,公司的创新变成与客户合作适配中突破。比如在当下备受关注的大模型领域,他认为从客户需求来看,当下智算中心的底层算力建设不但要通用,而且要有多维度的效能指标,如稳定度等,而不仅仅是强调高算力。
05.突破云端AI芯片算力瓶颈!架构创新、全栈能力、落地心经
2017年,NVIDIA(英伟达)发布Tesla V100领衔炸场,掀起了全球AI芯片的创新狂澜。如今五年过去,NVIDIA GPU始终是云端AI训练芯片的“标杆”,与此同时,国内外多家创企摩拳擦掌,基于不同架构路线向云端AI芯片市场发起冲锋。
今天,来自NVIDIA、壁仞科技、Graphcore、墨芯人工智能、昆仑芯科技、鲲云科技等知名云端AI芯片企业以及EDA新秀芯行纪、Chiplet创企奇异摩尔的技术专家及创业领袖,联袂奉上了从技术创新、量产落地到生态构建的深度见解。
1、NVIDIA赖俊杰:揭秘英伟达最强Hopper架构
今年3月,全球AI计算巨头NVIDIA在GTC大会上重磅推出基于全新Hopper架构的新一代旗舰GPU计算芯片H100,将多种精度下的AI算力最高提升至上一代A100的3~6倍。
NVIDIA中国区工程及解决方案高级总监赖俊杰对Hopper架构进行了详细解析。实现性能提升的关键是新一代流式多处理器(SM)和新型线程块集群技术。
▲NVIDIA中国区工程及解决方案高级总监赖俊杰
SM引入了FP8张量核心(Tensor Core),相较FP32/BF64吞吐量翻倍,与其Transformer引擎结合更是能大幅提升AI大模型的训练效率;还引入新指令集DPX,可加速动态编程算法,能解决路径优化、基因组学等算法优化问题。新的线程块集群机制可实现跨单元进行协同计算,为大模型加速运算提供更好的支撑。
随后赖俊杰分享了GNN(图神经网络)分布式训练的一些研究进展。对于大规模的GNN问题,图形结构和特征可能不适合单独的GPU内存,对此需要分区。利用能实现多GPU高速互连的NVIDIA NVSwitch系统,可以更好地处理大规模GNN计算问题。
2、壁仞科技洪洲:对数据流深度优化,满足大模型全栈能力需求
近两三年,万亿参数的大模型优越性更加明显,同时对计算机体系结构和训练框架带来巨大挑战。壁仞科技联合创始⼈、CTO洪洲认为,大模型需要从集群、平台到框架的全栈能力,壁仞科技的新品BR100系列通用GPU芯片应运而生。
▲壁仞科技联合创始⼈、CTO洪洲
BR100采用7nm制程,容纳近800亿颗晶体管,在BF16精度下达到1024TFLOPS性能,在INT8数据精度下支持2048TOPS算力。这款芯片在国内率先采用Chiplet技术、PCIe5.0接口和CXL互连协议,创下了国内GPU互连带宽纪录。
如何实现计算效率的提升?洪洲说,这主要来自对数据流的深度优化。针对通用大算力GPU面临的内存墙、功耗墙、并行性、互连和指令集架构等挑战,壁仞科技设计了训推一体的原创芯片架构“壁立仞”,在数据流精度、存取加速、并行、搬移、隔离等方面实现了优化。
壁仞科技不仅有通用GPU架构、高算力的Tensor Core,还通过张量数据存取加速器提高数据存取效率;并采用NUMA/UMA访存机制,根据深度学习训练和通用并行计算的数据流特点分配内存,从而实现“数据跑到哪里,计算就在哪里”,提高计算效率。
3、Graphcore金琛:利用IPU构建高能效AI计算平台
“训练图像识别模型时,2012年AlexNet模型完成训练需要6天,如今只需要几分钟就可以完成这项任务。”Graphcore中国工程副总裁、AI算法科学家金琛在发表演讲时谈道。
▲Graphcore中国工程副总裁、AI算法科学家金琛
大规模AI计算的发展有三大趋势,分别是通过优化硅技术实现专业化变得更难、对越来越大的模型的需求并未放缓、计算系统和软件提升的空间仍然很大。
为了适应AI框架的发展,Graphcore正不断丰富软件生态系统,其模型花园已涉及计算机视觉、自然语言处理、图神经网络等领域。在具体应用效果上,Graphcore的产品在保险业中使用计算机视觉来帮助评估、维修以及保护汽车和房屋,使得结果效率提升了5倍。
AI大模型的参数规模暴涨带来许多挑战,包括计算系统的提升及模型本身应该变得更加聪明。在此过程中,数万亿参数的密集神经网络不可行,需要稀疏模型架构。因此,Graphcore正在设计一个系统,可以支持百万亿级的模型训练。
4、墨芯人工智能王维:稀疏化推动AI计算向超高算力、更低成本发展
大模型是AI的下一个必争之地,随着AI芯片受限于摩尔定律,硬件升级逼近物理极限,处理AI大模型算力瓶颈突破迫在眉睫。
墨芯人工智能创始人兼CEO王维认为,稀疏化计算是AI计算的未来。稀疏化计算,是一种以人脑得到灵感的模型压缩方法。简单来说,就是通过底层创新、软硬协同设计,让神经网络模型消减冗余,以提高计算效率。
▲墨芯人工智能创始人兼CEO王维
稀疏化计算相较于业内其他AI加速技术,并不是微量的差异化创新,而是能够让性能带来十倍、百倍的创新。王维拿标志性的AI大模型——GPT-3来举例说明稀疏化计算的惊人性能表现。GPT-3有1700多亿参数,如果放在GPU上去做推理的话,需要内存量是要几百G,也就是需要很多张80G的GPU,且会有明显时延;但通过稀疏化计算,用一张墨芯S30计算卡,就可以跑通GPT-3,并且计算速度还变快了很多。
目前,墨芯基于自研稀疏化云端AI芯片Antoum推出了对应的S4、S10和S30三款AI计算卡,对标国际大厂主流AI推理卡,算力可达6倍以上。其中S30运算ResNet-50算力超90000FPS。
王维透露,流片成功仅半年,墨芯已在核心细分市场获得几家客户。在互联网市场,墨芯已在一些头部互联网公司进入适配阶段;在行业市场,墨芯也与生命科学领域部企业项目落地。
在未来一个阶段中,墨芯将围绕互联网、泛政府行业及垂直行业三大方向进行市场推广。在定价上,会将整个算力服务器的TCO(总拥有成本)达到现有主流产品的1/2,甚至1/3。
9月,墨芯人工智能将公布S4和S30在业内权威AI基准测试MLPerf上的性能测试结果,王维说,这有望代表国产AI芯片达成一个新里程碑。
5、昆仑芯科技漆维:规模化部署通用AI芯片,攻克4大难点
空前繁荣的AI生态、场景与时局正驱动AI芯片快速发展,同时,行业也面临算法多样化、巨头生态壁垒、客户需求苛刻、部署环境复杂等众多挑战。面向这一趋势,脱胎于百度的昆仑芯团队于2017年推出了自研架构昆仑芯XPU,目前已推出两款通用AI芯片。
昆仑芯科技芯片研发总监漆维谈道,其自研新一代昆仑芯XPU-R架构采用自研高效SIMD指令集,在国内业界率先支持GDDR6,支持片上共享内存,采用软件定义神经网络引擎,并配合昆仑芯SDK全栈软件工具,实现更通用、易编程、高性能、低成本和自研创新的新特征。基于自研昆仑芯XPU-R架构,昆仑芯科技目前已推出了采用7nm工艺的昆仑芯2代AI芯片,算力达256 TOPS(INT8)。以昆仑芯AI加速卡R200为例,经过业务规模部署的实际测试,对典型AI负载的性能相较业界主流150W GPU提升在1.5倍左右。
▲昆仑芯科技芯片研发总监漆维
漆维说,昆仑芯2代AI芯片是国内唯一款经过互联网大规模核心算法考验的云端AI芯片,目前已落地搜索、Online learning(在线学习系统)、自智慧交通、智算中心等众多领域。下一步,对标业界最前沿产品的昆仑芯3代AI芯片将在不久之后面世。
6、鲲云科技蔡权雄:定制数据流架构,实现更优算力性价比
鲲云科技联合创始人&CTO蔡权雄谈道,数据流将成为解决性能瓶颈的关键技术。数据流芯片就是依托数据流流动次序控制计算次序,把数据的运算和搬运重叠起来,消除空闲计算单元。
▲鲲云科技联合创始人&CTO蔡权雄
芯片利用率决定芯片的实测性能,即芯片实际性能占其峰值算力的比例。数据流架构可有效提高芯片利用率,采用指令集架构的芯片利用率能达到7%~32%,而鲲云定制数据流架构的实测芯片利用率可以达到65%~95.4%。
“我们采用成熟制程工艺的芯片,能够达到先进制程芯片的效果。”蔡权雄说。鲲云科技的高性能数据流AI芯片CAISA,将运算单元通过可编程的单元连接在一起,并通过算子的配置和数据流网络的编程保障芯片的通用性。目前,其产品已经应用于智慧化工、智慧油田、智慧电力等多个行业。
7、芯行纪丁渭滨:用AI优化EDA,大幅提升芯片设计效率
AI芯片能加速运行AI算法,反过来,AI算法也能助力更高效的AI芯片设计。芯行纪资深研发副总裁丁渭滨分享了AI优化芯片设计工具的两类应用——预测性能,帮助EDA工具更自动化。
▲芯行纪资深研发副总裁丁渭滨
AI算法在设计前期就可以预测芯片的性能,并能实现5~10%的PPA提升。用AI帮助EDA工具更自动化方面,当客户在反复跑某一个设计时,AI能基于此前参数的性能进行参数推荐。国际EDA巨头在探索这些应用,其效果已优于人工调参。
他也分享了芯行纪在用AI构建数字实现EDA平台的进展,其AmazeFP智能化布局规划方案能实现同时观测宏单元和标准单元的拥塞度并控制拥塞模型的稳定性。该智能布局工具还能使机器自动摆放的宏单元更加整齐,并使其客户在某一案例的布局规划工作时间从以周为记缩短至以小时为记。
8、奇异摩尔祝俊东:用“3D乐高”芯片技术,满足大算力需求
很多关注芯片创新的人,都会对英特尔今年发布的GPGPU 3D Chiplet技术印象深刻,英特尔将47颗Chiplet拼接在一起,成功实现在算力大幅提升的同时,兼顾了面积与成本的平衡。
奇异摩尔即是一家专注于2.5D/3DIC Chiplet技术研发的产品和服务公司。奇异摩尔产品及解决⽅案副总裁祝俊东说,在当前高性能计算面临显著挑战:如芯片良率随着面积上升呈现指数级下降趋势;单芯片面积受限;先进制程设计量产成本高等等。3D Chiplet设计因有助于解决高性能计算挑战,受到了更多AI芯片厂商的关注。在制程不变的情况下,基于异构计算的Chiplet能带来算力的持续增长,实现大芯片存储容量和连接性能的快速持续提升;通过异构灵活堆叠,使多颗拼在一起的Chiplet像一个整体,同时也有效降低IP研发硬核支出。
▲奇异摩尔产品及解决⽅案副总裁祝俊东
祝俊东谈道,3DIC Chiplet常被比喻成“积木”,但“拆”和“拼”也面临着不少工程化挑战。为此,奇异摩尔面向芯片开发者提供2个硬件:3DIC Chiplet通用底座和高速接口芯粒;1个软件:Chiplet专用设计工具,从而帮助客户实现从芯片设计到实现量产的全流程。
06.助攻智联汽车,AI芯片新势力崛起
高度自动驾驶涉及人与车、车与车、车和路之间的默契协同,是实现畅通智慧交通的一大关键发展方向,多家AI芯片企业正致力于通过优化加速计算能力,为车路协同提供更好的算力支撑。
国产AI芯片如何助力车路协同突破落地瓶颈?怎样满足汽车智能化对算力提出的更高要求?解决智能驾驶芯片发展的核心矛盾,有哪些可行的创新思路?瀚博半导体创始人兼CTO张磊、地平线联合创始人&CTO黄畅、后摩智能创始人&CEO吴强分别分享了他们的思考与探索。
此外,汽车业务进展飞速的移动芯片巨头高通,也拿出将AI能力从终端侧扩展至边缘侧、赋能智能网联边缘的心得。高通技术公司产品管理副总裁Ziad Asghar还分享了对元宇宙趋势的观察。
1、瀚博半导体张磊:AI芯片助力车路协同,性能超主流GPU 2倍以上
进入大算力时代,众多智能应用加速落地,车路协同作为支撑交通强国目标达成的关键措施,是其中一大代表。这对智慧的路、实时的云、聪明的车、精确的图提出更高的要求。边缘计算是其中重要一环,从技术层面来看,需要多元化算力、更低的时延、更精准的计算。
创立于2018年的瀚博半导体主攻AI推理芯片,其推出的边缘端SV100芯片能充分应对车路协同新需求。瀚博半导体创始人兼CTO张磊称,GPU延时下降时,吞吐量也大大下降,使其在车路协同场景受限。SV100芯片在性能及延时方面进行优化,比如处理点云数据性能是业界主流GPU 2倍以上,延时大大降低。
▲瀚博半导体创始人兼CTO张磊
瀚博半导体和客户一起在广州智慧高速三元里收费站、广州国际生物岛智能网联基地项目等场景落地相关产品。瀚博半导体为车路协同打造了边缘AI推理加速卡、智能MEC,具备100TOPS INT8峰值算力,支持多路多模态传感器接入,能灵活部署,胜任各种边缘部署复杂环境。
2、地平线黄畅:智能计算架构2.0时代,以高性能AI计算为核心
范式级智能算法的革新推动了汽车智能化的发展。地平线联合创始人&CTO黄畅谈道,智能汽车是堪比“计算机诞生”级的颠覆式创新,随着自动驾驶技术新范式的出现和发展,需要相匹配的计算架构,从而让机器更自主、让开发更简单、让计算更智能。
▲地平线联合创始人&CTO黄畅
他指出,智能计算架构2.0时代,以高性能AI计算为核心,让范式级智能算法的革新,和支持智能算法的硬件体系相结合,加速实现机器自编程和应用自适应。地平线自主研发的BPU贝叶斯计算架构,是先进处理器技术的集大成者,实现高效的AI计算,为软件定义汽车提供强劲AI性能,加速人机共驾时代的到来。
黄畅说,地平线通过软硬协同编译优化,实现性能持续提升,地平线的AI计算架构仿真平台是其在寻找软硬件协同优化上的有效路径之一。采用BPU贝叶斯架构的地平线征程5,专为高等级自动驾驶打造,拥有128TOPS大算力、计算性能达到1531FPS、60ms业界超低延迟和30W超低功耗,搭配端到端全套硬件加速方案,能满足多样化开发需求。
他还分享了对于自动驾驶技术和行业趋势的六大判断:一是中国成为全球顶级汽车智能芯片的“角斗场”;二是自动驾驶走向量产落地,算力需求持续提升;三是高等级自动驾驶落地,大规模并行化AI计算成趋势;四是自动驾驶逐步由数据驱动替代传统基于规则的计算;五是AI计算逐步取代逻辑计算,成为车载计算的核心;六是统一神经计算架构,满足智驾场景各种应用需求。
3、后摩智能吴强:破解智能驾驶芯片核心矛盾,存算一体成为金钥匙
智能驾驶的普及和商用对智能驾驶芯片提出了新的要求。后摩智能创始人&CEO吴强谈道,智能驾驶芯片发展的核心矛盾在于算力需求不断增长,但供给侧的传统方案成本昂贵,且依赖于少数国际大厂IP,再加上高功耗和较为封闭的方案,也不利于未来的算法演进和OTA升级。
▲后摩智能创始人&CEO吴强
“具有天生优势的存算一体,就成为了解锁算力和功耗难题的金钥匙。”吴强说。存算一体的实现可类比为厨师炒菜,为了压缩厨师在厨房和仓库之间拿菜、切菜、炒制的过程,要让仓库和厨房变成一个整体。对应到计算机系统架构中,就是将运算步骤和参数一起集成在内存上,这种架构能用低成本方式实现大算力、能效比、低延时,同时对先进工艺依赖较弱,能够用成熟制程做出先进制程的性能效果。
后摩智能研发的首款“存算一体”大算力芯片已于去年成功流片,成功跑通了一些主流的自动驾驶算法,今年年底有望给客户试用。
4、高通Ziad Asghar:终端侧AI助力打造智能网联边缘
高通技术公司产品管理副总裁Ziad Asghar提出,边缘侧AI将依旧是AI发展的主要方向之一。高通公司致力于不断增强终端侧AI能力,让数据在产生的地方进行处理,在既定功耗下不断实现处理能力突破,实现快速响应,并保障数据隐私安全。
▲高通技术公司产品管理副总裁Ziad Asghar
高通公司构建了“统一的技术路线图”,基于此打造了一系列面向AI的IP和技术,助力终端侧AI能力实现规模化扩展,覆盖智能网联边缘。硬件方面,基于第七代高通AI引擎,高通公司为智能手机带来了业界领先的终端侧AI体验,同时也构成了面向高通汽车、物联网、XR等所有不同业务AI扩展能力的真正核心。
软件方面,高通公司最新推出的高通AI软件栈(Qualcomm AI Stack)已覆盖其当前所有产品线,让客户一次开发,即可将解决方案跨高通所有产品线进行迁移,开发者和终端厂商可以根据实际需求进行模型开发和优化,Ziad提到这是一个对开发者和终端厂商都非常强大的优势。
高通公司的研发团队致力于推动终端侧AI能力在性能和能效上不断实现突破。展望未来的边缘侧AI前景,Ziad提出,未来我们希望下一步能够实现完全分布式的AI,能够在终端上进行推理和一定程度的学习工作,而高通所开发的众多技术已经能助力实现这一目标。
Ziad Asghar还谈及最近大火的元宇宙:“元宇宙是每个用户独一无二的数字孪生,元宇宙中所有的视觉和体验都基于用户的喜好,这意味着需要持续进行个性化,不断适应用户的特定需求,我认为这也是元宇宙的独特优势。”
峰会首日,来自产学研投界的17位重磅嘉宾,在AI芯片高峰论坛与云端AI芯片专题论坛上,围绕技术创新、生态建设等AI芯片核心议题,输出了丰富的产业干货。