英伟达没有天敌?

 

  AI芯片初创公司们怀揣梦想而来,铩羽而归的不在少数。近日,据《每日电讯报》报道,软银向Graphcore抛出了约4亿英镑(约合5亿美元)的收购橄榄枝,这对于正濒临破产的Graphcore来说无疑是一次绝佳的转机。这也从侧面印证了挑战英伟达并非易事,Graphcore是已经做出芯片并已经打开了一些市场的AI芯片初创公司。但是发展之路亦是坎坷无比。

  这也从侧面印证了挑战英伟达并非易事。如今大模型几乎是科技巨头的天下,一个好用的大模型,至少需要超1万的最高端GPU,而且这些GPU很贵,每个GPU的价格在3万到4万美元之间。经验法则是,新的芯片替代者,必须要比英伟达的芯片至少好10倍,才有可能说服客户转移所有代码。不仅是芯片层面的成功,软件好用的重要性也已经凸显出来。英伟达的CUDA生态一直被视为重要的“护城河”,而其在 LLM 领域的统治地位也进一步巩固了其优势。

  尽管 AI 芯片初创公司的创业浪潮一波接一波,目前已有十多家公司被评为“最有希望的挑战者”,但对于任何初创公司来说,这都是一个难以取得进展的市场。即便如此,AI芯片初创公司仍是投资者眼中的“香饽饽”。

  以大模型为首的AI市场对AI芯片的需求度正在飙升。根据Statista和的数据,全球人工智能芯片市场将在2024年达到300亿美元,比去年增加70亿美元。未来三年,市场收入将增长一倍以上,到2027年将达到 670 亿美元。

  不过,与此后几年的增长预测相比,这还不算什么。到2029年,整个市场预计将达到一个巨大的里程碑,成为一个价值1000亿美元的产业。三年后,这1000亿美元将增长到2600亿美元,是 2024 年预期收入的八倍。统计数据显示,全球人工智能芯片市场将在 2033 年继续飙升,收入将增长至惊人的3410亿美元,龙8long8中国比今年增长1000%。

  尽管英伟达在生成式AI领域占据着约80%的市场份额,但巨大的市场机遇依然吸引着众多AI芯片初创公司和投资者们跃跃欲试,他们渴望在这一充满潜力的领域分得一杯羹。

  如今在英伟达的挑战者中,已经有不少强大的初创公司竞争者。这些竞争者正采取不同的策略来挑战英伟达的霸主地位,如正在制造物理上更大的AI芯片的Cerebras Systems,有资金雄厚的SambaNova(该公司已成功筹集了高达10亿美元的融资),有顶级芯片设计师Jim Keller创办的Tenstorrent,有一鸣惊人的打推理市场的Groq。。。

  要想与英伟达竞争很难,尤其是用英伟达的道路来打败它更是难上加难。因为当今的计算架构已经非常复杂,晶体管规模和工艺都需要“大量的努力和时间”,需要仔细重新考虑逻辑门的构造性质、制造工艺、大规模电路设计的 EDA 流程和系统架构等。

  而得益于投资者的青睐,AI芯片初创公司获得了充足的资金和信心。根据Market.us的数据,2024年,AI芯片初创公司获得的风险投资总额可能要超过250亿美元,比2023年增加50亿美元,最近三年该领域的总融资跃升至600亿美元。随着大量资金涌向AI芯片初创公司,这一竞争可能会愈演愈烈。

  AI战场上,有不少公司换赛道、另辟蹊径来挑战英伟达。对于一众初创AI芯片公司而言,最好的战略是开辟一个利基市场,而不是试图一口吃成胖子。比如为某些任务提供更高效、更快速或更便宜的芯片,或者是更加专注于为特定行业或个人电脑和智能手机等人工智能驱动的设备提供专用芯片。

  RISC-V是一种完全开放的指令集架构,RISC-V简洁、高效、可定制、可扩展等特性初创公司提供了独特的优势。

  在英伟达的RISC-V阵营竞争者中,最具代表的当属Tenstorrent。据The Information 6月报道,RISC-V初创芯片公司Tenstorrent在新一轮融资中筹集了至少3亿美元,由三星Catalyst Fund 领投,另一家韩国大公司LG电子也在就此轮融资进行谈判,这让Tenstorrent 的估值达到了20 亿美元。去年该公司已经获得了由现代汽车集团和三星 Catalyst Fund 领投的1亿美元融资。Tenstorrent 寻求通过销售专用处理器与授权芯片技术供他人使用相结合的商业模式,在人工智能计算芯片设计方面开辟一条新道路。

  7月初欧洲AI芯片初创公司Axelera AI获得了6800万美元的B轮融资,加上A轮的 5000 万美元,总融资额达到了1.2亿美元。该公司由来自Bitfury AI、全球纳米技术领导者IMEC、IBM苏黎世实验室、苏黎世联邦理工学院、谷歌和高通的一组研究人员组成的核心团队于2021年7月创立,主要发力在推理领域。目前Axelera AI已经流片了两款芯片,并推出了Metis AI平台,它使用RISC-V架构的新型数字内存计算 (D-IMC) 引擎,可实现低功耗的高性能 AI 计算。

  Rivos公司在2月份与苹果达成诉讼和解后获得了诉讼费,并表示将用这笔资金推出其首款硅片产品并扩大团队。这家总部位于加州圣克拉拉的初创公司由前谷歌、苹果和英特尔工程师创立,今年4月宣布已从包括英特尔和戴尔科技集团的风险投资部门在内的多家投资者处获得了超额认购的A-3轮融资,筹资逾2.5亿美元。Rivos正在开发RISC-V CPU 和数据并行加速器的芯片来撼动数据中心市场。

  生成式AI对专用芯片的需求也是显而易见的,英伟达的A100 GPU通用性高,但训练速度和成本,以及资源的浪费,让众多ASIC芯片企业抓准了机会。对于ASIC芯片初创公司而言,即使只占据一小部分市场,也是一次有意义的胜利。

  一家由3位哈佛辍学生成立的初创公司Etched,在6月底的A轮融资中,刚募集了1.2亿美元。据cnbc的报道,该公司目前有35名员工,他们正在开发用于基于“transformer”来训练和部署 AI 模型的ASIC芯片,以此来挑战英伟达,transformer是ChatGPT目前的主流架构。他们的芯片名称为Sohu,并将之称为是世界上第一个transformer ASIC芯片。Etched总部位于加利福尼亚州库比蒂诺,与苹果总部在一个地方。

  据官网公开的信息,Etched的核心是在Sohu芯片中加入变压器架构,该技术以可预测的方式将数据从芯片传输到内存,这种设计使得芯片可以将更少的空间用于存储器,而将更多空间用于那些定义芯片原始计算能力的晶体管。其另一个高效之处在于他们的芯片只有一个大核心,这就使得流处理多处理器的部分执行的低效计算减少,以协调不同核心的计算。由于简化的结构和专用的特点,Sohu芯片可比英伟达的GPU快一个数量级。

  4月初,由前谷歌的两名员工Mike Gunter和Reiner Pope所创立的AI初创公司MatX已融资了2500万美元。MatX也是一家设计专门用于处理大型语言模型所需数据的芯片。他们宣称,其芯片在训练 LLM 和提供其结果方面将比Nvidia的GPU至少好10 倍。MatX预计其产品的第一个版本将在 2025 年完成。

  今年3月Taalas宣布已筹集5000万美元的融资。Taalas 由Ljubisa Bajic、Drago Ignjatovic和Lejla Bajic创立。在共同创立Taalas之前,Ljubisa 于 2016 年创立了 Tenstorrent。Drago和Lejla随后不久加入Tenstorrent,担任早期工程负责人。Taalas试图通过设计直接实现整个AI模型的加速器芯片来颠覆Nvidia的通用GPU战略。Taalas 表示,得益于这种设计方法,它能够设计出一款包含整个大型 AI 模型的芯片,“而无需外部存储器”。据这家初创公司称,其产生的所谓“硬核模型”比软件模型效率高1,000 倍。Taalas计划于2024年第三季度推出其首款LLM芯片,并有望于2025年第一季度向客户推出。

  传统的超大规模和超大面积的单芯片SoC方案逐渐来到了着技术瓶颈,“存储墙”、“能耗墙”和“编译墙”成为AI芯片产业发展过程中的三座大山。生成式人工智能需要变革性的计算范式。而“存算一体架构”能够实现将所有计算放到存内实现、减少存储单元和计算单元之间的数据搬运、可大大提升编译效率。因而,存算一体的专用芯片架构也逐渐成为了神经网络计算芯片研究和大模型实际部署的重要前进方向。

  在复旦大学何斯琪,穆琛,陈迟晓《基于存算一体集成芯片的大语言模型专用硬件架构》的研究中,他们发现针对十亿级以上规模的大模型网络应用场景,目前的GPU/TPU+DRAM分离计算架构难以满足不断增长的系数数据传输带宽需求。而如果采用CPU+存算一体的组合的架构,能够在相同的令牌速率和算力下,实现带宽的显著节约,达到xPU+HBM架构下1000+倍的水平(如下图所示)。在未来的发展中,矢量计算CPU与存算颗粒的结合有望成为大模型专用的硬件架构。这样的整合能够更好地应对大模型的计算需求,为数据中心芯片带来更为可持续和高效的解决方案。

  国内是存算一体架构发展的温床,近年来诞生了不少存算一体芯片初创公司,如知存科技、亿铸科技、后摩智能、苹芯科技、新亿科技、千芯科技、闪易等等。

  其中,亿铸科技、后摩智能、千芯科技等则专注于存算一体大算力AI芯片,有望在生成式AI领域一展拳脚。2024年5月11日,亿铸科技获得了行至资本联合中东知名美元基金等的逾亿元股权融资。据悉,去年亿铸科技基于ReRAM原型验证芯片(POC)已回片并成功点亮,其在Transformer网络中在有效性能、能效比等方面展现出一定的优势;后摩智能推出面向边端大模型的存算一体AI芯片—后摩漫界M30,也在瞄向大模型领域。

  美国的d-Matrix也是一家专注于存算一体的公司,大力在推理市场,他们去年获得了包括微软等在内投资者的1.1亿美元。另一家EnCharge是众多致力于所谓内存计算的公司之一。这家初创公司脱胎于普林斯顿大学,首席执行官维尔玛现在仍是该校的电气与计算机工程教授。该公司得到了美国国防部高级研究计划局的支持。目前,EnCharge公司正寻求投资者再提供至少 7000 万美元的资金,以开发用于人工智能技术的超高效芯片。

  Vaire Computing是一家专注于开发“可逆计算”芯片的公司,该公司创立于2021年,总部在英国伦敦和美国华盛顿西雅图。其最近在种子轮融资中筹集了400万美元。

  可逆计算的概念最早由IBM的工程师罗夫·兰道尔(Rolf Landauer)于1961年提出,其大概意思是,它的计算过程是可逆的。在这种计算模型中,使用的能量很低,熵的增加会最小化,换句话说,它几乎不会产生额外的热。

  当今芯片中几乎100%的能量最终都会以热量的形式耗散,尤其是随着现在处理器所处理的任务越来越多,芯片散热已经成为困扰业界的一大难题,因而我们能够看到,现在数据中心正在大力开发风冷、液冷等方案。

  Vaire Computing所开发的可逆计算芯片其实就是希望尽可能的减少传统处理器产生的废热,达到几乎零能耗。在Vaire Computing看来,如果没有可逆性,我们的计算能力就会因为散热而达到极限——未来 50 年的计算必须可逆。Vaire计划在2025年初推出其芯片的初始版本,最开始的应用市场是边缘领域,大约4-5年后,会过渡到数据中心。

  云和数据中心生成式AI领域是英伟达的主要市场。边缘AI市场AI芯片初创公司可以一争的市场。

  根据fortune business insights的报告分析,2023 年全球边缘 AI 市场规模价值 203.9 亿美元。预计该市场将从 2024 年的 267.4 亿美元增长到 2032 年的 1864.4 亿美元,预测期内的复合年增长率为 27.5%。设备上也在绕过服务器或云逐渐向AI功能跃进,如AI PC、AI手机、AI可穿戴等等。边缘AI涵盖了广泛的应用场景,初创公司可以专注于特定细分市场,例如智能家居、工业自动化或汽车电子等,并针对这些领域开发定制化的AI芯片解决方案。

  DEEPX是一家韩国的AI芯片(NPU,即神经处理单元)初创公司,该公司在5月初的C轮融资中刚筹集了8000万美元,较B轮1500 万美元的融资飙升了八倍多,目前估值达到5.29亿美元。这些融资将用于该公司首款产品 DX-V1、DX-V3、DX-M1和DX-H1的量产。该公司还将利用新资金加快开发和推出其下一代大型语言模型 (LLM) 设备解决方案。

  总部位于以色列特拉维夫的初创公司Hailo,4月份宣布,它从投资者那里筹集了1.2亿美元,作为其C轮融资的延伸,同时推出了新的 Hailo-10 加速器,它可以为个人电脑和汽车信息娱乐系统等设备“以最小的功耗实现最大的 GenAI 性能”。Hailo正在通过采用在成本和功耗性能优化方面处于领先地位的芯片来加速边缘生成 AI 工作负载,从而与Nvidia展开竞争。

  SiMa.ai也是发力在边缘生成式AI领域的英伟达竞争者。这家总部位于加州圣何塞的初创公司 4月份宣布已从投资者那里筹集了 7000 万美元,其中包括戴尔科技集团的风险投资部门和 Cadence 设计系统公司执行董事长 Lip-Bu Tan。该公司表示,将利用这笔资金继续满足客户对其第一代机器学习片上系统 (MLSoC) 的需求,该芯片专门用于计算机视觉,同时加快开发其第二代 MLSoC,该芯片支持多模式生成 AI 工作负载,包括语音、音频、文本和图像。

  2月,总部位于加州圣何塞的Recogni完成了由Celesta Capital和GreatPoint Ventures联合领投的1.02 亿美元 C 轮融资。该公司正在为生成式人工智能和汽车行业开发人工智能推理芯片。

  推动新技术发展的AI芯片初创企业层出不穷,有朝一日这些技术可能会成为人工智能计算的关键。尤其是随着模型越来越大,GPU所消耗的巨大电力问题已经暴露出来,从电力来下手可能也是一个有竞争力的替代方案。

  然而,随着竞争对手的不断崛起,英伟达也不会坐以待毙,他们今年公布了“一年一代芯片,一代架构”的新节奏。这可能让初创公司更加难以匹及。但也激励着它们不断创新突破。对于初创企业来说,关键在于找准细分市场,发挥自身优势,不断创新。同时,还要密切关注市场动态,及时调整策略,才能在竞争中活下来。

搜索