如果你发现很难访问云中的GPU来训练人工智能模型,你并不孤单。全球芯片短缺和人工智能模型训练需求的增加,可能会导致一些云GPU用户等待时间更长。Nvidia也表示,目前其整体运营受到供应限制。
Gigaom AI分析师Anand Joshi表示,一些用户在访问基于云的GPU时等待的时间比之前要长。
Joshi说:“很多用户都在抱怨他们很难获得GPU时间。一个作业在队列中,需要一段时间才能完成。以前只会说有多少个GPU,现在并不总是有GPU可用,所以需要一段时间才能进入队列并运行作业。”
虽然Joshi对云平台的GPU扩展计划没有任何第一手资料,但他表示,客户所经历的等待时间表明,云平台未能以预期或想要的速度获得新的GPU。他说,这可能会影响他们扩展GPU云环境以跟上日益增长的模型训练需求,而模型训练是人工智能生命周期中计算要求最高的部分。
Joshi推测:“用户说不可用,原因是容量没有像云计算人员希望的那样增加。这可能意味着他们无法获得他们想要的GPU数量。”
Nvidia生产了许多人工智能应用中使用的GPU,在截至2020年1月31日的第四季度实现了创纪录的50亿美元的收入。这比去年同期增长了61%。但在这些增长数据背后,这家市值为3170亿美元的芯片制造商似乎无法跟上对GPU需求的激增。
“在公司层面,我们的供应受到限制。”NVIDIA首席执行官Jensen Huang在上个月的财报电话会议上说。
疫情期间,用于电脑、汽车、游戏机和智能手机的微芯片需求激增,使供应不堪重负,这导致了这些设备本身的短缺。
与此同时,人工智能的部署激增,因为企业试图提高竞争力,应对从物理到数字化的突然转变,例如使用会话代理与客户互动,或使用机器学习来提高消费品供应链中供应链规划的准确性。
根据毕马威(KPMG)最近的一项调查,从2019年到2020年,运行中等到全功能人工智能部署的零售商比例增加了29个百分点,占受调查公司的81%。在金融服务业,从2019年到2020年,增长了37个百分点,达到84%。
当对人工智能模型训练的需求增加,但对运行模型的GPU的供应却没有增加时,就会出现一些用户在访问GPU时遇到延迟的情况。
“坦白地说,没有人预见到这一点。”Gigaom的Joshi表示,“没有人看到芯片的需求会在COVID时代急剧增长。每个人都认为它会下降,但它上升了。所有人突然开始争抢筹码。”
芯片制造业的公司屈指可数,对各种类型芯片(不仅仅是GPU)的需求激增意味着芯片制造厂正在满负荷运转。作为顶级芯片制造商,英伟达可能被其晶圆厂合作伙伴优先考虑,但由于其他类型芯片的需求增加,晶圆厂(以及供应链的其他部分)根本没有能力处理超出的订单。
这种情况也影响了人工智能芯片初创公司,他们无法让芯片制造商制造其芯片设计。Joshi说,大约有100家人工智能芯片初创公司拥有各种设计,比如开源RISC-V设计。但由于芯片厂和整个芯片供应链的产能有限,他们的一些新产品不会很快上市。Joshi说:“一些小公司只是被告知要等。”
到目前为止,GPU的定价还没有受到太大影响。但目前GPU是运行人工智能工作负载的最受欢迎的芯片类型,如果对实际GPU和云中运行的GPU的需求继续超过供应,那么如果价格上涨,不要感到惊讶。
谷歌云拒绝就此置评,AWS也没有回应置评请求。