首先gpu卡是需要大集群服务器才能支撑起一个数据中心,基本上就是10多台起,大的可能就得千台万台(以h800的性能为标准),Gpu卡首先是要跟一些软件做适配,还要保证服务器之间互联带宽大,当然要保证Gpu卡的性能,如果把计算过程看做是一个送信的过程,Gpu卡是远在天边的神算子,服务器之间的互联是信使,带宽越大,路越宽,同时可以送信的信使越多,信使送到之后,在软件层面要进行翻译(也就是gpu做软件的适配),目前的问题是,我的翻译官和路都是英伟达的,你别的翻译官翻译不了我的文字(也就是是陪不了gpu),你的马在我的路上跑不了,你就得新铺路,你的新路太难走,我的信就送不快,即便是我的神算子算的再快,你的信都在路上堵着,信送不到目的地,就相当于神算子没算,节点间带宽提不上去,所以就算增加神算子的数量,并没有达到我的目的。
通俗点,什么意思,我可以用国产的gpu卡,通过增加gpu数量去累积到我需要的那个浮点计算或者整型计算性能,但是我增加卡的数量,我整体集群的性能并没有因为增加卡的数量而得到一个线性的增长,100张卡达不到100张卡的性能,也就50-60张,这个曲线越来越平缓,这就是目前国产卡的问题所在,英伟达的nvlink是很厉害的,目前国产卡也就是用OAM模组去做一个互联,这个速度跟英伟达的相比,差了足足有3倍左右,每两台之间就差3倍,那100台呢,台呢?而且还有问题是国产卡还要去跟cpu去做适配,因为gpu无论如何也要和cpu相连,三头六臂也要由大脑去控制,还要去跟软件层去做适配,跟软件适配不了,这个计算性能大幅度降低,造成算力浪费。
AMD最近出的卡,确实,按照书面数据,挺厉害,他也不用担心跟cpu的一个适配,他本身就做cpu,这点肯定没有问题,他的最主要的问题是服务器间互联和与软件的适配层面,不是说有一款高性能的卡就能直接拿来用的。
做个总结吧,因为之前几乎所有的企业,服务器厂商用的都是英伟达的那一套,包括软件的厂商,也是去做的英伟达的适配,或者说英伟达去做的软件的适配,导致现在英伟达的那一套已经几乎成了行业标准,所以现在去推翻这个标准,或者重建一套新的理论,是需要时间成本和不计其数的经济成本支持,毕竟从起步来说英伟达就很早
所以,大家不要看到出了一个芯片就盲目觉得浪潮信息的股票会涨停,不一定能用的上,除非是英伟达可以复供,可以无脑入,其他的都得去考虑看看。