AI的浪潮其實(shí)早在20世紀(jì)就被多次掀起過(guò),但真正成為人們不可忽視的巨浪,還是這十幾年的事,因?yàn)檫@時(shí)候AI有了天時(shí)地利人和:算法與模型,大到足夠訓(xùn)練這些模型的數(shù)據(jù)集,以及能在合理的時(shí)間內(nèi)訓(xùn)練出這些模型的硬件。 但從帶起第一波深度學(xué)習(xí)的AlexNet,到如今的GPT-3和TuringNLG等,人們不斷在打造更大的數(shù)據(jù)集和更大的模型,加上大語(yǔ)言模型的興起,對(duì)訓(xùn)練的要求也就越來(lái)越高?稍谀柖梢呀(jīng)放緩的當(dāng)下,訓(xùn)練時(shí)間也在被拉長(zhǎng)。 基于Hopper架構(gòu)的H100GPU/英偉達(dá) 以英偉達(dá)為例,到了帕斯卡這一代,他們才真正開始考慮單芯片的深度學(xué)習(xí)性能,并結(jié)合到GPU的設(shè)計(jì)中去,所以才有了Hopper這樣超高規(guī)格的AI硬件出現(xiàn)。但我們?cè)谟?xùn)練這些模型的時(shí)候,并沒(méi)有在硬件規(guī)模上有所減少,仍然需要用到集成了數(shù)塊HopperGPU的DGX系統(tǒng),甚至打造一個(gè)超算。很明顯,單從硬件這一個(gè)方向出發(fā)已經(jīng)有些不夠了,至少不是一個(gè)“高性價(jià)比”的方案。 ![]() 硬件推出后,仍要針對(duì)特定的模型進(jìn)行進(jìn)一步的軟件優(yōu)化,因此即便是同樣的硬件,其AI性能也會(huì)在未來(lái)呈現(xiàn)數(shù)倍的飛躍。從上個(gè)月的MLPerf的測(cè)試結(jié)果就可以看出,在A100GPU推出的2.5年內(nèi),英偉達(dá)就靠軟件優(yōu)化實(shí)現(xiàn)了最高2.5倍的訓(xùn)練性能提升,當(dāng)然了最大的性能提升還是得靠H100這樣的新硬件來(lái)實(shí)現(xiàn)。 BillDally表示這就是英偉達(dá)的優(yōu)勢(shì)所在,雖然這幾年投入進(jìn)深度學(xué)習(xí)硬件的資本不少,但隨著經(jīng)濟(jì)下行,不少投資者已經(jīng)喪失了信心,所以不少AI硬件初創(chuàng)公司都沒(méi)能撐下去,他自己也在這段時(shí)間看到了不少向英偉達(dá)投遞過(guò)來(lái)的簡(jiǎn)歷。 他認(rèn)為不少這些公司都已經(jīng)打造出了自己的矩陣乘法器,但他們并沒(méi)有在軟件上有足夠的投入,所以即便他們一開始給出的指標(biāo)很好看,也經(jīng)常拿英偉達(dá)的產(chǎn)品作為對(duì)比,未來(lái)的性能甚至比不過(guò)英偉達(dá)的上一代硬件,更別說(shuō)Hopper這類新產(chǎn)品了。 |