“你們?cè)趺纯???br/>
黃仁勛的話音剛落,就有一個(gè)聲音傳出來(lái):“我覺得純扯!”
說(shuō)話的是英偉達(dá)高級(jí)技術(shù)官,克里斯·馬拉喬夫斯基,他接著這么說(shuō)道:“將小參數(shù)AI模型作為決策核心替代原本自由的神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn),在理論上就不可能行得通。”
“如果說(shuō)原本的模型是一個(gè)線團(tuán),我們跑的很順,像這么一搞,完全成了一團(tuán)亂麻了!
“訓(xùn)練效率不僅得不到提升,還造成了極大的困惱,就我目前的測(cè)試而言,百萬(wàn)參數(shù)模型訓(xùn)練時(shí)的損失已經(jīng)高達(dá)70%。
“而且,模型越大,損失也越大。到GPT4的水準(zhǔn),能損失到只剩千分之一不到。
“換句話說(shuō),如果要用這種方式訓(xùn)練GPT4,要消耗原本一千倍的算力資源!什么狗屁的死思考模型?將一萬(wàn)個(gè)小參數(shù)模型放一起,就類比人了?扯淡吧!”
克里斯聽起來(lái)怨氣頗深,自從卷耳智能科技的一百二十多項(xiàng)專利申請(qǐng)披露以來(lái),克里斯這幾天那是沒(méi)有睡過(guò)一個(gè)好覺,別說(shuō)類思維了,他感覺自己都快沒(méi)有思維了。
不過(guò),他得出的結(jié)論跟黃仁勛的想法是不謀而合的。
“可是耳語(yǔ)……”但一提到耳語(yǔ),他們又都沉默了。
因?yàn)槎Z(yǔ)事實(shí)存在,效果他們都看到了,那么就一定存在一個(gè)方案能夠做到。是選擇相信紀(jì)弘的一番亂扯,還是繼續(xù)無(wú)頭蒼蠅一般的亂撞,都不是一個(gè)好的選擇。
“還是要做!我們別無(wú)選擇不是嗎?”黃仁勛如此說(shuō)道。
“我們只是硬件供應(yīng)商,這些東西讓搞AI的頭疼去不行嗎?”克里斯如此說(shuō)道:
“你現(xiàn)在不是在中國(guó)嗎?是否考慮去見一見卷耳智能科技的創(chuàng)始人,論GPU,全世界沒(méi)有任何一家公司能比得上我們,這不是天然的合作者嗎?”
克里斯是葡萄牙人,他不懂國(guó)人的思維,而黃仁勛是懂一些的,心里也是不斷的搖頭,如果有可能,他早就去了。
但卷耳智能科技第一個(gè)找上摩爾科技的時(shí)候他就知道,英偉達(dá)肯定是沒(méi)戲的。倒不如指望OpenAI能夠知恥而后勇,趕緊趕上來(lái)。
“不過(guò)還是去見見吧,就算不成,也沒(méi)有什么損失不是嗎?”黃仁勛尋思,來(lái)都來(lái)了,這里離河州也不算太遠(yuǎn)。
……
別說(shuō)英偉達(dá)這種業(yè)內(nèi)企業(yè)了,就算是八竿子打不著的網(wǎng)友們,這個(gè)夜晚也都選擇不眠。
時(shí)間已是深夜,科技圈還熱鬧的很,簡(jiǎn)直就像過(guò)大年。
而“今年”的“春晚”只有一個(gè)主角,那就是類思維模型。
“一百多項(xiàng)專利我全都整理了,紀(jì)大在河州大學(xué)智算中心項(xiàng)目的啟動(dòng)儀式上講的那番話,我也反復(fù)琢磨過(guò)。
“我試了,根本不行啊,這效率,還不如直接從0搭建GPT呢!”
“你廢話,專利文件肯定不可能給你披露細(xì)節(jié)的,這需要你一點(diǎn)點(diǎn)一點(diǎn)點(diǎn)的慢慢去試去調(diào)整,才能達(dá)到最佳?!?br/>
“能達(dá)到嗎?我怎么覺得這就是個(gè)坑呢?我用數(shù)學(xué)模型做了一下評(píng)估,所有條件都考慮進(jìn)去,看多少參數(shù)的小模型替代神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn),結(jié)果是多少你們知道嗎?答案是1。”
專業(yè)的IT社區(qū)都是業(yè)內(nèi)人士,尤其是今天,CSDNBlog人工智能分區(qū)更是一群AI領(lǐng)域大佬的聚集地。
答案是1代表什么意思,他們?cè)倜靼撞贿^(guò)了——那就是現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型的效率就是最高的,任何改變都只會(huì)影響效率,而不會(huì)提高效率。
“把你的計(jì)算過(guò)程貼出來(lái),我們一起看看……”
“好!”這個(gè)人名為孫博,畢業(yè)于信息科技大學(xué)本科,國(guó)科大碩士、博士,現(xiàn)為科學(xué)院自動(dòng)化所人工智能基礎(chǔ)前沿理論研究室研究員。
……
紀(jì)弘也在窺屏,他是CSDN的老用戶了,也經(jīng)常會(huì)在里面發(fā)一些東西,今天從河州大學(xué)回來(lái)以后,也是照例進(jìn)來(lái)看了看。
正好就看到這群人在討論類思維模型的事兒,也就一直在盯著。
當(dāng)孫博把所有的計(jì)算過(guò)程貼出來(lái)的時(shí)候,他也是第一時(shí)間就下載了下來(lái)。
計(jì)算過(guò)程極為復(fù)雜,涉及到微分、積分、線性代數(shù)、離散數(shù)學(xué)、最優(yōu)化理論、信息論等一大堆學(xué)科的交叉。
如果不是最近能力一直在+0.1+0.1的不斷在提升著,這么復(fù)雜的東西他都有可能看不懂。
“這人不簡(jiǎn)單吶!”好久之后,紀(jì)弘才感嘆著,不知道是哪位大佬,有沒(méi)有機(jī)會(huì)挖過(guò)來(lái)?
這么想著,紀(jì)弘挑了一些純理論且不涉及機(jī)密的東西給他私信了過(guò)去:“我看博主水平非常高,對(duì)這個(gè)方向有興趣嗎?有機(jī)會(huì)可以聊聊?!?br/>
發(fā)過(guò)去之后,紀(jì)弘就沒(méi)再管他,又在窺屏了。
還別說(shuō),專業(yè)的論壇不太經(jīng)常冒泡的還真有幾個(gè)大牛,今天趁著這個(gè)“團(tuán)圓夜”全都出來(lái)了,紀(jì)弘就看到好幾個(gè)。
“看樣子確實(shí)是的,這個(gè)理論行不太通??!”一位名為“人工智能雜談”的博主說(shuō)話了:
“這樣我就放心了,我還以為卷耳智能科技是傻的,這么機(jī)密的東西都敢往外放。原來(lái)是假的,那就對(duì)了!”
“也不盡然是假的,小模型肯定不行,但是如果能解決一個(gè)最優(yōu)化理論的問(wèn)題,用一個(gè)新的東西代替這位微模型,那……”
孫博對(duì)前沿理論的研究很深,總覺得類思維模型有點(diǎn)兒意思,而且跟自己思考的一個(gè)最優(yōu)化理論問(wèn)題有所牽連,說(shuō)不定這就是他那個(gè)問(wèn)題得到了解決的成功過(guò)。
不過(guò),正敲著字兒呢,他突然反應(yīng)過(guò)來(lái),自己這不是在和同事探討問(wèn)題,而是在玩技術(shù)論壇。
這是玩兒High了呀!這東西可很不往外發(fā),也是急忙刪除了這段文字,并檢查了一番自己的電腦。
最后回道:“嗯,確實(shí)是假的,不過(guò)就算是假的,不試一試,你心里不癢癢嗎?”
“還真是!不管真的假的,耳語(yǔ)系統(tǒng)已經(jīng)事實(shí)存在了,怎么來(lái)的?不試一試肯定不會(huì)甘心的,我先跑跑看,說(shuō)不定效率雖然低,但是真實(shí)效果卻非常好呢?數(shù)學(xué)計(jì)算出來(lái)的結(jié)果不一定就絕對(duì)符合事實(shí)!”
“嘿嘿……”
紀(jì)弘笑著,這就是陽(yáng)謀。
在自己并沒(méi)有其他思路的情況下,誰(shuí)能不去試一試呢?哪怕明知道這是個(gè)坑!
相信英偉達(dá)啊、OpenAI啊,尤其是OpenAI肯定會(huì)試一試的——白白消耗他們一大批算力資源,不管是從哪兒挪來(lái)的,那也是好事兒一樁!