姚夢娜提出的這個問題,對于常浩南來說,不難理解。
只是很難解決。
真要說起來的話,這涉及到文本挖掘、數(shù)據(jù)可視化、信息檢索、數(shù)據(jù)挖掘、機器學(xué)習(xí)乃至人工智能等一系列問題。
如果真做到姚夢娜所設(shè)想的那樣全自動化生產(chǎn),那就是工業(yè)4.0了。
在1999年這個時間點上,顯然不大現(xiàn)實。
但不可能完全實現(xiàn)這一整套東西,并不意味著其中沒有可以作為突破口的部分。
比如數(shù)據(jù)挖掘和信息檢索,就是千禧年附近很火熱的研究方向。
其核心目的是從海量數(shù)據(jù)庫和大量繁雜信息中提取出有價值的知識,并進一步提高信息的利用率。
實際上,在常浩南重生之前,飛機設(shè)計和制造領(lǐng)域已經(jīng)開始應(yīng)用這方面的技術(shù),他本人也接觸過不少。
但當年的他作為一個工科出身的普通技術(shù)人員,并沒有太多理論功底。
而系統(tǒng),則首先需要構(gòu)建出一個完整且可行的思路出來。
這就導(dǎo)致如今他腦子里空有一大堆名詞,但卻不知道哪個是破局的關(guān)鍵——
實際上,他此時就面臨著無法從大量繁雜信息中提取出有價值信息的困境。
“信息……”
常浩南從旁邊扯過一張紙,在紙的最中間寫下了兩個字。
在理想化的模型中,最好是一個數(shù)據(jù)就可以精確且唯一地描述一個含義。
也就是一維數(shù)據(jù)。
小學(xué)和中學(xué)時候做的應(yīng)用題,大體上就是這樣。
實際生活中面臨的,其實大多數(shù)也是這種問題。
而對于稍復(fù)雜一些的情況來說,要完全描述一個含義,往往需要一組數(shù)據(jù)。
但與此同時,這一組數(shù)據(jù)又往往不只能描述這一個含義。
要想在數(shù)學(xué)上描述這種一組(多個)數(shù)據(jù)對應(yīng)多個含義的現(xiàn)象,就需要將一組數(shù)據(jù)在不同的維度上進行展開。
這是由數(shù)學(xué)理論推向現(xiàn)實的情況。
而反過來,現(xiàn)實中收集到的信息,在多數(shù)情況下,本身就是已經(jīng)展開過的高維數(shù)據(jù)。
而如果想要讓計算機處理這些高維數(shù)據(jù)……
常浩南思索半晌,又在紙上寫下了三個基本條件:
1、對原始高維數(shù)據(jù)進行壓縮,降低原始高維數(shù)據(jù)的維度,進而節(jié)省存儲空間,同時也降低高維數(shù)據(jù)的計算復(fù)雜度。
2、消除,或者至少降低隱藏在原始高維數(shù)據(jù)中的噪聲。
3、提取到高質(zhì)量的數(shù)據(jù)特征,提升后續(xù)的數(shù)據(jù)表示和分類任務(wù)的效果。
他在腦子里把這三條內(nèi)容過了一下,然后試圖讓系統(tǒng)給出一個結(jié)果。
沒有反應(yīng)。
顯然,這并不能被算作是“完整且可行”的思路。
……
不知不覺間,常浩南就在辦公桌前枯坐到了快要吃午飯的時候。
仍然沒能想出一個很好的思路。
直到一陣來自腹部的叫聲把它從深思中吵醒。
確實有點餓了。
姚夢娜看了看紙上的一個名詞和三句話,也知道常浩南大概是沒什么思路,干脆站起身道:
“要不先去吃個飯?”
“也好?!?br/>
常浩南不是那種死鉆牛角尖的人。
更何況數(shù)學(xué)這種東西,光靠俺尋思是尋思不出個一二三的。
沒有靈感,說啥都沒用。
不如先放松一下,換個思路。
十五分鐘后,三人(連同朱雅丹)已經(jīng)圍坐在了食堂二層的一個圓桌旁邊。
這里算是個點餐制的小灶,價格比下面的大食堂貴一些,加上還要多上一層樓,因此來這里吃飯的人并不算多。
倒是旁邊的小超市,來來往往的人流量不少。
常浩南面前擺著一份熱氣騰騰的羊湯面,但卻并沒有急著動筷子,而是出神地看著不遠處樓梯口上上下下的人群。
90年代這會,方便面還屬于非常流行的即食類食品。
常浩南讀本科那陣子,大家的條件普遍比較差,有閑錢吃得起的人不多。
但到了99年這會,大學(xué)生在宿舍備上幾袋甚至一箱,都不算什么稀罕事了。
“你們說……”
常浩南突然開口道:
“生產(chǎn)方便面的企業(yè),是怎么保證不漏裝或者多裝調(diào)料包的?”
正在低頭吃飯的姚夢娜一愣,旋即意識到常浩南這還是在思考剛才她提出來的問題。
給方便面里面塞調(diào)料包和給飛機打鉚釘,在數(shù)學(xué)模型上其實是差不多的。
而生產(chǎn)方便面的企業(yè),顯然不太可能有多么高大上的設(shè)備和技術(shù)。
“大概……稱重?”
姚夢娜猜測道:
“調(diào)料包大概占整包方便面重量的10%左右,如果少放或者多放,那應(yīng)該很容易檢測出來?!?br/>
“嗯……但面餅重量本身就有誤差,而且調(diào)料包有好幾種,稱重只能證明總量沒問題,但不能保證沒放錯……”
常浩南搖搖頭否定道。
旁邊的朱雅丹左看看常浩南,右看看姚夢娜,實在是不知道這兩個人為什么突然討論起這個問題了。
“那個……”
雖然她覺得在兩位博士面前有點班門弄斧,但最后還是沒忍?。?br/>
“在封裝步驟之前,專門找個人在流水線旁邊看著不就行了么?”
姚夢娜單手扶額:
“我們就是在想,如何才能不用這個人,但實現(xiàn)一樣的效果。”
“這個么……”
朱雅丹瞬間縮了縮頭:
“我只是隨便一說……但有些時候人腦的作用或許還是沒辦法代替的……”
餐桌周圍又恢復(fù)了平靜,只剩下偶爾發(fā)出的微弱咀嚼聲。
但常浩南仍然沒有動筷子。
“你說得對?!?br/>
幾分鐘之后,當朱雅丹都快要吃完面前盤子里的炒面時,常浩南突然開口道:
“人類的大腦能夠通過某種辦法解析高維數(shù)據(jù),從而獲取對外部世界的感知?!?br/>
“?”
朱雅丹滿腦袋問號地抬起頭,但看著常浩南思考的樣子,很有自知之明地沒有打擾。
“換句話說,具有高維數(shù)的外部信息必定潛在于一個低維空間中的非線性流形結(jié)構(gòu)上……”
在近70年前,美國統(tǒng)計學(xué)家哈羅德·霍特林就已經(jīng)提出過將高維數(shù)據(jù)進行降維的主成分分析法。
他認為方差越大提供的信息越多反之提供的信息越少,于是通過原分量的線性組合構(gòu)造方差大、含信息量多的若干主分量,再進行矩陣奇異值分解,實現(xiàn)數(shù)據(jù)維數(shù)的降低。
但主成分分析法只相當于找到投影距離最小的意義下的最佳線性映射,而現(xiàn)實中卻沒有那么多簡單的線性問題。
不過,這個思路卻是可以被借鑒的。
常浩南放下只吃了一口的羊湯面,蹭地站起身,快步離開食堂。
身負安保職責(zé)的朱雅丹趕緊跟上。
姚夢娜的反應(yīng)稍微慢了一點,剛想起身,又意識到還沒結(jié)賬,只好掏出錢包,無奈地走向收銀臺。
回到辦公室的常浩南重新找到了剛才那張紙。
在三個基本條件下方又寫下了幾行字。
給定一組高維數(shù)據(jù)X={x1,x2,…,xn}RD,n為數(shù)據(jù)樣本個數(shù),D為高維數(shù)據(jù)的維數(shù)。
再假設(shè)X中的數(shù)據(jù)樣本來自于或近似來自于低維嵌入空間中的數(shù)據(jù)Y={y1,y2,…,yn}Rd。
尋找一個從高維觀測空間到低維嵌入空間的映射關(guān)系,使得yi=(xi),以及一個一對一的重構(gòu)映射關(guān)系^-1,使得xi=^-1(yi)。
寫到這里,常浩南的臉上露出了一個滿意的微笑。
盡管仍然沒有給出完整的思路,但是,他至少已經(jīng)把三個抽象的基本條件解析成為了一個具體的數(shù)學(xué)問題。
而對于理論研究來說,明確地提出問題,幾乎也就相當于走完了成功之路的一半。
想到這里,他回到這張紙的最上面,重新寫下六個字。
流形學(xué)習(xí)方法。
(本章完)