9月18號。
這是個勿忘國恥的日子。
在這一天,百度宣布了重大的消息。
網(wǎng)易新聞:
“昨日,中文搜索引擎百度公司宣布,該公司兩位創(chuàng)始人之一的元老徐勇將于本月26日
徐勇在5月份的時候就提交了辭呈,徐勇和百度都未解釋辭職原因。百度內(nèi)部人士透露,暫時沒有人替代徐的職位,徐目前所負(fù)責(zé)的業(yè)務(wù)將分割到各相關(guān)部門。
徐勇曾是百度持股僅次于李彥宏的高管。1999年,徐勇和校友兼好友李彥宏創(chuàng)建了百度,并擔(dān)任副總裁職位;今年初,徐的職務(wù)由副總裁變?yōu)槭紫呗怨?,?fù)責(zé)公司戰(zhàn)略方向。徐勇表示辭職后將在自己的‘老本行’生物學(xué)領(lǐng)域發(fā)展?!?br/>
百度收購了搜夏引擎后,再次鞏固了自己中文搜索霸主的地位,原本在上一年度發(fā)展得如火如荼的慧聰網(wǎng),如今已經(jīng)被百度打得節(jié)節(jié)敗退。
在此之前,百度在中文搜索結(jié)果質(zhì)量的各項(xiàng)指標(biāo)上,百度的工程師表現(xiàn)得非常聰明,在某些點(diǎn)上也做得很細(xì)很出色,雖然對比 google 還是有優(yōu)勢,但是在與搜索相關(guān)的基礎(chǔ)技術(shù)上,百度還是全面落后。
百度的搜索質(zhì)量提高,有很大部分是依靠人工做大量細(xì)緻的策略調(diào)整硬拉上去的。而在百度收購了搜夏之后,其在與搜索相關(guān)的基礎(chǔ)技術(shù)上則有了很大的突破,其技術(shù)上的創(chuàng)新能力在今年一而再被媒體提及,而其商業(yè)模式仍舊是其詬病所在。
聯(lián)合創(chuàng)始人徐勇離職,李彥宏加強(qiáng)公司控制權(quán),這基本上是所有人看到消息的第一想法。年初徐勇任cso,明白人一眼就可以看出,這其實(shí)是個有點(diǎn)虛的職位。
而媒體的相關(guān)猜測是:徐勇的離職是百度為上市進(jìn)行人事調(diào)整的一環(huán),是為百度上市融資“讓道”。
這種說法是有道理的,在6月份的時候,百度便已經(jīng)進(jìn)行了第三次融資,這是上市前的最后一次融資,這一次是策略性融資,引進(jìn)了googli以及dfj等八家風(fēng)險(xiǎn)投資機(jī)構(gòu)共投資1500萬美元,股數(shù)225萬股,折合股份7.98%,而夏夢持股降為11%,預(yù)計(jì)公開發(fā)股后,夏夢的持股會變成9%。
縱觀在納斯達(dá)克上市的中國互聯(lián)網(wǎng)企業(yè),無一不在上市前上演高層人事調(diào)整的大地震,百度也不例外。
只是為何在百度的這場人事調(diào)整大地震中,徐勇為什么會出局呢?這其中的機(jī)密除了百度的高層估計(jì)其他人都不知道真實(shí)答案。
甭管徐勇為何出局,反正這消息對陳義哲而言,就是一個好消息。
知道消息的第一時間,陳義哲便給了徐勇打去了電話,“徐哥,徐總,現(xiàn)在沒事一身輕,應(yīng)該有時間過來鵬城這邊逛逛了吧?”
“我就怕一到你那邊,我一身又變重了!”徐勇笑道。
“徐哥,你這是怕我往你身上塞黃金嗎?”陳義哲打趣道。
“真的?那我這次可得順便帶個麻袋過去才行!”徐勇笑道。
“只要你來,你就是開著大貨車過來也行!”陳義哲說道。
9月底的時候,徐勇果然來鵬城了。
陳義哲帶著徐勇參觀了cdss項(xiàng)目目前的情況。
長達(dá)一年多的時間里,徐勇陸陸續(xù)續(xù)發(fā)來了大量的醫(yī)院臨床數(shù)據(jù),而cdss項(xiàng)目組多達(dá)30個人的技術(shù)人員就一直在做標(biāo)準(zhǔn)化數(shù)據(jù)的工作。
目前夏夢已經(jīng)在陳義哲的方案設(shè)計(jì)下,初步開發(fā)了支持闌尾炎,肝結(jié)核,胃結(jié)核等幾項(xiàng)特殊疾病的cdss。
“怪不得搜夏引擎的技術(shù)讓百度技術(shù)團(tuán)隊(duì)驚為天人,看來夏夢互聯(lián)網(wǎng)內(nèi)部是人才濟(jì)濟(jì)啊。”徐勇感嘆道。
“呵呵,百度的技術(shù)也不差,你看google都被百度擋在國門外,現(xiàn)在google也只能曲線入華?!标惲x哲笑道。
徐勇?lián)u了搖頭,說道,“說句真心話,百度和google還是有一定的差距的。只是在國內(nèi)市場,百度占了天時地利,這其實(shí)是‘百度更懂中文’地一個集中體現(xiàn)。就簡單地說分詞,百度當(dāng)年做分詞,先從一個人工編輯號地字典開始,用這個字典跑一些網(wǎng)頁,觀察里面地bad case。”
“可能是分詞過細(xì),或者是中文人名沒分出來,然后就嘗試根據(jù)中文語法規(guī)律加入規(guī)則或添加詞表解決這些 bad case,如此往復(fù),直到有滿意的結(jié)果。上線應(yīng)用,發(fā)現(xiàn)有新的 bad case 就再研究加規(guī)則,當(dāng)然也有自動流程發(fā)現(xiàn)和確認(rèn)如“人艱不拆”之類的新詞!”
“徐哥,想不到你這個醫(yī)藥出身的也懂得這其中的技術(shù)!”陳義哲笑道。
“都在這一行干了五年了,沒吃過豬肉,也見過豬跑?!毙煊伦猿暗?,緊接著他繼續(xù)道,“google和百度最大的區(qū)別,就是google更加強(qiáng)調(diào)技術(shù),它做分詞則是把問題看成一個概率問題:如果中文網(wǎng)頁中哪些字經(jīng)常一起出現(xiàn),那麼它們很有可能就是一個詞。看哪些詞后面會跟的地得,的地得后面有常跟哪些詞,語法結(jié)構(gòu)也就出來了?!?br/>
“解題思路就是把所有抓到的中文網(wǎng)頁往 mapreduce 裡一丟,參數(shù)算出來就好了。評估分詞質(zhì)量的方法也很簡單,就拿新模型放到網(wǎng)頁檢索的模型裡,做個實(shí)驗(yàn)看質(zhì)量有沒提升就行。這套方法結(jié)果之好,基本把中文分詞做成了一個沒有多少懸念的簡單問題!”
“其實(shí)這也是google不懂中文的問題,因?yàn)樗恍枰形恼Z言專家的參與!同時這也就是 google 做實(shí)時翻譯的思路。”陳義哲接著道,“不過這種方法雖然簡單,看似沒有什么秘密可言,可是首先,google得先有這么多的網(wǎng)頁數(shù)據(jù),還得有大機(jī)群,有分布計(jì)算框架,還有可復(fù)用的模型……這點(diǎn)套在cdss其實(shí)也一樣,cdss也需要大數(shù)據(jù),計(jì)算的模型,看似簡單,但是其實(shí)復(fù)雜無比!”
“這是必然的,畢竟醫(yī)學(xué)上的知識太復(fù)雜了,做cdss項(xiàng)目往往需要考慮非常多的患者因素,如癥狀、體征、實(shí)驗(yàn)室檢查數(shù)據(jù)、家族史、基因、流行病學(xué)資料、現(xiàn)有的醫(yī)學(xué)文獻(xiàn)等等。同時新發(fā)表的臨床研究數(shù)以萬計(jì),質(zhì)量參差不齊,這些大量的數(shù)據(jù)導(dǎo)致了即使cdss開發(fā)出來,最終維護(hù)上仍會存在巨大困難?!?br/>
“目前較為成功的臨床決策支持系統(tǒng)往往局限于某個領(lǐng)域,覆蓋范圍有限。比如,1971年上線使用的leeds腹痛診斷系統(tǒng),其診斷的正確率高達(dá)90%以上,而醫(yī)生的診斷正確率在80%以下,但這套系統(tǒng)僅僅也只能用于診斷腹痛。由此可見,cdss項(xiàng)目的研發(fā)路遙遙而修遠(yuǎn)兮!”徐勇不由嘆道。
“徐哥,目前大多數(shù)的臨床決策支持系統(tǒng),通常會包括三個組成部分:知識庫,推理機(jī)和人機(jī)交流接口。知識庫儲存著大量的編譯信息,通常采用if-then規(guī)則進(jìn)行存儲和管理?!?br/>
“例如,關(guān)于藥物的相互作用,規(guī)則可以寫成“if服用了藥物x,and服用了藥物y,then顯示警告信息”。高級用戶也可以根據(jù)自身需要在另外的編輯界面中自定義知識庫里的規(guī)則,比如對新藥進(jìn)行實(shí)時更新等。推理機(jī)則根據(jù)知識庫里的規(guī)則對患者的資料進(jìn)行自動整合、分析。人機(jī)交流接口則是將分析結(jié)果反饋給用戶或者作為系統(tǒng)輸入。”
陳義哲看了徐勇一眼,繼續(xù)道,“這種采用知識庫的臨床決策支持系統(tǒng)確實(shí)會出現(xiàn)臨床數(shù)據(jù)復(fù)雜化,更新維護(hù)困難上的問題。不過我已經(jīng)準(zhǔn)備在著基礎(chǔ)上,采用人工智能的形式!”
“人工智能?”徐勇驚訝道,雖說人工智能提出了將近40年,各國也投入大量資金研究,可是目前并沒有大的突破,而且據(jù)他聽聞,google已經(jīng)在前兩年開始進(jìn)入了這一領(lǐng)域。
陳義哲點(diǎn)了點(diǎn)頭,“通過機(jī)器學(xué)習(xí)從已有的經(jīng)驗(yàn)中自動攫取規(guī)則,讓cdss系統(tǒng)不僅僅成為數(shù)據(jù)的輸入者,也要讓它成為數(shù)據(jù)的采集者?!?br/>
“夏夢這邊的ai是基于那種構(gòu)建方法?”徐勇好奇地問道。
“主要是基于人工神經(jīng)網(wǎng)絡(luò)和遺傳算法的結(jié)合!”陳義哲答道,其實(shí)確切地說,若是最終確定把cdss推出市面,那其ai終端必然是大白,唯有如此,才能保證數(shù)據(jù)及時地被大白吸收,而診斷也不會輕易的有白癡問題的出現(xiàn)!想和更多志同道合的人一起聊《重生2002之納米人生》,“ ”看小說,聊人生,尋知己~