亚洲AV无码精品一区二区在线|国产免费播放一区二区三区|最新人妻无码不卡在线|亚洲成人在线电影

您的位置:中國(guó)博士人才網(wǎng) > 新聞資訊 > 引才活動(dòng) > 大數(shù)據(jù)人才流失:科研為何陷入困境

關(guān)注微信

大數(shù)據(jù)人才流失:科研為何陷入困境

時(shí)間:2014-05-13來(lái)1源:博士人才網(wǎng) 作者:91boshi
無(wú)論無(wú)處不在的“大數(shù)據(jù)”概念引起怎樣的聯(lián)想,逐步增長(zhǎng)的數(shù)據(jù)規(guī)模確是改變著我們和世界的交互方式。這在工業(yè)界、政界、媒體、學(xué)術(shù)界,幾乎任何領(lǐng)域,都是事實(shí)。逐漸增強(qiáng)的對(duì)大數(shù)據(jù)進(jìn)行收集、處理、抽象化,并從中得到啟發(fā)的能力,拓寬了我們的知識(shí)面。

人才網(wǎng)

  然而近年來(lái),科學(xué)研究領(lǐng)域加速轉(zhuǎn)變到以數(shù)據(jù)為核心,是有負(fù)面影響的。總結(jié)來(lái)說(shuō)就是:稱(chēng)職的科學(xué)研究者需要的能力,和稱(chēng)職的工業(yè)界從業(yè)人員需要的能 力,越來(lái)越無(wú)法區(qū)分。具有典型惰性的學(xué)術(shù)界剛剛開(kāi)始適應(yīng)這一轉(zhuǎn)變,而其他領(lǐng)域早已開(kāi)始大規(guī)模鼓勵(lì)和獎(jiǎng)勵(lì)這種能力。不幸的是,這導(dǎo)致了很多有才的準(zhǔn)研究者難 以在學(xué)術(shù)界立足,只能投入財(cái)大氣粗的工業(yè)界的懷抱。

  數(shù)據(jù)的神奇效果

  20世紀(jì)60年代,物理學(xué)家Eugene Wigner發(fā)表了他的著作:數(shù)學(xué)在自然科學(xué)界的神奇效果。它論述了抽象的數(shù)學(xué)概念在上下文中的有效性,遠(yuǎn)遠(yuǎn)超過(guò)產(chǎn)生這些概念的上下文,其差距到了驚人的 地步。畢竟,誰(shuí)能想到Riiemannn在20世紀(jì)研究的非歐集合會(huì)是愛(ài)因斯坦重新思考萬(wàn)有引力的基礎(chǔ)?誰(shuí)又能想到,抽象固體的旋轉(zhuǎn)群的編纂幾乎最終導(dǎo)致 了物理學(xué)家成功地預(yù)測(cè)希格斯玻色子的存在?

  谷歌研究者Alon Halevy, Peter Norving和Fernando Pereira于2009年以“數(shù)據(jù)的神奇效果”為題發(fā)表的文章響應(yīng)了這一觀點(diǎn)。文章展現(xiàn)其驚人的洞察力:只要有足夠的數(shù)據(jù),數(shù)學(xué)模型的斟酌選擇不再重要 —尤其是對(duì)他們所研究的自動(dòng)語(yǔ)言翻譯來(lái)說(shuō),“比起很少的數(shù)據(jù)及其精確模型,簡(jiǎn)單模型和大量的數(shù)據(jù)更有勝算”。

  如果我們大膽假設(shè)這個(gè)觀點(diǎn)可以延伸(至少是部分延伸)至自然語(yǔ)言處理之外,那么僅僅是數(shù)據(jù)挖掘這一項(xiàng)技能都會(huì)逐步打敗領(lǐng)域知識(shí)。我相信這一預(yù)言已被證實(shí):眾多學(xué)術(shù)領(lǐng)域,有效地處理數(shù)據(jù)的能力正在取代其他更經(jīng)典的研究模式。

  我并不是說(shuō)對(duì)某一領(lǐng)域的精通已經(jīng)完全過(guò)時(shí)。如果不理解粒子相互作用理論,大型強(qiáng)子對(duì)撞機(jī)(LHC)產(chǎn)生的10Gb每秒的速度將一無(wú)用處,就像只有理 解物理過(guò)程驅(qū)動(dòng)空間爆炸的理論,大型天文望遠(yuǎn)鏡(LSST)產(chǎn)生的每晚15TB的原圖像數(shù)據(jù)才能幫助我們理解宇宙學(xué)。然而,LHC和LSST反映了越來(lái)越 普遍的現(xiàn)象:科學(xué)研究結(jié)果完全依賴(lài)對(duì)大量數(shù)據(jù)的精確分析。實(shí)際上,我們發(fā)現(xiàn),即使數(shù)據(jù)量并不足夠“大”,能夠?qū)λ鼈兲幚、抽象、挖掘和從?shù)據(jù)中學(xué)習(xí)的研究 者也在逐步促進(jìn)科學(xué)進(jìn)步。

  新型科學(xué)家

  從某種意義來(lái)說(shuō),數(shù)據(jù)驅(qū)動(dòng)的研究是過(guò)去的研究趨勢(shì)的簡(jiǎn)單延續(xù)。自16-17世紀(jì)科研分離出亞里士多德哲學(xué),科學(xué)進(jìn)步已基本依賴(lài)試驗(yàn)和觀察。要知道, 是第谷16世紀(jì)開(kāi)創(chuàng)性的對(duì)天空的研究,促動(dòng)了17世紀(jì)開(kāi)普勒的行星運(yùn)動(dòng)規(guī)律的研究,繼而為牛頓的萬(wàn)有引力定律鋪平道路,最終形成愛(ài)因斯坦的廣義相對(duì)論? 學(xué)家始終在努力處理數(shù)據(jù),區(qū)別只在于這一努力如今正成為科學(xué)研究過(guò)程的核心。

  不過(guò),科學(xué)研究逐步以數(shù)據(jù)為中心已經(jīng)產(chǎn)生了解決問(wèn)題的新辦法:進(jìn)入LHC、LSST時(shí)代,善于運(yùn)用高性能并行數(shù)據(jù)統(tǒng)計(jì)算法探索大量的群體性數(shù)據(jù)集的 研究者,以及新的統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)算法、高速代碼,以前所未有的規(guī)模重復(fù)進(jìn)行典型分析的應(yīng)用,推動(dòng)了振奮人心的研究。簡(jiǎn)而言之,新型科學(xué)家一定是精通統(tǒng) 計(jì)、計(jì)算、構(gòu)建算法、軟件設(shè)計(jì)、領(lǐng)域技能(可能作事后使用)的多棲專(zhuān)家。在粒子物理學(xué)、生物學(xué)、化學(xué)、神經(jīng)科學(xué)、海洋科學(xué)、 大氣物理學(xué)等幾乎所有領(lǐng)域,研究越來(lái)越趨向于數(shù)據(jù)驅(qū)動(dòng),同時(shí)數(shù)據(jù)收集的速度絲毫沒(méi)有放緩的跡象。

  科學(xué)軟件的基礎(chǔ)作用

  科學(xué)軟件的共同點(diǎn),是這些工作都離不開(kāi)編寫(xiě)代碼。高質(zhì)量的、組織良好的公共代碼才能對(duì)科學(xué)過(guò)程極為重要的重現(xiàn)產(chǎn)生影響。諸多公共軟件都是關(guān)于當(dāng)前的非再生性科學(xué)危機(jī)、新的出版形式的需要、新的研究、代碼和數(shù)據(jù)公開(kāi)訪(fǎng)問(wèn)。此處不再詳談更多。

  此處我想詳細(xì)討論的是,優(yōu)化的專(zhuān)業(yè)軟件對(duì)大型數(shù)據(jù)集分析和抽象的核心作用,以及它成為現(xiàn)代科學(xué)研究的核心的演繹過(guò)程。我的合作者Gael Varoquauz以及他的同事最近發(fā)表評(píng)論證實(shí)了這一觀點(diǎn)(見(jiàn)Gael的簡(jiǎn)介),并就公共的,組織良好的健壯的科學(xué)代碼對(duì)于現(xiàn)代科學(xué)研究的重現(xiàn)性和研究 本身的進(jìn)步都必不可少這一論點(diǎn)進(jìn)行了實(shí)例研究。過(guò)去的研究結(jié)果,如果只是在論文中簡(jiǎn)單提及,而產(chǎn)生這結(jié)果的實(shí)際過(guò)程的代碼未經(jīng)組織,這樣的結(jié)果就不能作為 新的研究的基礎(chǔ)。就像是Buckheit和Donoho曾說(shuō)的:

  學(xué)術(shù)期刊上的計(jì)算科學(xué)的文章并不是學(xué)術(shù),他們只是學(xué)術(shù)的幌子。真正的學(xué)術(shù)是完整的軟件開(kāi)發(fā)環(huán)境,以及計(jì)算出數(shù)字的完整指令集。

  公開(kāi)代碼看起來(lái)像是馬后炮,但是一般來(lái)講,僅僅發(fā)布代碼是不夠的。像Brandon Rhodes在Rupy 2013 Talk中說(shuō)的那樣,“一個(gè)程序運(yùn)行正常,總好過(guò)它勉強(qiáng)能正常運(yùn)行”。讓代碼對(duì)在科學(xué)研究之外的作者有用需要相當(dāng)大的投入。這種項(xiàng)目具有難以估計(jì)的價(jià)值, 就像NumPy項(xiàng)目,Scikit-learn項(xiàng)目,等等。它們?yōu)檠芯空咛峁┮粋(gè)框架,在此框架下,代碼可以共享,在github上共同審閱和發(fā)布,以此 造福研究社區(qū)。

  學(xué)術(shù)界的斷層

  這是學(xué)術(shù)界的弊。罕M管有層次的高質(zhì)量軟件正成為現(xiàn)在的科學(xué)研究模式的核心,并且這些實(shí)踐將有助于學(xué)術(shù)研究的成功,學(xué)術(shù)界卻非常成功的阻止了這一實(shí) 踐。“發(fā)表或者毀滅”的模式中,論文制約著大多數(shù)研究型高校,相當(dāng)于學(xué)術(shù)獎(jiǎng)勵(lì)框架的貨幣,而花費(fèi)在構(gòu)建和編寫(xiě)軟件工具上的時(shí)間統(tǒng)統(tǒng)不算是寫(xiě)論文的時(shí)間。這 就導(dǎo)致,除非是某種特殊情況,專(zhuān)注于可復(fù)用的開(kāi)放軟件的人很難在學(xué)術(shù)界獲得晉升的機(jī)會(huì)。這些可憐的人們,期待著在科學(xué)軟件的發(fā)展而不是研究論文中獲得成 就,往往會(huì)發(fā)現(xiàn)他們已置身于學(xué)術(shù)群體的邊緣。

  某種程度上,這種斷層一直存在。學(xué)術(shù)界總獎(jiǎng)勵(lì)某些技能,而損害其他技能:教學(xué)就是一個(gè)長(zhǎng)期被邊緣化的技能。然而這其中的兩個(gè)主要的區(qū)別使得學(xué)術(shù)界的斷層更加令人擔(dān)憂(yōu):

  前面提到的構(gòu)建和編寫(xiě)軟件工具的技能,正滑向?qū)W術(shù)獎(jiǎng)勵(lì)框架邊緣,而它恰恰是現(xiàn)代的研究能否成功的關(guān)鍵

  幾乎全世界都在使用密集數(shù)據(jù)挖掘工具的同時(shí),學(xué)術(shù)界忽略的不以為然的技術(shù)正是工業(yè)界最看重最鼓勵(lì)的

  這場(chǎng)風(fēng)暴導(dǎo)致技術(shù)純熟的研究者漸漸滑離研究而偏向工業(yè)界。學(xué)術(shù)界盡管也存在專(zhuān)注于軟件的工作,但那些工作基本薪水很低,沒(méi)有地位,也沒(méi)有晉升及機(jī) 會(huì)。與之相比,工業(yè)界吸引力超高:它致力于解決有趣的緊迫的問(wèn)題,提供優(yōu)越的薪水和福利,幫助博士后從工作站之間的遷徙中解脫出來(lái),甚至鼓勵(lì)基礎(chǔ)課題的研 究和發(fā)表。這種情況下還能留在學(xué)術(shù)界簡(jiǎn)直是奇跡。

  我所研究的天文學(xué)和天體物理領(lǐng)域尤其讓人擔(dān)心。LSST項(xiàng)目正在籌備這一個(gè)十年底的第一個(gè)目標(biāo):十年內(nèi)能夠?qū)崟r(shí)處理每晚30TB的數(shù)據(jù),這一目標(biāo)極 其激進(jìn)。要處理這樣大量的數(shù)據(jù),未來(lái)幾年,這個(gè)項(xiàng)目可能要招募數(shù)十名以數(shù)據(jù)為中心的天文學(xué)研究者?紤]到所需技術(shù)和當(dāng)前的薪酬水平,以及學(xué)術(shù)界面向工程的 工作的發(fā)展前景,我很懷疑它能夠吸引到足夠的應(yīng)聘者。

  學(xué)術(shù)界該如何適應(yīng)

  不止我一人在考慮這些問(wèn)題。我和國(guó)內(nèi)外很多人們討論過(guò)文中提到的一些話(huà)題,了解到有些制定政策的人們和資助機(jī)構(gòu)也正在思考這些嚴(yán)峻的問(wèn)題。但是更現(xiàn) 實(shí)的問(wèn)題是怎樣解決這些問(wèn)題,阻止它惡化。抱怨學(xué)術(shù)界的文化是學(xué)者們的常事,Deidre McCloskey的“學(xué)術(shù)威望法則”印證了本文的一些觀點(diǎn):越是實(shí)用的領(lǐng)域,越?jīng)]有地位。這話(huà)原是在哀嘆基本的論文像是新手的作品從而地位低下,卻很適 用于現(xiàn)在的主題。

  我認(rèn)為威望才是關(guān)鍵:學(xué)術(shù)界采取審慎的措施追趕工業(yè)界的腳步,對(duì)于數(shù)據(jù)驅(qū)動(dòng)的研究必不可少的軟件,給予其開(kāi)發(fā)者更多的聲望,才是解決這些問(wèn)題的辦法。研究者,資助機(jī)構(gòu)和制定政策的人們也可以采取行動(dòng)來(lái)促進(jìn)這一過(guò)程。以下是一些建議:

  學(xué)術(shù)刊物持續(xù)強(qiáng)調(diào)可重現(xiàn)的重要性。可重現(xiàn)性是科研過(guò)程本身必不可少的要素,而它依賴(lài)于開(kāi)源的高質(zhì)量代碼。將這些代碼視作論文發(fā)表的重要組成部分,能夠提高軟件開(kāi)發(fā)者在學(xué)術(shù)團(tuán)體的地位。

  推動(dòng)建立終身制教授評(píng)價(jià)的新標(biāo)準(zhǔn)。新的標(biāo)準(zhǔn)同時(shí)考量公共軟件的開(kāi)發(fā)和維護(hù)以及傳統(tǒng)的論文發(fā)表和教學(xué),這樣投入到編寫(xiě)整潔的公共代碼的時(shí)間就不會(huì)再被遏制。

  創(chuàng)建并資助新的學(xué)術(shù)就業(yè)體制,幫助博士畢業(yè)生、博士后研究員、研究員和終身教授的就業(yè)。就業(yè)職位應(yīng)特別看重和獎(jiǎng)勵(lì)公共的,跨學(xué)科的科研軟件的開(kāi)發(fā),從而為愿意構(gòu)建和維護(hù)通用的基礎(chǔ)軟件的研究者提供可行的學(xué)術(shù)職業(yè)發(fā)展道路。

  提高博士后科研職位的薪酬。這個(gè)建議可能存在爭(zhēng)議,但現(xiàn)在的薪酬水平根本無(wú)法保持下去。NIH職位為應(yīng)屆畢業(yè)的博士后提供的基本工資是每年四萬(wàn)刀 以下。博士后工作七年漲到每年五萬(wàn)刀。若精通構(gòu)建和維護(hù)軟件工具的應(yīng)屆博士后就職于工業(yè)界,薪水會(huì)多出好幾倍,并且工業(yè)界尊重他們的計(jì)算能力,他們也可以 運(yùn)用這些能力研究自己感興趣的問(wèn)題。我很擔(dān)心,學(xué)術(shù)界不及時(shí)作出這些調(diào)整的話(huà),未來(lái)幾年的科學(xué)研究將遭遇嚴(yán)重的障礙。

  我們生活在一個(gè)振奮人心的時(shí)代,加速增長(zhǎng)的收集、存儲(chǔ)、處理和學(xué)習(xí)海量數(shù)據(jù)的能力,使得我們對(duì)世界的科學(xué)認(rèn)識(shí)的寬度和廣度都在增加。要保持這探索新 事物的節(jié)奏,我們需要激勵(lì)研究人員安于研究團(tuán)體。這不是輕而易舉能解決的問(wèn)題,但是努力才能保證科研在未來(lái)可以健康和可持續(xù)的發(fā)展。

  我衷心的感謝眾多參與討論和推動(dòng)這些想法的同事,尤其是Bill Howe以及Fernando Perez。同時(shí)也感謝我的好朋友Will Mari(@willthewordguy)的審閱和反饋。

中國(guó)-博士人才網(wǎng)發(fā)布

聲明提示:凡本網(wǎng)注明“來(lái)源:XXX”的文/圖等稿件,本網(wǎng)轉(zhuǎn)載出于傳遞更多信息及方便產(chǎn)業(yè)探討之目的,并不意味著本站贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,文章內(nèi)容僅供參考。

相關(guān)文章
沂南县| 鄂伦春自治旗| 湖州市| 汤原县| 南澳县| 巴东县| 湖南省| 嘉黎县| 来宾市| 麦盖提县| 阿拉善左旗| 阿坝| 通道| 聊城市| 宿州市| 土默特右旗| 龙游县| 西乌珠穆沁旗| 田阳县| 雷州市| 秦皇岛市| 景洪市| 侯马市| 隆回县| 稷山县| 芜湖市| 阜宁县| 玛多县| 西乡县| 厦门市| 塔城市| 昔阳县| 九江市| 项城市| 白银市| 东丰县| 奉化市| 新疆| 瓮安县| 赤城县| 盐城市|