近年來(lái),如何規(guī)劃與建設(shè)大數(shù)據(jù)實(shí)驗(yàn)室,滿足科研與教學(xué)乃至社會(huì)服務(wù)的需求成為了一項(xiàng)統(tǒng)計(jì)人必須思考和解決的課題。大數(shù)據(jù)時(shí)代的來(lái)臨使得統(tǒng)計(jì)學(xué)專業(yè)的教學(xué)、科研均受到一定的挑戰(zhàn)。尤其是大數(shù)據(jù)所具有的4V特征,即多樣性(Variety)、數(shù)量(Volume)、速度(Velocity)和價(jià)值(Value)給統(tǒng)計(jì)學(xué)專業(yè)實(shí)驗(yàn)室建設(shè)帶來(lái)了相當(dāng)?shù)奶魬?zhàn):模擬大數(shù)據(jù)分析環(huán)境需要相當(dāng)?shù)挠布l件與之匹配,而事實(shí)上各高校的統(tǒng)計(jì)學(xué)院在硬件建設(shè)、經(jīng)費(fèi)、師資儲(chǔ)備方面都大大落后于社會(huì)發(fā)展對(duì)大數(shù)據(jù)人才的需求。
傳統(tǒng)的統(tǒng)計(jì)學(xué)專業(yè)培養(yǎng)模式中,數(shù)據(jù)處理能力一直是教學(xué)與實(shí)踐環(huán)節(jié)的短板,因此大數(shù)據(jù)實(shí)驗(yàn)室一定要在大數(shù)據(jù)管理、大數(shù)據(jù)集成、大數(shù)據(jù)分析、大數(shù)據(jù)應(yīng)用方面提供一套 體驗(yàn)、學(xué)習(xí)、實(shí)踐、研究、創(chuàng)新、創(chuàng)業(yè) 的軟硬件平臺(tái)。統(tǒng)計(jì)專業(yè)大數(shù)據(jù)實(shí)驗(yàn)室要在教學(xué)、科研、社會(huì)服務(wù)三個(gè)方面做好規(guī)劃與需求分析。在教學(xué)方面,大數(shù)據(jù)實(shí)驗(yàn)室要能夠圍繞專業(yè)設(shè)置、課程改革、培養(yǎng)模式提供有力的硬件和軟件支撐。至少要讓學(xué)生在技術(shù)層面掌握主流數(shù)據(jù)庫(kù)的使用與管理、實(shí)踐環(huán)節(jié)上接觸大數(shù)據(jù)案例、認(rèn)知上形成融匯各門課程內(nèi)容的意識(shí)。在科研方面,大數(shù)據(jù)實(shí)驗(yàn)室應(yīng)至少滿足TB級(jí)數(shù)據(jù)量的數(shù)據(jù)處理、統(tǒng)計(jì)計(jì)算、模擬分析等方面的需求。在社會(huì)服務(wù)方面,最好也能夠滿足TB級(jí)乃至PB級(jí)的數(shù)據(jù)分析與數(shù)據(jù)挖掘項(xiàng)目。
大數(shù)據(jù)也稱巨量資料,通常是指使用一般的軟件工具難以捕捉、管理、存儲(chǔ)和分析的海量、多樣化、高增長(zhǎng)率的數(shù)據(jù)資源。事實(shí)上數(shù)據(jù)量多少不是劃分大數(shù)據(jù)的依據(jù),筆者認(rèn)為 大數(shù)據(jù) 是社會(huì)信息化發(fā)展成熟階段后,原本分屬于一個(gè)專業(yè)分工下的數(shù)據(jù)被其它專業(yè)(職業(yè))再深度利用的智能發(fā)展過(guò)程。原本分屬于不同行業(yè)、部門、專業(yè)的數(shù)據(jù)匯聚于數(shù)據(jù)中心則可能對(duì)社會(huì)管理、商業(yè)智能、科學(xué)研究都產(chǎn)生不可估量的影響。正是這種深刻的變革使得統(tǒng)計(jì)專業(yè)原有的實(shí)驗(yàn)室相形見(jiàn)絀:數(shù)據(jù)處理能力較低、數(shù)據(jù)處理速度較慢、數(shù)據(jù)存儲(chǔ)量較少、實(shí)驗(yàn)室數(shù)據(jù)資源主題較為單一。
綜上分析可知,統(tǒng)計(jì)學(xué)大數(shù)據(jù)實(shí)驗(yàn)室的建設(shè)實(shí)際上需要融合統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)與技術(shù)、信息管理等多個(gè)學(xué)科的知識(shí)。構(gòu)建統(tǒng)計(jì)大數(shù)據(jù)實(shí)驗(yàn)室的基本邏輯就是;以云計(jì)算和Hadoop計(jì)算平臺(tái)為中心,以數(shù)據(jù)采集(清洗)和數(shù)據(jù)管理及服務(wù)為兩翼,以滿足教學(xué)、科研和社會(huì)服務(wù)為目標(biāo)的軟件、硬件的有機(jī)結(jié)合。其中最為核心的就是基于Hadoop平臺(tái)的數(shù)據(jù)存儲(chǔ)、計(jì)算和服務(wù)。
實(shí)驗(yàn)室建設(shè)要選擇上述哪種模式最大的制約因素還是資金和時(shí)間。如果實(shí)驗(yàn)室配套經(jīng)費(fèi)充足,那么可以直接搭建私有云,相應(yīng)的也可以建設(shè)一個(gè)適度規(guī)模的Hadoop平臺(tái),但對(duì)于大部分高校而言動(dòng)輒上千萬(wàn)的設(shè)備投入不是一個(gè)小的數(shù)目,建設(shè)的風(fēng)險(xiǎn)和維護(hù)的成本都比較高,最好能夠在有較好的技術(shù)及人才儲(chǔ)備后再嘗試這種模式。常用的統(tǒng)計(jì)軟件SAS、SPSS也都可以部署在云端。購(gòu)置一定的數(shù)據(jù)存儲(chǔ)服務(wù)器以及計(jì)算服務(wù)器模擬Hadoop平臺(tái)下的數(shù)據(jù)管理以及計(jì)算,當(dāng)然這種模式下數(shù)據(jù)處理能力肯定無(wú)法與真正的Hadoop平臺(tái)能力完全相同。如果實(shí)驗(yàn)室經(jīng)費(fèi)在幾百萬(wàn)則可以嘗試混合云模式,可以部分購(gòu)買公有云模式下的數(shù)據(jù)存儲(chǔ)、教學(xué)資源及數(shù)據(jù)處理服務(wù)。如果經(jīng)費(fèi)較為緊張,可以簡(jiǎn)單的購(gòu)買公有云服務(wù),學(xué)生也可以學(xué)習(xí)到數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)軟件以及體驗(yàn)云計(jì)算的樂(lè)趣。可以說(shuō)對(duì)于大部分院校而言,混合云模式較為有利。
構(gòu)建大數(shù)據(jù)實(shí)驗(yàn)室就是要在合理的成本下,搭建模擬大數(shù)據(jù)分析的軟件與硬件環(huán)境,使得學(xué)生能夠在學(xué)校內(nèi)模擬在企業(yè)中所做的大數(shù)據(jù)統(tǒng)計(jì)分析工作。構(gòu)建統(tǒng)計(jì)大數(shù)據(jù)實(shí)驗(yàn)室不同于傳統(tǒng)上建設(shè)一個(gè)計(jì)算機(jī)機(jī)房,也不是真的要完全建設(shè)一個(gè)商業(yè)應(yīng)用級(jí)別的Hadoop平臺(tái),那樣大部分院校都無(wú)法承擔(dān)其建設(shè)的成本與運(yùn)維的費(fèi)用。目前,許多軟件、硬件供應(yīng)商都提供了針對(duì)高校的大數(shù)據(jù)實(shí)驗(yàn)室的解決方案,根據(jù)其對(duì)云計(jì)算應(yīng)用模式選擇的不同,可以進(jìn)行如下分類。
公有云模式。相對(duì)于私有云模式,數(shù)據(jù)存儲(chǔ)和云計(jì)算的服務(wù)器均部署在遠(yuǎn)程供應(yīng)商處的模式,微軟、阿里等公司提供類似的服務(wù)。這種模式的優(yōu)點(diǎn)是高校無(wú)需購(gòu)買大量的軟件及硬件,對(duì)客戶端的配置要求也比較低,應(yīng)用后期的維護(hù)成本也非常的低。這種模式的缺點(diǎn)是由于云計(jì)算服務(wù)器處于遠(yuǎn)端,服務(wù)的效果受到公共網(wǎng)絡(luò)速度的限制,其穩(wěn)定性和安全性受到一定的制約。
私有云模式。簡(jiǎn)單的講,這種模式就是將數(shù)據(jù)存儲(chǔ)和云計(jì)算的全部服務(wù)器均部署在本地的模式,華為、甲骨文等公司提供這種類型的服務(wù)。這種模式的優(yōu)點(diǎn)是云計(jì)算平臺(tái)就在本地,其提供的云計(jì)算服務(wù)可以不受遠(yuǎn)程網(wǎng)絡(luò)速度的限制,能夠很好的為整個(gè)校園中需要大數(shù)據(jù)分析及服務(wù)的各個(gè)專業(yè)師生提供統(tǒng)計(jì)計(jì)算服務(wù)。這種模式的缺點(diǎn)是實(shí)驗(yàn)室需要直接購(gòu)買全部的硬件及軟件,其成本較高,系統(tǒng)在運(yùn)行及維護(hù)階段需要有專門的人員和經(jīng)費(fèi)做支持。
混合云模式。這種模式顧名思義就是將私有云模式與公有云模式進(jìn)行有機(jī)結(jié)合。公有云部分可以提供虛擬教學(xué)、異地備災(zāi)、云計(jì)算以及教學(xué)資源等服務(wù),而本地云則可以承擔(dān)大數(shù)據(jù)計(jì)算的模擬以及數(shù)據(jù)管理和服務(wù)。這種模式的優(yōu)點(diǎn)較多,既可以靈活的運(yùn)用價(jià)格較低的公有云服務(wù),也可以用相對(duì)較少的經(jīng)費(fèi)體驗(yàn)Hadoop平臺(tái)的計(jì)算魅力。
統(tǒng)計(jì)專業(yè)大數(shù)據(jù)實(shí)驗(yàn)室建設(shè)不是簡(jiǎn)單的將軟件與硬件進(jìn)行堆砌,也不是將傳統(tǒng)的統(tǒng)計(jì)軟件運(yùn)行在新的云計(jì)算平臺(tái)上。云計(jì)算只是一個(gè)技術(shù)支撐,為避免實(shí)驗(yàn)室建設(shè) 空心化 ,完善實(shí)驗(yàn)室的建設(shè)與運(yùn)行還要注意以下幾個(gè)方面。第一,加強(qiáng)數(shù)據(jù)資源的購(gòu)買和積累。統(tǒng)計(jì)大數(shù)據(jù)實(shí)驗(yàn)室需要積累一定量的大數(shù)據(jù)案例和行業(yè)數(shù)據(jù),在數(shù)據(jù)支撐下,學(xué)生在案例教學(xué)中才能較好的學(xué)習(xí)大數(shù)據(jù)理論與技術(shù)。第二,實(shí)驗(yàn)室可以聯(lián)合IT廠商做相關(guān)的培訓(xùn)和認(rèn)證。學(xué)生獲得行業(yè)認(rèn)證有利于今后的學(xué)習(xí)與求職,同時(shí)培訓(xùn)工作也在高校教師同企業(yè)之間搭建了橋梁,有利于今后產(chǎn)學(xué)研的結(jié)合。第三,立足科研,做好社會(huì)服務(wù)工作。條件較好的大數(shù)據(jù)實(shí)驗(yàn)室可以開(kāi)展相關(guān)服務(wù),這樣有利于多方資金的投入建設(shè)。第四,做好師資力量的培養(yǎng)和積累。大數(shù)據(jù)實(shí)驗(yàn)室需要具備IT技術(shù)的統(tǒng)計(jì)專業(yè)教師,對(duì)這部分教師的培訓(xùn)和實(shí)踐鍛煉是非常有必要的,同時(shí)對(duì)于部分 外聘人員 也需要提供一定的優(yōu)惠薪金。第五,加強(qiáng)國(guó)際、國(guó)內(nèi)的交流與合作,為實(shí)驗(yàn)室建設(shè)提供更為有利的前瞻性規(guī)劃。