亚洲国产精品无码成人片久久-夜夜高潮夜夜爽夜夜爱爱-午夜精品久久久久久久无码-凹凸在线无码免费视频

期刊大全 雜志訂閱 SCI期刊 投稿指導(dǎo) 期刊服務(wù) 文秘服務(wù) 出版社 登錄/注冊(cè) 購(gòu)物車(chē)(0)

首頁(yè) > 精品范文 > 數(shù)據(jù)分析的方法

數(shù)據(jù)分析的方法精品(七篇)

時(shí)間:2023-05-30 14:35:51

序論:寫(xiě)作是一種深度的自我表達(dá)。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來(lái)了七篇數(shù)據(jù)分析的方法范文,愿它們成為您寫(xiě)作過(guò)程中的靈感催化劑,助力您的創(chuàng)作。

數(shù)據(jù)分析的方法

篇(1)

企業(yè)數(shù)據(jù)分析的編寫(xiě),核心在于對(duì)數(shù)據(jù)的科學(xué)分析。數(shù)據(jù)分析除了要以檔案為基礎(chǔ),遵循“全面、真實(shí)、客觀、有效”的原則外,關(guān)鍵是要掌握和應(yīng)用科學(xué)的分析方法,使數(shù)據(jù)分析應(yīng)盡可能做到深入、準(zhǔn)確,從而使我們對(duì)數(shù)據(jù)背后所隱含的問(wèn)題、原因、趨勢(shì)和規(guī)律的認(rèn)識(shí)能更接近于真理。

企業(yè)數(shù)據(jù)分析編寫(xiě)過(guò)程中,常用的分析方法有對(duì)比分析法、趨勢(shì)分析法、結(jié)構(gòu)分析法和綜合分析法等。本文結(jié)合工作實(shí)際,對(duì)如何運(yùn)用這四種基本分析方法談點(diǎn)想法。

對(duì)比分析法

所謂對(duì)比分析法,是指將兩個(gè)或兩組以上的數(shù)據(jù)進(jìn)行比較,分析它們的差異性,從而揭示這些數(shù)據(jù)所代表的事物的發(fā)展變化情況和規(guī)律性。對(duì)比分析法是比較研究的一種方法,在企業(yè)數(shù)據(jù)分析中的應(yīng)用十分普遍。它的特點(diǎn)是,通過(guò)比較分析,可以非常直觀地看出企業(yè)某方面工作的變化或差距,并且可以準(zhǔn)確、量化地表示出這種變化或差距是多少。

在實(shí)際應(yīng)用中,企業(yè)數(shù)據(jù)的對(duì)比分析,一般有以下幾種具體情況:

一是將企業(yè)當(dāng)年的數(shù)據(jù)與歷年(去年或前幾年)的數(shù)據(jù)進(jìn)行對(duì)比分析,目的是為了搞清楚與去年或前幾年相比,企業(yè)某一方面或某些方面的發(fā)展變化情況。比如,某公司2006年利潤(rùn)100萬(wàn)元,2007年利潤(rùn)115萬(wàn)元,年增長(zhǎng)率為15%。通過(guò)這種對(duì)比,我們就可以公司利潤(rùn)的變化情況有一個(gè)更直觀、更清楚的認(rèn)識(shí)。當(dāng)然,在許多時(shí)候,這種對(duì)比分析不會(huì)局限在某一個(gè)數(shù)據(jù),而是一組數(shù)據(jù)。比如,在對(duì)企業(yè)當(dāng)年的利潤(rùn)與去年利潤(rùn)進(jìn)行對(duì)比分析的同時(shí),還可以將產(chǎn)量、銷(xiāo)售量、銷(xiāo)售額、成本、稅金、市場(chǎng)占有量、占有率等指標(biāo)進(jìn)行對(duì)比分析,從而更全面了解掌握企業(yè)的發(fā)展現(xiàn)狀。

二是將本單位數(shù)據(jù)與同行業(yè)(外單位、同行業(yè)平均水平)的數(shù)據(jù)進(jìn)行對(duì)比分析,目的是為了搞清楚與外單位、同行業(yè)平均水平,本單位某一方面或各方面的發(fā)展水平處于什么樣的位置,明確哪些指標(biāo)是領(lǐng)先的,哪些指標(biāo)是落后的,進(jìn)而找出下一步發(fā)展的方向和目標(biāo)。比如,2005年,某發(fā)電廠供電煤耗為340克/千瓦時(shí),當(dāng)年全國(guó)火電行業(yè)平均煤耗指標(biāo)為310克/千瓦時(shí),該發(fā)電廠的實(shí)際煤耗指標(biāo)比全國(guó)火電行業(yè)平均煤耗多了30克/千瓦時(shí)。通過(guò)這樣的對(duì)比分析,我們可以看出,該發(fā)電廠在能耗方面存在著比較突出問(wèn)題,如何節(jié)能降耗應(yīng)該成為企業(yè)下一步重點(diǎn)關(guān)注的一個(gè)工作內(nèi)容,也是提高企業(yè)經(jīng)濟(jì)效益的一條重要途徑。

為了一目了然地看出數(shù)據(jù)對(duì)比的直觀效果,對(duì)比分析一般可用柱式圖表表示。

趨勢(shì)分析法

所謂趨勢(shì)分析法,是指通過(guò)對(duì)某一個(gè)或幾個(gè)數(shù)據(jù)在一定階段的變化情況進(jìn)行分析,從而發(fā)現(xiàn)該數(shù)據(jù)所代表事物的發(fā)展趨勢(shì)和規(guī)律,并可進(jìn)一步分析形成這種趨勢(shì)的原因,為企業(yè)領(lǐng)導(dǎo)決策提供依據(jù)和參考。趨勢(shì)分析法實(shí)際上是一種歷史研究的方法,在企業(yè)數(shù)據(jù)分析的編寫(xiě)中,主要用來(lái)表示企業(yè)某一方面或某些方面的工作在一定時(shí)期內(nèi)的發(fā)展趨勢(shì)和規(guī)律。其特點(diǎn)是對(duì)某一時(shí)期的某一數(shù)據(jù)進(jìn)行持續(xù)性考察,進(jìn)而得出趨勢(shì)性的結(jié)論。

一般說(shuō)來(lái),對(duì)數(shù)據(jù)進(jìn)行趨勢(shì)分析的結(jié)果不外乎以下四種情況:

一是某項(xiàng)數(shù)據(jù)的變化呈逐年加大的趨勢(shì),稱(chēng)為上升趨勢(shì)。比如某企業(yè)利潤(rùn)額:2001年為150萬(wàn)元、2002年173萬(wàn)元、2003年220萬(wàn)元、2004年360萬(wàn)元、2005年500萬(wàn)元。從對(duì)這組數(shù)據(jù)的分析中可以得出結(jié)論:該企業(yè)的利潤(rùn)呈逐年上升的趨勢(shì)。

二是某項(xiàng)數(shù)據(jù)的變化呈逐年減小的趨勢(shì),稱(chēng)為下降趨勢(shì)。例某企業(yè)產(chǎn)品的市場(chǎng)占有率:2001年為30%、2002年24%、2003年15%、2004年9%、2005年6%。從對(duì)這組數(shù)據(jù)的分析中可以得出結(jié)論:該企業(yè)產(chǎn)品的市場(chǎng)占有率呈逐年下降的趨勢(shì),說(shuō)明該產(chǎn)品的市場(chǎng)競(jìng)爭(zhēng)力正在下降,企業(yè)應(yīng)該對(duì)該產(chǎn)品進(jìn)行升級(jí)換代,或者開(kāi)發(fā)生產(chǎn)新的產(chǎn)品。

三是某項(xiàng)數(shù)據(jù)或上升或下降,每年都有較大變化,稱(chēng)為震蕩趨勢(shì)。比如某企業(yè)的經(jīng)營(yíng)成本:2001年為50萬(wàn)元、2002年83萬(wàn)元、2003年61萬(wàn)元、2004年46萬(wàn)元、2005年103萬(wàn)元。從對(duì)這組數(shù)據(jù)的分析中可以得出結(jié)論:該企業(yè)每年的經(jīng)營(yíng)成本變化較大,呈震蕩趨勢(shì),說(shuō)明企業(yè)在控制經(jīng)營(yíng)成本方面還要進(jìn)一步采取措施。

四是某項(xiàng)數(shù)據(jù)幾年來(lái)基本不變,或變化很小,稱(chēng)為穩(wěn)定趨勢(shì)。例如某企業(yè)的人均產(chǎn)值:2001年為60萬(wàn)元、2002年63萬(wàn)元、2003年61萬(wàn)元、2004年62萬(wàn)元、2005年63萬(wàn)元。從對(duì)這組數(shù)據(jù)的分析中可以得出結(jié)論:該企業(yè)的人均產(chǎn)值每年變化不大,呈穩(wěn)定趨勢(shì)。

為了更形象地看出數(shù)據(jù)在一定時(shí)期內(nèi)的變化軌跡,對(duì)數(shù)據(jù)的趨勢(shì)分析一般可以用曲線圖表表示。

結(jié)構(gòu)分析法

所謂結(jié)構(gòu)分析法,就是通過(guò)分析數(shù)據(jù)的構(gòu)成情況,即分析構(gòu)成某一數(shù)據(jù)的各子數(shù)據(jù)的情況和權(quán)重,從而揭示構(gòu)成某一事物的各方面因素在其中的作用大小和變化情況。結(jié)構(gòu)分析法也是常用的企業(yè)數(shù)據(jù)分析方法,通過(guò)這一分析方法,有利于我們發(fā)現(xiàn)和把握事物的主要矛盾和矛盾的主要方面,對(duì)企業(yè)而言,可以據(jù)此確定工作重點(diǎn)或經(jīng)營(yíng)的主攻方向。

在實(shí)際工作中,當(dāng)我們需要對(duì)企業(yè)的某一數(shù)據(jù)作深入分析時(shí),常常需要用到結(jié)構(gòu)分析法。例如我們分析某供電局利潤(rùn)的結(jié)構(gòu)情況:2007年,企業(yè)利潤(rùn)為1000萬(wàn)元,其中主業(yè)占80%、三產(chǎn)占20%。這就是結(jié)構(gòu)分析的方法,從中我們就可以清楚地知道,主業(yè)和三產(chǎn)對(duì)企業(yè)利潤(rùn)的貢獻(xiàn)比例。在這個(gè)基礎(chǔ)上,我們還可以作進(jìn)一步的分析,在200萬(wàn)元的三產(chǎn)利潤(rùn)中:火電建設(shè)公司占35%、電力設(shè)計(jì)院占30%、電纜廠占15%、電表廠占10%、電桿廠占5%、賓館占5%。從而我們可以看出火電建設(shè)公司和電力設(shè)計(jì)院兩家對(duì)三產(chǎn)利潤(rùn)的貢獻(xiàn)率達(dá)到了65%,是發(fā)展三產(chǎn)的主力軍。從供電局的角度而言,抓好三產(chǎn)工作,重點(diǎn)是要抓好火電建設(shè)公司和電力設(shè)計(jì)院的工作。

為了直觀地反映某一數(shù)據(jù)的構(gòu)成情況,結(jié)構(gòu)分析法一般采用圓餅圖表來(lái)表示分析的結(jié)果。

綜合分析法

在編寫(xiě)企業(yè)數(shù)據(jù)分析時(shí),往往不是單一地使用一種數(shù)據(jù)分析方法,為了使數(shù)據(jù)分析更透徹、更深入,更多時(shí)候我們都需要采用綜合分析的方法。所謂綜合分析法,就是將以上兩種或兩種以上的分析方法結(jié)合起來(lái)使用,從而多角度、多層次地分析揭示數(shù)據(jù)的變化、趨勢(shì)和結(jié)構(gòu)情況,以增加數(shù)據(jù)分析的深度。

綜合分析法在具體應(yīng)用中,有以下幾種情況:

一是對(duì)比分析與趨勢(shì)分析相結(jié)合的方法。就是通過(guò)對(duì)兩個(gè)或兩組以上的數(shù)據(jù)在一定階段的變化情況進(jìn)行比較分析,從而發(fā)現(xiàn)數(shù)據(jù)所代表事物的發(fā)展趨勢(shì)、差別和關(guān)系,并可進(jìn)一步分析原因,為企業(yè)領(lǐng)導(dǎo)決策提供依據(jù)和參考。比如,我們可以使用這一方法來(lái)分析一定階段企業(yè)利潤(rùn)和成本的變化和相互關(guān)系。再如,我們將“十五”期間本企業(yè)的利潤(rùn)指標(biāo)與其他企業(yè)的利潤(rùn)指標(biāo)進(jìn)行比較分析,所應(yīng)用的也就是對(duì)比分析與趨勢(shì)分析相結(jié)合的方法。

二是對(duì)比分析與結(jié)構(gòu)分析相結(jié)合的方法。就是對(duì)兩個(gè)或兩組以上的數(shù)據(jù)的構(gòu)成情況進(jìn)行分析比較,從而可以看出構(gòu)成這兩個(gè)或兩組以上的數(shù)據(jù)的各種因素的差異性,以此剖析產(chǎn)生這種差異的原因,并提出相應(yīng)的對(duì)策措施。比如,2006年,A供電局利潤(rùn)500萬(wàn)元,B供電局利潤(rùn)700萬(wàn)元。如果只采取對(duì)比分析的方法,我們獲得的結(jié)論就是:“B供電局利潤(rùn)比A供電局多200萬(wàn)元”。結(jié)合結(jié)構(gòu)分析:A供電局利潤(rùn)500萬(wàn)元中,主業(yè)為450萬(wàn)元,三產(chǎn)為50萬(wàn)元;B供電局利潤(rùn)700萬(wàn)元中,主業(yè)為560萬(wàn)元,三產(chǎn)為140萬(wàn)元。由此看出,A、B供電局在主業(yè)利潤(rùn)差距并不大,差距主要在三產(chǎn)上。因此,發(fā)展三產(chǎn)應(yīng)成為A供電局利潤(rùn)增長(zhǎng)的主要著力點(diǎn)。

三是趨勢(shì)分析與結(jié)構(gòu)分析相結(jié)合的方法。就是通過(guò)對(duì)構(gòu)成某一數(shù)據(jù)的子數(shù)據(jù)在一定階段的變化情況進(jìn)行分析,從而揭示構(gòu)成某一事物的各方面因素在其中的作用大小和變化趨勢(shì)。比如,我們分析某企業(yè)一定階段銷(xiāo)售額及各種產(chǎn)品銷(xiāo)售額的構(gòu)成和變化情況,就可以使用這一方法。這樣的分析既可以了解銷(xiāo)售額的變化趨勢(shì),也可以全面掌握各種產(chǎn)品在銷(xiāo)售額中的權(quán)重比例和變化趨勢(shì),從而知道哪些產(chǎn)品需要擴(kuò)大生產(chǎn),哪些產(chǎn)品需要減產(chǎn)或停產(chǎn),什么時(shí)候需要開(kāi)發(fā)新的產(chǎn)品。

篇(2)

[關(guān)鍵詞]財(cái)政收入;GDP;面板數(shù)據(jù)

中圖分類(lèi)號(hào):F01 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-0278(2013)02-024-01

在計(jì)量經(jīng)濟(jì)學(xué)中,我們一般應(yīng)用的最多的數(shù)據(jù)分析是截面數(shù)據(jù)回歸分析和時(shí)間序列分析,但截面數(shù)據(jù)分析和時(shí)間序列分析都有著一定的局限性。在實(shí)際經(jīng)濟(jì)研究當(dāng)中,截面數(shù)據(jù)回歸分析會(huì)遺漏掉數(shù)據(jù)的時(shí)間序列特征,例如在分析某年中國(guó)各省的GDP增長(zhǎng)數(shù)據(jù)時(shí),單純的截面數(shù)據(jù)回歸分析無(wú)法找出各省GDP隨時(shí)間變化的特征,使得分析結(jié)果沒(méi)有深度。而如果只用時(shí)間序列分析,則會(huì)遺漏掉不同截面間的聯(lián)系與區(qū)別,例如在分析中國(guó)單個(gè)省市的GDP隨時(shí)間增長(zhǎng)的數(shù)據(jù)時(shí),無(wú)法找出各個(gè)省市之間經(jīng)濟(jì)增長(zhǎng)的聯(lián)系與區(qū)別,因而同樣無(wú)法滿足我們的需要。而面板數(shù)據(jù),是一種既包括了時(shí)間序列數(shù)據(jù),也包括了相關(guān)截面數(shù)據(jù)的復(fù)合數(shù)據(jù),是近年來(lái)用得較多的一種數(shù)據(jù)類(lèi)型。

下面我們將基于2000-2009年中國(guó)各省GDP和財(cái)政收入的面板數(shù)據(jù)的實(shí)例來(lái)詳細(xì)闡述面板數(shù)據(jù)的分析方法。

一、GDP與財(cái)政收入關(guān)系的經(jīng)濟(jì)學(xué)模型

財(cái)政收入是保證國(guó)家有效運(yùn)轉(zhuǎn)的經(jīng)濟(jì)基礎(chǔ),在一國(guó)經(jīng)濟(jì)建設(shè)中發(fā)揮著重要作用。隨著中國(guó)經(jīng)濟(jì)發(fā)展速度的日益加快,財(cái)政收入不斷擴(kuò)大,而擴(kuò)大的財(cái)政收入又以政府支出來(lái)調(diào)節(jié)和推動(dòng)國(guó)民經(jīng)濟(jì)發(fā)展。正確認(rèn)識(shí)財(cái)政收入與經(jīng)濟(jì)增長(zhǎng)之間的長(zhǎng)期關(guān)系,把握財(cái)政收入與經(jīng)濟(jì)增長(zhǎng)之間的相互影響,發(fā)揮財(cái)政收入對(duì)經(jīng)濟(jì)發(fā)展的調(diào)節(jié)和促進(jìn)功能,對(duì)于完善財(cái)稅政策,深化財(cái)稅體制改革,實(shí)現(xiàn)財(cái)政與經(jīng)濟(jì)之間的良性互動(dòng),具有重要的現(xiàn)實(shí)意義。文章就將從中國(guó)各省的面板數(shù)據(jù)出發(fā)研究,中國(guó)不同地域間財(cái)政收入和GDP之間的關(guān)系。

二、實(shí)證分析

(一)單位根檢驗(yàn)

Eviews有兩種單位根檢驗(yàn)方法,一種在相同根的假設(shè)下的檢驗(yàn),包括LLC、Breintung、Hadri。另一種則是在不同根下的假設(shè)前提下,包括IPS,ADF-Fisher和PP-Fisher5。檢驗(yàn)結(jié)果表明所有檢驗(yàn)都拒絕原假設(shè),因此序列GDP和CZSR均為一個(gè)2階單整序列。

(二)協(xié)整檢驗(yàn)

如果基于單位根檢驗(yàn)的結(jié)果發(fā)現(xiàn)變量之間是同階單整的,那么我們可以進(jìn)行協(xié)整檢驗(yàn)。協(xié)整檢驗(yàn)是考察變量間長(zhǎng)期均衡關(guān)系的方法。所謂的協(xié)整是指若兩個(gè)或多個(gè)非平穩(wěn)的變量序列,其某個(gè)線性組合后的序列呈平穩(wěn)性。此時(shí)我們稱(chēng)這些變量序列間有協(xié)整關(guān)系存在。

在最終的結(jié)果中,Pedroni方法中除了rho-Statistic、PP-Statistic項(xiàng)目外都拒絕GDP和CZSR不存在協(xié)整關(guān)系的原假設(shè),同樣Kao和Johansen檢驗(yàn)方法也都拒絕原假設(shè),因此,上述檢驗(yàn)結(jié)果表明,我國(guó)各省2000-20009年的GDP和財(cái)政收入面板數(shù)據(jù)間存在著協(xié)整關(guān)系。既然通過(guò)了協(xié)整檢驗(yàn),說(shuō)明變量之間存在著長(zhǎng)期穩(wěn)定的均衡關(guān)系,其方程回歸殘差是平穩(wěn)的,因此可以在此基礎(chǔ)上直接對(duì)進(jìn)行回歸分析,此時(shí)假設(shè)方程的回歸結(jié)果是較精確的。

三、建立模型

混合模型:如果從時(shí)間上看,不同個(gè)體之間不存在顯著性差異;從截面上看,不同截面之間也不存在顯著性差異,那么就可以直接把面板數(shù)據(jù)混合在一起用普通最小二乘法(OLS)估計(jì)參數(shù)。

我們根據(jù)混合模型的回歸結(jié)果,得到財(cái)政收入和GDP之間的回歸方程為:

CZSR=227.3123+0.103224*GDP

(26.47637)(0.002839)

R2=0.810995 F=1321.587

顯然從模型的回歸結(jié)構(gòu)來(lái)看,R2的值達(dá)到了0.81,有了比較好的回歸解釋力,同時(shí),GDP的回歸系數(shù)為0.103224,表明各省的財(cái)政收入平均占到了國(guó)民收入的10.3%左右。

變系數(shù)模型:顯然,在中國(guó)各省之間由于處在不同的地區(qū),因而擁有不同的區(qū)位優(yōu)勢(shì),那么各省的發(fā)展水平顯然就不一樣。正是由于這種不同的地方政策、管理水平、文化差異等會(huì)導(dǎo)致經(jīng)濟(jì)變量間出現(xiàn)一些關(guān)聯(lián)性的變化,此時(shí)在進(jìn)行模型回歸的時(shí)候,我們就有必要考慮變系數(shù)模型。

在回歸結(jié)果中,R2的值達(dá)到了0.97,比混合模型擁有更好的回歸解釋力,而在變系數(shù)模型回歸結(jié)果中,GDP的回歸系數(shù)大于0.5的只有、青海、寧夏三個(gè)省份,也就是說(shuō)這三個(gè)省份的財(cái)政收入占到了GDP的50%以上,他們同處于經(jīng)濟(jì)并不是很發(fā)達(dá)的西部地區(qū),由此可以看出,處在經(jīng)濟(jì)發(fā)達(dá)地區(qū)的財(cái)政收入占GDP的比重要低,而不發(fā)達(dá)地區(qū)則要高。

四、結(jié)論

通過(guò)以上的分析檢驗(yàn),我們發(fā)現(xiàn)針對(duì)于中國(guó)財(cái)政收入和GDP的面板數(shù)據(jù),我們應(yīng)建立起變系數(shù)模型,并通過(guò)模型分析,我們可以得出這樣的結(jié)論,中國(guó)各省間由于存在著地域經(jīng)濟(jì)發(fā)展水平不同、管理水平不同以及國(guó)家的相關(guān)政策等諸多不同,造成了各省之間在財(cái)政收入以及國(guó)民收入上面存在著一定的差異。而回歸結(jié)果也告訴我們,我國(guó)西部地區(qū)的財(cái)政收入占GDP的比例要明顯高于東部地區(qū),地區(qū)發(fā)展落后地區(qū)的財(cái)政收入占GDP的比例也要明顯高于東部地區(qū)。因此,這為我們改善我國(guó)落后地區(qū)的經(jīng)濟(jì)發(fā)展提供了一定的新思路,就是對(duì)一地區(qū)的稅收征收可以適當(dāng)放緩,而將GDP中以前政府占用的部分歸還于民眾和企業(yè),因?yàn)椋凑瞻l(fā)達(dá)地區(qū)的經(jīng)驗(yàn)表明,財(cái)政收入所占比重過(guò)高,經(jīng)濟(jì)發(fā)展的活力或者就不會(huì)很高,對(duì)于進(jìn)一步刺激財(cái)政收入的增加也沒(méi)有任何幫助。因此,我們應(yīng)該適度降低財(cái)政收入占GDP的比重,從而增加經(jīng)濟(jì)活力,使西部地區(qū)以及落后地區(qū)及早的跟上東部發(fā)達(dá)地區(qū)的發(fā)展步伐,從而消除我國(guó)經(jīng)濟(jì)發(fā)展的地域不平衡。

參考文獻(xiàn):

[1]謝識(shí)予,朱洪鑫.高級(jí)計(jì)量經(jīng)濟(jì)學(xué)[M].復(fù)旦大學(xué)出版社,2005.

[2]張曉峒.Eviews使用指南(第二版)[M].南開(kāi)大學(xué)出版社,2004.

篇(3)

關(guān)鍵詞:大數(shù)據(jù) 大數(shù)據(jù)分析方法 情報(bào)研究 適用性

中圖分類(lèi)號(hào): G250.2 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1003-6938(2014)05-0013-07

Preliminary Study on the Big Data Analytics and Its Adaptability in Intelligence Studies

Abstract Big data analytics has brought new opportunities for data-oriented or information-oriented intelligence studies' development. Based on existing research, the author makes a review of three viewpoints of big data analytics based on data, process and information technology, and then summarizes five levels of analytics which including statistics, mining, discovery, predict and integrate, and its 17 kinds of relevant research methods. The adaptability of big data analytics in the intelligence studiesis discussed and it is found that 10 research methods can be directly transplanted to intelligence studies, 2 research methods should be adjusted for transplantation, 2 research methods are inapplicable, and 3 research methods needfurther study.

Key words big data; big data analytics; intelligence studies; adaptability

大數(shù)據(jù)分析(Big Data Analytics,BDA)是以“深度的發(fā)現(xiàn)分析、引領(lǐng)行動(dòng)”作為目標(biāo)的工作[1-2],它包括由多個(gè)任務(wù)組成的高度重復(fù)執(zhí)行的步驟[3-4]。BDA通常要集成多種分析技術(shù)與軟件工具,以便讓海量數(shù)據(jù)的處理及分析變得更加容易,從數(shù)據(jù)中提取有用信息并形成結(jié)論,用來(lái)驗(yàn)證、指導(dǎo)及規(guī)范組織或個(gè)人的決策行動(dòng);BDA的執(zhí)行過(guò)程一般包括問(wèn)題需求及假設(shè)提出、數(shù)據(jù)獲取及記錄、信息抽取及清洗、數(shù)據(jù)整合及表示、選擇建模及分析方法、結(jié)果詮釋、評(píng)測(cè)結(jié)果有效性及監(jiān)控等幾個(gè)階段。從以上BDA的定義及過(guò)程來(lái)看,BDA與情報(bào)學(xué)領(lǐng)域中的情報(bào)研究(也稱(chēng)情報(bào)分析)在本質(zhì)上是一致的,兩者至少在方法與技術(shù)(以下簡(jiǎn)稱(chēng)方法)上可以相互借鑒或補(bǔ)充。本文基于情報(bào)學(xué)的視角,關(guān)注哪些BDA方法可以為情報(bào)研究提供借鑒,并解決情報(bào)研究的相關(guān)問(wèn)題。因此,本文首先概略總結(jié)BDA的方法體系,然后探討B(tài)DA方法在情報(bào)研究中的適用性。

1 大數(shù)據(jù)分析的方法分類(lèi)

到目前為止,尚沒(méi)有公認(rèn)的BDA方法的分類(lèi)體系,甚至對(duì)BDA包括哪些方法,也有不同的認(rèn)識(shí)。本文首先綜述現(xiàn)有的相關(guān)研究,并以此為基礎(chǔ)提出我們的分類(lèi)體系。

1.1 相關(guān)研究

不同學(xué)者對(duì)BDA方法的看法各有差異,概括起來(lái),主要有三種分類(lèi)體系,分別是面向數(shù)據(jù)視角的分類(lèi)、面向流程視角的分類(lèi)以及面向信息技術(shù)視角的分類(lèi)。

(1)面向數(shù)據(jù)視角的BDA方法分類(lèi)。這類(lèi)研究主要是以BDA處理的對(duì)象“數(shù)據(jù)”作為分類(lèi)依據(jù),從數(shù)據(jù)的類(lèi)型、數(shù)據(jù)量、數(shù)據(jù)能夠解決的問(wèn)題、處理數(shù)據(jù)的方式等角度對(duì)BDA方法進(jìn)行分類(lèi)。

Power[5]依據(jù)分析需求將數(shù)值型數(shù)據(jù)的分析方法劃分為三類(lèi):①若是模式理解及對(duì)未來(lái)做出推論,可采取歷史數(shù)據(jù)及定量工具進(jìn)行“回顧性數(shù)據(jù)分析”;②若要進(jìn)行前瞻及預(yù)測(cè)分析,可采取歷史數(shù)據(jù)及仿真模型進(jìn)行“預(yù)測(cè)性數(shù)據(jù)分析”;③若要觸發(fā)事件,可采取實(shí)時(shí)數(shù)據(jù)及定量工具進(jìn)行“規(guī)范性數(shù)據(jù)分析”。美國(guó)國(guó)家研究委員會(huì)在2013年公布的《海量數(shù)據(jù)分析前沿》研究報(bào)告中提出了七種基本統(tǒng)計(jì)數(shù)據(jù)分析方法[6],包括:①基本統(tǒng)計(jì)(如一般統(tǒng)計(jì)及多維數(shù)分析等);②N體問(wèn)題(N-body Problems)(如最鄰近算法、Kernel算法、PCA算法等);③圖論算法(Graph-Theoretic Algorithm);④線性代數(shù)計(jì)算(Linear Algebraic Computations);⑤優(yōu)化算法(Optimizations);⑥功能整合(如貝葉斯推理模型、Markov Chain Monte Carlo方法等);⑦數(shù)據(jù)匹配(如隱馬爾可夫模型等)。

針對(duì)非純粹的數(shù)值型數(shù)據(jù),Li、Han[7]梳理了面向“時(shí)空數(shù)據(jù)”(Spatiotemporal Data)的BDA方法,通過(guò)對(duì)動(dòng)態(tài)數(shù)據(jù)挖掘出主體的預(yù)測(cè)性,如運(yùn)用物理工程領(lǐng)域的傅立葉變換(Fourier Transform)及自相關(guān)匹配(Autocorrelation)偵查某一時(shí)間區(qū)段的信號(hào)、發(fā)生的事件或生物基因中的周期性節(jié)律,也可運(yùn)用時(shí)間序列方法預(yù)測(cè)地點(diǎn)位置的變化;魏順平[8]以教育領(lǐng)域?yàn)槔崂砹嗣嫦驅(qū)W生與學(xué)習(xí)環(huán)境的“學(xué)習(xí)分析方法”(Learning Analytics),此方法集成了內(nèi)容分析、話語(yǔ)分析、社會(huì)網(wǎng)絡(luò)分析、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘等多種方法,從中挖掘?qū)W習(xí)的各種語(yǔ)義關(guān)系,并回答“誰(shuí)在學(xué)、學(xué)什么、怎么學(xué)、學(xué)的結(jié)果如何”等問(wèn)題,為教學(xué)與優(yōu)化學(xué)習(xí)提供參考。

Mohanty等人[3]從數(shù)據(jù)獲取(Data Ingestion)角度,依照處理的數(shù)據(jù)量從小至大的順序,區(qū)分出八種分析方法:①流分析(Streaming Analytics),以預(yù)定模式及時(shí)處理數(shù)據(jù)流;②高速的數(shù)據(jù)采集(High Velocity Data Ingestion),不轉(zhuǎn)換任何格式,可稍晚處理; ③鏈結(jié)分析(Linkage Analysis),構(gòu)建不同數(shù)據(jù)源的關(guān)系與鏈接;④罕見(jiàn)事件偵查(Rare-Event Detection),從龐大數(shù)據(jù)集中尋找特定模式;⑤數(shù)據(jù)聚合(Data Mash-Ups),需要對(duì)數(shù)據(jù)屬性發(fā)展故事線或鏈接關(guān)系進(jìn)行分析;⑥文本分析(Text Analytics),如觀點(diǎn)挖掘或社會(huì)網(wǎng)絡(luò)分析等;⑦時(shí)間序列分析(Time-Series Analysis),通過(guò)模式偵測(cè)及事件發(fā)生概率來(lái)處理時(shí)空數(shù)據(jù);⑧數(shù)據(jù)辯論(Data Forensic),用于數(shù)據(jù)科學(xué)家探索大規(guī)模數(shù)據(jù)集。

Chen等人[9]認(rèn)為,在商業(yè)智能分析發(fā)展的過(guò)程中,商業(yè)智能分析經(jīng)歷了從處理結(jié)構(gòu)化程度較高的數(shù)據(jù)、到處理網(wǎng)絡(luò)上半結(jié)構(gòu)化數(shù)據(jù)、再到處理移動(dòng)數(shù)據(jù)的發(fā)展,涵蓋了五類(lèi)核心的分析方法:①數(shù)據(jù)分析,涉及數(shù)據(jù)倉(cāng)儲(chǔ)、ETL、聯(lián)機(jī)分析及數(shù)據(jù)挖掘等分析技術(shù),可應(yīng)用在時(shí)間序列挖掘、網(wǎng)站挖掘、空間數(shù)據(jù)挖掘等;②文本分析,涉及信息檢索、查詢(xún)處理、相關(guān)反饋等分析技術(shù),可應(yīng)用在QA系統(tǒng)、觀點(diǎn)挖掘、多語(yǔ)義分析、可視化分析等;③網(wǎng)站分析,涉及信息檢索、網(wǎng)絡(luò)爬蟲(chóng)、日志分析等分析技術(shù),可應(yīng)用在云計(jì)算、社會(huì)網(wǎng)絡(luò)分析、網(wǎng)站可視化等;④網(wǎng)絡(luò)分析,涉及信息計(jì)量、引用網(wǎng)絡(luò)、數(shù)學(xué)網(wǎng)絡(luò)模式等分析技術(shù),可應(yīng)用在鏈結(jié)分析、社區(qū)發(fā)現(xiàn)、社會(huì)影響力及擴(kuò)散模式等;⑤移動(dòng)分析,可應(yīng)用在移動(dòng)通訊服務(wù)、個(gè)性化分析、游戲營(yíng)銷(xiāo)分析等。

(2)面向流程視角的BDA方法分類(lèi)。這類(lèi)研究主要是依據(jù)BDA的步驟和階段對(duì)BDA方法進(jìn)行分類(lèi)。

美國(guó)計(jì)算社區(qū)協(xié)會(huì)出版的《大數(shù)據(jù)的機(jī)會(huì)與挑戰(zhàn)》白皮書(shū)指出BDA是一個(gè)多階段任務(wù)循環(huán)執(zhí)行過(guò)程[4],從整體看,其分析的過(guò)程包括了五個(gè)階段,每一個(gè)階段都包含該階段需要使用的方法:①數(shù)據(jù)獲取及記錄,從各種感知工具中獲取的數(shù)據(jù)通常與空間時(shí)空相關(guān),需要及時(shí)分析技術(shù)處理數(shù)據(jù)并過(guò)濾無(wú)用數(shù)據(jù);②信息抽取及清洗,從異構(gòu)數(shù)據(jù)源抽取有用信息,并轉(zhuǎn)換為結(jié)構(gòu)化的格式;③數(shù)據(jù)整合及表示,將數(shù)據(jù)結(jié)構(gòu)與語(yǔ)義關(guān)系轉(zhuǎn)換為機(jī)器可讀取、自動(dòng)解析的格式;④數(shù)據(jù)建模及分析,從數(shù)據(jù)中挖掘出潛在規(guī)律及知識(shí),涉及可擴(kuò)展的挖掘算法或知識(shí)發(fā)現(xiàn)等方法;⑤詮釋?zhuān)瑸榱俗層脩?hù)容易解讀分析結(jié)果,可視化分析技術(shù)變得十分重要。此外,嚴(yán)霄鳳、張德馨[10]依照搜集、分析到可視化的流程,梳理了適用于大數(shù)據(jù)的關(guān)鍵技術(shù),包括:遺傳算法、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘、回歸分析、分類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則、數(shù)據(jù)融合、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、情感分析、網(wǎng)絡(luò)分析、空間分析、時(shí)間序列分析等多種方法。

(3)面向信息技術(shù)視角的BDA方法分類(lèi)。這類(lèi)研究強(qiáng)調(diào)大數(shù)據(jù)技術(shù)本身涉及到的新型信息技術(shù),將大數(shù)據(jù)處理架構(gòu)、大數(shù)據(jù)計(jì)算模式、大數(shù)據(jù)系統(tǒng)等作為BDA方法分類(lèi)的依據(jù)。

孟小峰、慈祥[11]著眼于大數(shù)據(jù)處理框架,梳理了數(shù)據(jù)抽取與集成、數(shù)據(jù)分析及數(shù)據(jù)解釋所使用的分析方法,在數(shù)據(jù)抽取與集成方面,可區(qū)分為基于物化(Materialization)或ETL的方法、基于聯(lián)邦數(shù)據(jù)庫(kù)或中間件的方法、基于數(shù)據(jù)流的方法以及基于搜索引擎的方法等四類(lèi);在數(shù)據(jù)分析方面,傳統(tǒng)的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)或統(tǒng)計(jì)分析面臨數(shù)據(jù)規(guī)模、算法調(diào)整等困難,需進(jìn)一步發(fā)展;在數(shù)據(jù)解釋方面,引入可視化技術(shù)或交互式的數(shù)據(jù)分析過(guò)程,有助于用戶(hù)理解分析結(jié)果。覃雄派等人[12]認(rèn)為,非關(guān)系數(shù)據(jù)管理(如MapReduce)擴(kuò)展了數(shù)據(jù)分析的多維視角,使數(shù)據(jù)分析的生態(tài)系統(tǒng)從“大量數(shù)據(jù)的移動(dòng)”轉(zhuǎn)向“直接對(duì)數(shù)據(jù)進(jìn)行分析”。

2012~2013年在印度召開(kāi)了兩次BDA國(guó)際研討會(huì)[13-14],會(huì)上分別就BDA中的機(jī)器學(xué)習(xí)面臨數(shù)據(jù)規(guī)模與多維度問(wèn)題、可擴(kuò)展的機(jī)器學(xué)習(xí)算法(如隨機(jī)映射、隨機(jī)梯度下降等)、機(jī)器學(xué)習(xí)在MapReduce的應(yīng)用、社交媒體數(shù)據(jù)挖掘(如話題檢測(cè)與跟蹤、地點(diǎn)推理、語(yǔ)義連接等)、高維數(shù)據(jù)降維分析(如主成分分析、因子分析、經(jīng)典相關(guān)分析等)、圖像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及圖像比對(duì)分析(如特征提取、Iterative Methods)等進(jìn)行了探討。2013年IEEE計(jì)算機(jī)協(xié)會(huì)在美國(guó)召開(kāi)大數(shù)據(jù)國(guó)際研討會(huì),BDA結(jié)合MapReduce、Hadoop等模型的分析方法仍是主流,研究的內(nèi)容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。

1.2 BDA方法的分類(lèi)――面向?qū)哟蔚腂DA方法框架

上述三種視角的BDA分類(lèi)各有特點(diǎn),都有一定的道理。從面向數(shù)據(jù)的視角來(lái)看,BDA方法正從統(tǒng)計(jì)(Statistics)轉(zhuǎn)向挖掘(Mining),并提升到發(fā)現(xiàn)(Discovery)和預(yù)測(cè)(Prediction)。基于流程的BDA分類(lèi)則更能反映BDA過(guò)程的集成性(Integration),也就是說(shuō),在完成一項(xiàng)分析任務(wù)時(shí),需要綜合使用多種方法。從面向信息技術(shù)的BDA分類(lèi)中可以看出,這種分類(lèi)方式強(qiáng)調(diào)使用新技術(shù)對(duì)傳統(tǒng)數(shù)據(jù)處理方法進(jìn)行改進(jìn)和創(chuàng)新,同時(shí)更重視新型系統(tǒng)架構(gòu)與分析方法的集成,例如,各種數(shù)據(jù)挖掘算法的MapReduce化,就是這方面的典型實(shí)例。

本文認(rèn)為,如果綜合上述三種分類(lèi)體系中體現(xiàn)的層次性,將可以更準(zhǔn)確描述BDA方法。在此,本文提出一個(gè)面向?qū)哟蔚腂DA分類(lèi)框架,將BDA方法分為統(tǒng)計(jì)、挖掘、發(fā)現(xiàn)、預(yù)測(cè)及集成五個(gè)層次,并初步歸納出17種BDA相關(guān)方法(見(jiàn)表1)。

2 BDA方法在情報(bào)研究中的適用性探討

如前所述,BDA與情報(bào)研究在本質(zhì)上有共同之處,BDA方法可為情報(bào)研究提供借鑒,因此,探討B(tài)DA方法對(duì)情報(bào)研究的適用性就很有必要性。以下綜合考慮方法本身的完善性及可操作性、情報(bào)研究的分析對(duì)象特征、方法的可移植性[15]等因素,對(duì)本文所列舉的17種面向?qū)哟蔚腂DA方法在情報(bào)研究中的適用性進(jìn)行分析。

2.1 可直接移植的方法

可直接移植方法是指這些方法的原理、流程、算法等可以直接應(yīng)用于情報(bào)研究,用來(lái)對(duì)情報(bào)研究的數(shù)據(jù)源(如科技文獻(xiàn)、網(wǎng)絡(luò)資源等)進(jìn)行處理,解決情報(bào)研究過(guò)程中的一個(gè)或幾個(gè)步驟中要解決的問(wèn)題。在本文所列舉的17種面向?qū)哟蔚腂DA方法中,數(shù)據(jù)挖掘、文本挖掘、知識(shí)發(fā)現(xiàn)、觀點(diǎn)挖掘、話題演化分析、多元統(tǒng)計(jì)分析、時(shí)間序列分析、海量數(shù)據(jù)的基本統(tǒng)計(jì)方法、高維數(shù)據(jù)降維分析方法、多源數(shù)據(jù)融合方法等10種方法均屬于可直接移植方法,其中有些方法在情報(bào)研究中已經(jīng)有多年的應(yīng)用歷史。

(1)數(shù)據(jù)挖掘與文本挖掘。數(shù)據(jù)挖掘與文本挖掘是不同概念,兩種方法分別使用不同的發(fā)現(xiàn)技術(shù),文本挖掘?qū)儆诨谟?jì)算機(jī)語(yǔ)言學(xué)及統(tǒng)計(jì)方法的發(fā)現(xiàn)技術(shù),用來(lái)揭示文本中的詞與句法特征;數(shù)據(jù)挖掘以數(shù)據(jù)庫(kù)中的大量結(jié)構(gòu)化的數(shù)據(jù)挖掘?yàn)榛A(chǔ),用來(lái)揭示數(shù)據(jù)中潛在的、可能的數(shù)據(jù)模式及關(guān)聯(lián)規(guī)律[16]。在情報(bào)學(xué)領(lǐng)域的實(shí)踐應(yīng)用中,數(shù)據(jù)挖掘多應(yīng)用在圖書(shū)館自動(dòng)化技術(shù)與服務(wù)方面,例如,館藏采購(gòu)決策、個(gè)性化服務(wù)、信息檢索、讀者管理、館藏布局等。文本挖掘在情報(bào)研究的價(jià)值在于彌補(bǔ)了情報(bào)學(xué)專(zhuān)門(mén)分析方法對(duì)科技文獻(xiàn)內(nèi)在知識(shí)挖掘不足的缺欠,例如,祝清松、冷伏海[17]為了解決引文分析方法無(wú)法揭示論文的研究?jī)?nèi)容這個(gè)問(wèn)題,提出引文內(nèi)容分析,先建立基于規(guī)則的引文內(nèi)容抽取來(lái)識(shí)別引用句,再通過(guò)基于C-value多詞術(shù)語(yǔ)識(shí)別算法找出高被引論文主題,相比于引文分析,這種方法較能提供客觀的語(yǔ)義信息與文獻(xiàn)之間的語(yǔ)義關(guān)系。

(2)知識(shí)發(fā)現(xiàn)。情報(bào)研究中所說(shuō)的知識(shí)發(fā)現(xiàn),主要是指基于文獻(xiàn)的知識(shí)發(fā)現(xiàn),例如,張樹(shù)良、冷伏海[18]在共詞、共引、文本挖掘等方法基礎(chǔ)上,提出了“基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)”,包括:基于相關(guān)文獻(xiàn)、基于非相關(guān)文獻(xiàn)及基于全文獻(xiàn)三種條件下的知識(shí)發(fā)現(xiàn),完整揭示文獻(xiàn)的知識(shí)結(jié)構(gòu)與演化情況。在網(wǎng)絡(luò)環(huán)境下,李楠、張學(xué)福[19]認(rèn)為關(guān)聯(lián)數(shù)據(jù)的RDF數(shù)據(jù)模型、數(shù)據(jù)訪問(wèn)機(jī)制、URIs及自描述數(shù)據(jù)等規(guī)范所形成的數(shù)據(jù)共享環(huán)境,為知識(shí)發(fā)現(xiàn)提供了新的研究潛力,包括知識(shí)發(fā)現(xiàn)的范圍被擴(kuò)展成全球數(shù)據(jù)空間、高效率理解及處理數(shù)據(jù)間的語(yǔ)義關(guān)系等。簡(jiǎn)言之,知識(shí)發(fā)現(xiàn)從不同數(shù)據(jù)源之間的復(fù)雜關(guān)系中獲得隱含的知識(shí)或規(guī)律,甚至可對(duì)未來(lái)進(jìn)行預(yù)測(cè)。

(3)觀點(diǎn)挖掘與話題演化分析。觀點(diǎn)挖掘與話題演化分析兩種方法實(shí)際上是數(shù)據(jù)挖掘及文本挖掘的具體及深化應(yīng)用。觀點(diǎn)挖掘主要有三種挖掘任務(wù):情感分類(lèi)、基于特征的觀點(diǎn)挖掘、比較語(yǔ)句和關(guān)系挖掘[20],例如,黃曉斌、趙超[21]通過(guò)對(duì)網(wǎng)絡(luò)輿情信息的文本挖掘,找出不同民眾對(duì)某一社會(huì)事件的情緒、態(tài)度及觀點(diǎn),再通過(guò)關(guān)聯(lián)分析找出網(wǎng)絡(luò)輿情信息的各種關(guān)聯(lián)性。趙潔、溫潤(rùn)[22]認(rèn)為微博情感分析的關(guān)鍵是觀點(diǎn)句識(shí)別,并根據(jù)文本特征的差異性,提出了基于新詞擴(kuò)充和特征選擇的觀點(diǎn)句識(shí)別方法,即先擴(kuò)充情感詞典來(lái)提高分詞準(zhǔn)確率,再結(jié)合微博特征進(jìn)行句子選取。話題演化分析方法是近年文本挖掘的研究熱點(diǎn),借助不同的話題模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,獲取文本中的一組詞語(yǔ),表示為某一話題的集合,再引入時(shí)間信息模擬該話題隨著時(shí)間推移所表現(xiàn)的受關(guān)注程度及關(guān)注點(diǎn)的變化[23]。又例如,賀亮、李芳[24]利用LDA模型抽取科技文獻(xiàn)中的話題(即主題詞),再計(jì)算話題的強(qiáng)度與內(nèi)容演化,從而區(qū)分熱門(mén)與冷門(mén)話題及其歷年特征詞的演化趨勢(shì)。

(4)多元統(tǒng)計(jì)分析與時(shí)間序列分析。多元統(tǒng)計(jì)分析與時(shí)間序列分析兩種方法也是情報(bào)研究常見(jiàn)的定量分析方法[25],前者研究客觀事物中多個(gè)變量(或多個(gè)因素)之間相互依賴(lài)的統(tǒng)計(jì)規(guī)律,后者則是基于隨機(jī)過(guò)程理論和數(shù)理統(tǒng)計(jì)學(xué)方法,研究動(dòng)態(tài)數(shù)據(jù)序列的規(guī)律性。這兩種分析方法的一個(gè)重要特點(diǎn)在于能基于歷史數(shù)據(jù)的變化,評(píng)價(jià)事物現(xiàn)狀或預(yù)測(cè)事物未來(lái)的發(fā)展。

(5)海量數(shù)據(jù)的基本統(tǒng)計(jì)分析方法。海量數(shù)據(jù)的七種基本統(tǒng)計(jì)分析方法適用于情報(bào)研究的原因是,專(zhuān)家們普遍認(rèn)為,在現(xiàn)有硬件技術(shù)條件下要開(kāi)發(fā)一個(gè)海量數(shù)據(jù)分析系統(tǒng)的難度過(guò)高,且高性能計(jì)算領(lǐng)域也面臨許多困難,因而轉(zhuǎn)向?qū)ふ夜餐ǖ幕A(chǔ)性計(jì)算方法來(lái)幫助運(yùn)算[6],同時(shí)這些統(tǒng)計(jì)方法也經(jīng)常應(yīng)用于數(shù)據(jù)挖掘或文本挖掘。對(duì)情報(bào)研究來(lái)說(shuō),處理的數(shù)據(jù)量不及高性能計(jì)算領(lǐng)域的海量數(shù)據(jù),因此可以容易地應(yīng)用這些基本統(tǒng)計(jì)分析方法。盡管如此,隨著情報(bào)研究處理的文本量增加,包括文獻(xiàn)計(jì)量或信息計(jì)量方法在內(nèi)的定量分析方法,仍然要經(jīng)常借鑒基礎(chǔ)性的計(jì)算方法,并進(jìn)行公式改進(jìn)。

(6)高維數(shù)據(jù)降維分析方法。高維數(shù)據(jù)降維分析方法反映了海量的數(shù)值型數(shù)據(jù)在數(shù)據(jù)縮減的重要性,常見(jiàn)的降維(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相關(guān)分析、獨(dú)立成分分析、投影尋蹤等[26]。高維數(shù)據(jù)經(jīng)常存在大量的弱相關(guān)內(nèi)容或噪音,通過(guò)線性(如主成分分析、典型相關(guān)分析等)或非線性(如投影尋蹤、核方法等)映射可以將數(shù)據(jù)樣本從高維空間映射到低維空間,從而提高機(jī)器學(xué)習(xí)的效率[27-28]。情報(bào)研究在處理文本語(yǔ)料時(shí),廣泛使用基于向量空間模型來(lái)表示文本,形成的高維特征集會(huì)對(duì)文本分類(lèi)或機(jī)器學(xué)習(xí)的效果產(chǎn)生很大影響,通過(guò)特征選擇(如特征頻率、互信息等)進(jìn)行特征抽取(如PCA、LSI、NMF等),轉(zhuǎn)換成一個(gè)低維的特征集來(lái)提高訓(xùn)練效果,是非常必要的[29]。

(7)多源數(shù)據(jù)融合方法。多源數(shù)據(jù)融合方法是解決大數(shù)據(jù)環(huán)境下異構(gòu)數(shù)據(jù)整合而提出的方法,例如,為了解決不同研究階段產(chǎn)生的各類(lèi)科學(xué)數(shù)據(jù)集成問(wèn)題,白如江、冷伏海[30]認(rèn)為解決關(guān)鍵在于中間件構(gòu)建,例如,通過(guò)基于XML模型將異構(gòu)數(shù)據(jù)源的元數(shù)據(jù)映射到全局視圖,解決了不同數(shù)據(jù)源的關(guān)系描述問(wèn)題,并提供用戶(hù)可靈活訂制查詢(xún)規(guī)則;但基于XML模型只能提供語(yǔ)法層次的整合,為了提供數(shù)據(jù)在語(yǔ)義層次的整合,可通過(guò)基于語(yǔ)義模型對(duì)XML的對(duì)象進(jìn)行分類(lèi),在對(duì)象模型的基礎(chǔ)上生成邏輯規(guī)則,揭示隱含在科學(xué)數(shù)據(jù)中的語(yǔ)義信息。此外,也可以通過(guò)基于物化或ETL方法、基于數(shù)據(jù)流方法或其他方法對(duì)異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)抽取出實(shí)體與關(guān)系,再進(jìn)行數(shù)據(jù)集成或數(shù)據(jù)清洗[11]。多源數(shù)據(jù)融合方法是進(jìn)入數(shù)據(jù)分析之前的重要任務(wù),對(duì)情報(bào)研究來(lái)說(shuō),需要多種來(lái)源支持情報(bào)分析工作,包括同型異源信息、異質(zhì)異構(gòu)信息、多語(yǔ)種信息等,都需要通過(guò)異源信息字段的映射、拆分、濾重、加權(quán)等進(jìn)行融合分析[31]。

2.2 調(diào)整后移植的方法

調(diào)整后移植的方法是指其在原本的領(lǐng)域已經(jīng)成功應(yīng)用,但由于該方法最早或成功應(yīng)用的領(lǐng)域在任務(wù)需求、數(shù)據(jù)處理、分析過(guò)程有自身的特點(diǎn),若移植到情報(bào)研究時(shí),需要根據(jù)情報(bào)研究自身的特征進(jìn)行調(diào)整。數(shù)據(jù)可用處理及分析方法、時(shí)空數(shù)據(jù)分析等兩種分析方法就屬于這類(lèi)情況。

(1)數(shù)據(jù)可用處理及分析方法。大數(shù)據(jù)環(huán)境中容易產(chǎn)生許多劣質(zhì)數(shù)據(jù)來(lái)降低數(shù)據(jù)可用性,為了提高數(shù)據(jù)可用性及數(shù)據(jù)質(zhì)量,李建中及劉顯敏[32]梳理了數(shù)種數(shù)據(jù)可用性的相關(guān)方法,包括高質(zhì)量數(shù)據(jù)獲取與整合、數(shù)據(jù)錯(cuò)誤自動(dòng)檢測(cè)與修復(fù)、弱可用數(shù)據(jù)處理與分析等,分別解決了大規(guī)模數(shù)據(jù)集預(yù)處理階段常見(jiàn)的一致性、精確性、完整性、時(shí)效性及實(shí)體同一性等問(wèn)題。對(duì)情報(bào)研究來(lái)說(shuō),情報(bào)素材、產(chǎn)品形式及工作任務(wù)分解的質(zhì)量控制是情報(bào)工作的核心[33],其中,情報(bào)素材的質(zhì)量對(duì)后續(xù)的情報(bào)分析成敗存在著至關(guān)重要的作用,當(dāng)數(shù)據(jù)或信息是錯(cuò)誤或不完整時(shí),提煉出來(lái)的情報(bào)勢(shì)必會(huì)存在缺陷或錯(cuò)誤。過(guò)去對(duì)情報(bào)研究的質(zhì)量控制取決于人,如果能引入數(shù)據(jù)可用處理及分析方法解決數(shù)據(jù)或信息源可能存在的不一致、不精確、遺漏、滯后或重復(fù)等問(wèn)題,有助于提高情報(bào)分析素材的可用性與正確性。

(2)時(shí)空數(shù)據(jù)分析。時(shí)空數(shù)據(jù)分析是地球信息科學(xué)相關(guān)領(lǐng)域的研究熱點(diǎn),其中最常使用“周期”(Periodic Behavior)分析,例如天氣預(yù)報(bào)、環(huán)境監(jiān)控、地理信息系統(tǒng)、城市交通網(wǎng)絡(luò)管理等都是常見(jiàn)的應(yīng)用實(shí)例[7]。現(xiàn)有研究的多數(shù)做法是采取基于時(shí)間序列的方法進(jìn)行周期建模,但建模過(guò)程容易出現(xiàn)對(duì)象可能沒(méi)有周期、時(shí)間點(diǎn)分布不一定呈現(xiàn)周期性等問(wèn)題,為了解決這些問(wèn)題,王閱等人[34]提出基于ERP的周期檢測(cè)方法解決周期長(zhǎng)度定義問(wèn)題,孟志青等人[35]提出多粒度時(shí)間文本下的周期模式挖掘算法解決時(shí)態(tài)文本數(shù)據(jù)挖掘問(wèn)題。對(duì)情報(bào)研究來(lái)說(shuō),時(shí)間是文本中一個(gè)重要的屬性,如文獻(xiàn)發(fā)表規(guī)律、輿情監(jiān)控、科研人員的研究主題周期等。在原有數(shù)據(jù)基礎(chǔ)上增加時(shí)間維度進(jìn)行長(zhǎng)時(shí)段分析是多數(shù)研究的常見(jiàn)做法,但并沒(méi)有呈現(xiàn)出其中的周期性規(guī)律,特別是文本中的規(guī)律特征較難發(fā)現(xiàn),如果能引入此類(lèi)方法,將有助于找出情報(bào)演化的周期模式。

2.3 不適用的方法

考慮學(xué)科領(lǐng)域差異,本文認(rèn)為 “翻譯生物信息學(xué)分析”及“學(xué)習(xí)分析方法”兩種專(zhuān)門(mén)研究方法不適合情報(bào)研究。

(1)翻譯生物信息學(xué)分析。翻譯生物信息學(xué)分析是生物信息學(xué)的專(zhuān)門(mén)分析方法,這種方法是依據(jù)特定目的整合多數(shù)據(jù)源及促進(jìn)領(lǐng)域知識(shí)的有效利用,其結(jié)果可應(yīng)用在生物醫(yī)學(xué)研究、產(chǎn)生支持醫(yī)療人員在治療點(diǎn)中的“可操作的決策”(Actionable Decision),同時(shí)能對(duì)人類(lèi)與疾病的關(guān)聯(lián)關(guān)系提供更好的理解。生物信息學(xué)為了找出更多基因與疾病的關(guān)系,通過(guò)翻譯生物信息學(xué)分析,可以將分析方法與工具開(kāi)發(fā)從系統(tǒng)層面橫跨到分子、個(gè)人或全人類(lèi)層面,分析視角從單一基因或多肽(Polymorphic)挖掘的研究轉(zhuǎn)向新基因或遺傳性狀組合與預(yù)測(cè)研究[36]。從分析方法的操作過(guò)程來(lái)說(shuō),考慮到數(shù)據(jù)源的特殊性(如DNA編碼數(shù)據(jù)、蛋白質(zhì)結(jié)構(gòu)等)、分析視角、工具構(gòu)建及使用等因素,并不符合情報(bào)學(xué)的學(xué)科研究特色。

(2)學(xué)習(xí)分析方法。學(xué)習(xí)分析方法是搜集、分析及評(píng)測(cè)學(xué)習(xí)者及其學(xué)習(xí)語(yǔ)境的分析方法,目的在于理解與優(yōu)化學(xué)習(xí)及其學(xué)習(xí)環(huán)境[8]。從UNESCO IITE機(jī)構(gòu)在2012年11月出版的學(xué)習(xí)分析方法政策簡(jiǎn)報(bào)可知,學(xué)習(xí)分析方法的數(shù)據(jù)分析功能是基于數(shù)據(jù)挖掘從而開(kāi)展相關(guān)分析內(nèi)容,包括行為分析、學(xué)習(xí)資源瀏覽分析、各種關(guān)聯(lián)分析與影響因素分析等。雖然數(shù)據(jù)挖掘是情報(bào)研究的常見(jiàn)方法,但學(xué)習(xí)分析方法的結(jié)果意義在于解釋學(xué)習(xí)者的學(xué)習(xí)語(yǔ)境,為教師或管理者提供決策支持,從而改善學(xué)習(xí)者的學(xué)習(xí)習(xí)慣及促進(jìn)學(xué)習(xí)效果。由于這種方法有其特定的含義和應(yīng)用環(huán)境,離開(kāi)了學(xué)習(xí)語(yǔ)境,方法的內(nèi)涵和外延可能就會(huì)產(chǎn)生變化,因此,難以移植到情報(bào)研究。

2.4 需要繼續(xù)關(guān)注的方法

基于MapReduce或Hadoop的衍生分析方法、圖模型分析與挖掘以及商務(wù)智能分析,是近年研究探討較多的方法,但目前尚未形成一個(gè)成熟且完善的方法體系,例如,MapReduce或Hadoop等之類(lèi)的工具還在持續(xù)發(fā)展中,本身也存在不斷的改進(jìn)空間,它們與各種分析方法的集成缺乏公認(rèn)的標(biāo)準(zhǔn)和規(guī)范,同樣地,對(duì)于關(guān)注圖像與事物之間關(guān)聯(lián)的圖模型分析與挖掘也尚沒(méi)有發(fā)展出固定的技術(shù),又例如,商務(wù)智能分析被定義為由數(shù)據(jù)倉(cāng)庫(kù)、ETL、聯(lián)機(jī)分析、數(shù)據(jù)挖掘、客戶(hù)關(guān)系管理、知識(shí)管理等多種技術(shù)融合的一組系統(tǒng),通過(guò)BI系統(tǒng)管理組織內(nèi)部及個(gè)人相關(guān)的商業(yè)數(shù)據(jù)、專(zhuān)家信息及知識(shí),涉及數(shù)據(jù)的融合、取用及分析等方法與工具[37-38],目前也沒(méi)有標(biāo)準(zhǔn)化的體系架構(gòu)。

因此,本文還無(wú)法明確回答上述三種方法將如何應(yīng)用于情報(bào)研究、在應(yīng)用過(guò)程中需要做哪些調(diào)整、這些方法與現(xiàn)有的情報(bào)研究方法的關(guān)系如何等相關(guān)問(wèn)題,但可以肯定的是,這些方法對(duì)未來(lái)的情報(bào)研究具有借鑒價(jià)值,例如,一旦情報(bào)研究的處理對(duì)象(即數(shù)據(jù))積累到了一定程度,成為傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)處理不了的大數(shù)據(jù),那么,使用基于MapReduce或Hadoop的衍生分析方法就成為了必然。又如,圖模型分析與挖掘可補(bǔ)充情報(bào)研究在圖像分析的不足,而商務(wù)智能分析可理解為一套集成系統(tǒng),可應(yīng)用在情報(bào)機(jī)構(gòu)的知識(shí)庫(kù)或機(jī)構(gòu)典藏,找出組織的知識(shí)缺口等方面。

3 結(jié)語(yǔ)

大數(shù)據(jù)時(shí)代就是一個(gè)數(shù)據(jù)分析的時(shí)代,學(xué)界和業(yè)界提出了很多大數(shù)據(jù)分析的方法與技術(shù),這些方法與技術(shù)對(duì)情報(bào)研究產(chǎn)生了積極的借鑒作用,本文總結(jié)了大數(shù)據(jù)分析的方法,提出面向?qū)哟蔚腂DA方法框架,歸納總結(jié)了其中的17種BDA方法,并從可直接移植、將調(diào)整后移植、不適用于情報(bào)研究以及需要繼續(xù)關(guān)注等四個(gè)方面對(duì)這些方法在情報(bào)研究中的適用性進(jìn)行了分析,以期為情報(bào)研究借鑒或移植BDA相關(guān)方法提供參考,促進(jìn)情報(bào)研究的理論與實(shí)踐發(fā)展。

參考文獻(xiàn):

[1]Lavalle S, Lesser E, Shockley R, et al. Big Data, Analytics and the Path From Insights to Value[J].MIT Sloan Management Review,2011,52(2):21-32.

[2]Russom P. BIG DATA ANALYTICS[R].The Data Warehousing Institute,2011.

[3]Mohanty S, Jagadeesh M, Srivatsa H. Big Data Imperatives - Enterprise Big Data Warehouse, BI Implementations and Analytics[M]. New York: Apress, 2013.

[4]Computing community consortium. Challenges and Opportunities with Big Data[R]. Washington, DC:Computing Research Association,2012.

[5]Power D J. Using "Big Data" for analytics and decision support[J].Journal of Decision Systems,2014,23(2): 222-228.

[6]Nationalresearchcouncil.Frontiers in Massive Data Analysis[R].Washington,DC:The National Academies Press, 2013.

[7]Li Z H, Han J W. Mining Periodicity from Dynamic and Incomplete Spatiotemporal Data[A]. Chu W W,Data Mining and Knowledge Discovery for Big Data[M].Germany:Springer Berlin Heidelberg, 2014:41-81.

[8]魏順平. 學(xué)習(xí)分析技術(shù):挖掘大數(shù)據(jù)時(shí)代下教育數(shù)據(jù)的價(jià)值[J]. 現(xiàn)代教育技術(shù),2013, 23(2): 5-11.

[9]Chen H C, Chiang R H L, Storey V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly,2012, 36(4): 1165-1188.

[10]嚴(yán)霄鳳,張德馨. 大數(shù)據(jù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展, 2013, 23(4): 168-172.

[11]孟小峰,慈祥. 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 計(jì)算機(jī)研究與發(fā)展,2013, 50(1): 146-169.

[12]覃雄派,王會(huì)舉,杜小勇,等. 大數(shù)據(jù)分析――RDBMS與MapReduce的競(jìng)爭(zhēng)與共生[J].軟件學(xué)報(bào),2012, 23(1): 32-45.

[13]Sengamedu S. Scalable Analytics-Algorithms and Systems[A].Srinivasa S, Bhatnagar V.Big Data Analytics[M].India:Springer Berlin Heidelberg, 2012:1-7.

[14]Mehta S, Subramaniam L V. Tutorial : Social Media Analytics[M].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013:1-21.

[15]王煉,武夷山. 方法移植對(duì)科學(xué)計(jì)量學(xué)研究的方法論啟示[J]. 科學(xué)學(xué)研究,2006, 24(4): 503-507.

[16]Kroeze J H, Matthee M C, Bothma T J D. Differentiating Data-and Text-Mining Terminology: The 2003 annual research conference of the South African institute of computer scientists and information technologists on Enablement through technology[Z]. South Africa:2003:93-101.

[17]祝清松,冷伏海. 基于引文內(nèi)容分析的高被引論文主題識(shí)別研究[J]. 中國(guó)圖書(shū)館學(xué)報(bào),2014,(1):39-49.

[18]張樹(shù)良,冷伏海. 基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)的應(yīng)用進(jìn)展研究[J]. 情報(bào)學(xué)報(bào),2006, 25(6): 700-712.

[19]李楠,張學(xué)福. 基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)應(yīng)用體系研究[J]. 圖書(shū)情報(bào)工作,2013,(6):127-133.

[20]王輝,王暉昱,左萬(wàn)利. 觀點(diǎn)挖掘綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2009,26(1):25-29.

[21]黃曉斌,趙超. 文本挖掘在網(wǎng)絡(luò)輿情信息分析中的應(yīng)用[J]. 情報(bào)科學(xué),2009:(1): 94-99.

[22]趙潔,溫潤(rùn). 基于新詞擴(kuò)充和特征選擇的微博觀點(diǎn)句識(shí)別方法[J]. 情報(bào)學(xué)報(bào),2013,32(9): 945-951.

[23]單斌,李芳.基于LDA話題演化研究方法綜述[J]. 中文信息學(xué)報(bào),2010, 24(6): 43-49.

[24]賀亮,李芳. 科技文獻(xiàn)話題演化研究[J]. 現(xiàn)代圖書(shū)情報(bào)技術(shù),2012,(4): 61-67.

[25]查先進(jìn).信息分析[M].武漢:武漢大學(xué)出版社,2011.

[26]Lakshminarayan C. High Dimensional Big Data and Pattern Analysis: A Tutorial[A].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013: 8302, 68-85.

[27]胡潔. 高維數(shù)據(jù)特征降維研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2008,(9): 2601-2606.

[28]吳曉婷,閆德勤. 數(shù)據(jù)降維方法分析與研究[J]. 計(jì)算機(jī)應(yīng)用研究,2009,(8):2832-2835.

[29]陳濤,謝陽(yáng)群. 文本分類(lèi)中的特征降維方法綜述[J]. 情報(bào)學(xué)報(bào),2005,24(6): 690-695.

[30]白如江,冷伏海. “大數(shù)據(jù)”時(shí)代科學(xué)數(shù)據(jù)整合研究[J]. 情報(bào)理論與實(shí)踐,2014, 37(1): 94-99.

[31]化柏林. 多源信息融合方法研究[J]. 情報(bào)理論與實(shí)踐,2013,(11): 16-19.

[32]李建中,劉顯敏. 大數(shù)據(jù)的一個(gè)重要方面:數(shù)據(jù)可用性[J].計(jì)算機(jī)研究與發(fā)展,2013,50(6):1147-1162.

[33]王延飛,王林蘭. 論情報(bào)研究質(zhì)量[J].圖書(shū)情報(bào)工作,2010,54(10):35-39.

[34]王閱,高學(xué)東,武森,等. 時(shí)間序列周期模式挖掘的周期檢測(cè)方法[J]. 計(jì)算機(jī)工程,2009, 35(22): 32-34.

[35]孟志青,樓婷淵,胡強(qiáng).多粒度時(shí)間文本數(shù)據(jù)的周期模式挖掘算法[J]. 計(jì)算機(jī)科學(xué),2013,(S2): 251-254.

[36]Bellazzi R, Diomidous M, Sarkar I, et al. Data analysis and data mining current issues in biomedical informatics[J]. Methods of Information in Medicine,2011,50(6):536-544.

[37]Negash S. Business intelligence[J]. Communications of the Association for Information Systems,2004,13(1):177-195.

篇(4)

【關(guān)鍵詞】教師 大數(shù)據(jù) 數(shù)學(xué)模型 matlab 最小二乘法

【中圖分類(lèi)號(hào)】G64 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】2095-3089(2015)06-0155-02

大數(shù)據(jù),或稱(chēng)巨量資料,指的是需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)[2]。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)那些含有意義的數(shù)據(jù)進(jìn)行專(zhuān)業(yè)化處理。本文將以東北地區(qū)數(shù)學(xué)專(zhuān)業(yè)教師大數(shù)據(jù)為基礎(chǔ),通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”,使其為決策與預(yù)測(cè)服務(wù)。

一、東北地區(qū)數(shù)學(xué)專(zhuān)業(yè)教師大數(shù)據(jù)來(lái)源及準(zhǔn)備

通過(guò)查閱資料與調(diào)查,收集到東北三省各高校數(shù)學(xué)教師相關(guān)大數(shù)據(jù),包括教師教齡(?S年)、收入(?S元)、稅收(?S元)和職業(yè)病情況等方面的實(shí)際數(shù)據(jù)。由于得到的數(shù)據(jù)信息量大,輕重各異,所以首先需要進(jìn)行數(shù)據(jù)預(yù)處理,即清除異常數(shù)據(jù)、錯(cuò)誤糾正、格式標(biāo)準(zhǔn)化等,再通過(guò)數(shù)據(jù)挖掘技術(shù),利用一系列相關(guān)算法和數(shù)據(jù)處理技術(shù)從大量的數(shù)據(jù)中提取人們所需要的重要信息,也就是上面所提到的實(shí)現(xiàn)信息的“增值”,同時(shí)大大提高數(shù)據(jù)處理效率,下面具體介紹本項(xiàng)目所采用的模型和計(jì)算方法。

二、東北地區(qū)數(shù)學(xué)專(zhuān)業(yè)教師大數(shù)據(jù)分析與結(jié)果

收集并處理好教師教齡、收入、稅收和職業(yè)病情況等方面的數(shù)據(jù)后,本文主要針對(duì)三個(gè)方面進(jìn)行了詳細(xì)的分析:

1.教師收入隨年份的變化

(1)數(shù)據(jù)范圍:1994年-2014年?yáng)|三省各高校數(shù)學(xué)教師收入(單位:元);

(2)計(jì)算條件:matlab軟件,最小二乘回歸分析,高性能計(jì)算工作站;

(3)求解過(guò)程:年份作為自變量x,收入為因變量y,從總體上看,二者統(tǒng)計(jì)關(guān)系大致符合一元線性的正態(tài)誤差模型[3],即對(duì)給定xi的有最小二乘一元線性回歸公式y(tǒng)i=b0+b1xi+εi,其中:

b■=■, ■=■■x■b0=■-b■■, ■ =■■y■

其中εi是由變量可能的內(nèi)在隨機(jī)性、未知影響因素等隨機(jī)擾動(dòng)造成的誤差。總之,它可看成是眾多細(xì)小影響因素的綜合代表。最后,由Matlab提供polyfit函數(shù)實(shí)現(xiàn)回歸函數(shù)擬合[4];

(4)結(jié)果分析:計(jì)算結(jié)果表明,隨著年份的增加,教師收入也在不斷增加。估計(jì)的因變量的系數(shù)b1約為191,也就是說(shuō),每過(guò)一年,教師收入大致可增加近191元。

2.教師職業(yè)病情況與教齡的關(guān)系

(1)數(shù)據(jù)范圍:1994年―2014年?yáng)|三省各高校數(shù)學(xué)教師教齡(單位:年)、職業(yè)病情況;

(2)結(jié)果分析:首先利用matlab軟件,以橫軸為某年?yáng)|三省數(shù)學(xué)教師教齡,縱軸反映相應(yīng)教齡的平均職業(yè)病情況(為方便,規(guī)定越接近縱軸正方向,職業(yè)病越嚴(yán)重)利用matlab軟件繪制圖形[5],發(fā)現(xiàn)教師教齡越長(zhǎng),職業(yè)病也愈加嚴(yán)重。每一年的教師職業(yè)病情況均可繪制一張圖表,通過(guò)將這11張圖表的最高值(即每一年職業(yè)病的最高值)做比較,發(fā)現(xiàn)其趨勢(shì)是先逐年下降,最后趨于穩(wěn)定。

3.對(duì)教師專(zhuān)業(yè)發(fā)展階段的研究

(1)數(shù)據(jù)范圍:2014年?yáng)|三省各高校數(shù)學(xué)教師收入、教齡、稅收和職業(yè)病大數(shù)據(jù);

(2)計(jì)算條件:IBM處理器、大數(shù)據(jù)挖掘分類(lèi)算法;

(3)求解過(guò)程:用神經(jīng)網(wǎng)絡(luò)研究方法(即模擬生物上神經(jīng)元工作的方法)。圖中每個(gè)橢圓形節(jié)點(diǎn)接受輸入數(shù)據(jù),將數(shù)據(jù)處理后輸出,輸入層節(jié)點(diǎn)接受教師信息的輸入,然后將數(shù)據(jù)傳遞給隱藏層,隱藏層將數(shù)據(jù)傳給輸出層,輸出層輸出教師專(zhuān)業(yè)發(fā)展處于哪一專(zhuān)業(yè)成熟階段;

(4)結(jié)果分析:若將教師專(zhuān)業(yè)成熟過(guò)程分為三個(gè)階段:形成期、發(fā)展期和成熟期。那么利用IBM處理器和以上算法,在所調(diào)查的教師中,約70%處于發(fā)展時(shí)期,是其基本適應(yīng)教育教學(xué)工作的時(shí)期;約20%處于形成期,是形成良好心理素質(zhì)和正確教育思想的關(guān)鍵時(shí)期;約10%處于成熟期,是掌握教學(xué)主動(dòng)權(quán),成為學(xué)校教學(xué)骨干的時(shí)期;

(5)研究意義:研究東三省高校數(shù)學(xué)教師專(zhuān)業(yè)發(fā)展成熟階段,可以基本掌握教師資源結(jié)構(gòu),從而能夠遵循不同發(fā)展階段的不同特征、觀念、心理、發(fā)展需求,制定相應(yīng)教研活動(dòng)、政策和制度,促進(jìn)教師全面持續(xù)發(fā)展[6]。

三、結(jié)果討論

1.數(shù)據(jù)呈現(xiàn)以上結(jié)果的原因

(1)隨著國(guó)家科教興國(guó)戰(zhàn)略的深入實(shí)施,教師的工資和待遇將被逐步納入國(guó)家工作人員統(tǒng)一管理,教師的收入將得到很大的提高。另一方面,數(shù)學(xué)能力的培養(yǎng)是學(xué)習(xí)各專(zhuān)業(yè)、走入各行業(yè)的基礎(chǔ),國(guó)家將加大數(shù)學(xué)知識(shí)的教育力度,進(jìn)而數(shù)學(xué)專(zhuān)業(yè)教師所付出的辛苦也更加不可小覷,綜合以上幾個(gè)重要原因,教師收入隨年份增加而增加也是符合經(jīng)濟(jì)理論的。

(2)教齡越長(zhǎng),職業(yè)病也越嚴(yán)重的依存關(guān)系,我們?nèi)菀桌斫狻5S著時(shí)間的推移,職業(yè)病的嚴(yán)重性呈現(xiàn)下降趨勢(shì)正是反映了我國(guó)科技的革新:環(huán)境的改變、教學(xué)設(shè)備和教學(xué)技術(shù)的更新使得教師的課堂教學(xué)更加高效和輕松便捷,如多媒體、電子白板使得課堂不再“塵土飛揚(yáng)”。

(3)在對(duì)教師專(zhuān)業(yè)發(fā)展階段的研究中,處于專(zhuān)業(yè)發(fā)展時(shí)期的教師所占比例最高,達(dá)到近70%。實(shí)際上,他們多數(shù)處于青壯年的人生階段,是社會(huì)的中堅(jiān)力量,又曾在高等教育多樣化與綜合化的背景下受到過(guò)良好的教育,并具有較豐富的教學(xué)經(jīng)驗(yàn)和緊跟新時(shí)代的創(chuàng)新思想,自然在專(zhuān)業(yè)發(fā)展的角度也占有較大比例。

2.合理的相關(guān)預(yù)測(cè)

大數(shù)據(jù)最有價(jià)值的特點(diǎn)就是其“預(yù)見(jiàn)性”。上述數(shù)值結(jié)果表明,在經(jīng)濟(jì)平穩(wěn)發(fā)展和社會(huì)穩(wěn)定的前提下,東三省數(shù)學(xué)專(zhuān)業(yè)教師的收入在未來(lái)的幾十年依舊處于增長(zhǎng)趨勢(shì),教師職業(yè)病總體減輕,專(zhuān)業(yè)發(fā)展越來(lái)越成熟,使得教師隊(duì)伍整體素質(zhì)越來(lái)越高,而未來(lái)教師的考核獎(jiǎng)勵(lì)制度也會(huì)變得更加嚴(yán)格和全面。

3.建議

(1)無(wú)論是對(duì)教師行業(yè)還是其他行業(yè)感興趣,都要關(guān)注其變化,分析其形勢(shì)及趨勢(shì),以便對(duì)此行業(yè)的認(rèn)知更加科學(xué)合理。

(2)本文采用的大數(shù)據(jù)處理所用模型和方法,可以進(jìn)一步推廣到其它相關(guān)領(lǐng)域,使之成為研究大數(shù)據(jù)的更通用的工具。

本文利用matlab軟件、最小二乘法模型及IBM處理器分析了東北地區(qū)數(shù)學(xué)專(zhuān)業(yè)教師大數(shù)據(jù),得出的結(jié)果對(duì)于掌握該地區(qū)數(shù)學(xué)教師基本情況并預(yù)測(cè)其發(fā)展趨勢(shì)有著重要的作用,還為熱心同類(lèi)問(wèn)題的研究者提供高效的方法和技術(shù)。當(dāng)我們不能有效處理所獲取的大數(shù)據(jù),它們就是一些平凡的數(shù)字和符號(hào)。如果我們能夠很好地駕馭大數(shù)據(jù),它們必定會(huì)為我們帶來(lái)諸多的方便。

最小二乘法模型在處理大數(shù)據(jù)時(shí)有一定的優(yōu)勢(shì)[7],統(tǒng)計(jì)分析,神經(jīng)網(wǎng)絡(luò)算法和遺傳算法都是處理大數(shù)據(jù)的有效方法,如果能將這些方法有機(jī)的結(jié)合起來(lái),將更能獲得許多滿意的數(shù)值分析結(jié)果。當(dāng)大數(shù)據(jù)超過(guò)計(jì)算條件的時(shí)空允許時(shí),不僅耗時(shí)費(fèi)力,甚至使得計(jì)算成為不可能,通常需要采用并行算法等高效計(jì)算手段。在高性能計(jì)算方面,我們并沒(méi)有用到并行算法,如果能利用并行算法,所處理的數(shù)值結(jié)果容量會(huì)更大更有參考價(jià)值。

參考文獻(xiàn):

[1]蔡鎖章主編.數(shù)學(xué)建模:原理與方法.北京:海洋出版社,2000.

[2]維克托邁爾舍恩伯格.大數(shù)據(jù)時(shí)代.浙江:浙江人民出版社,2012.

[3]吳翊,吳孟達(dá),成禮智編著.數(shù)學(xué)建模的理論與實(shí)踐.長(zhǎng)沙:國(guó)防科技大學(xué)出版社,1999.

[4]張德豐編著.Matlab數(shù)值分析與仿真案例.北京:清華大學(xué)出版社,2011.10(21世紀(jì)高等學(xué)校規(guī)劃教材計(jì)算機(jī)應(yīng)用)IBSN 978―7―302―26254―1.

[5]楊德平等編著.Matlab基礎(chǔ)教程.北京:機(jī)械工業(yè)出版社,2013.221世紀(jì)高等院校計(jì)算機(jī)輔助設(shè)計(jì)規(guī)劃教材 ISBN 978―7―111―41023―2.

篇(5)

關(guān)鍵詞:數(shù)據(jù)分析;觀念;統(tǒng)計(jì)

數(shù)據(jù)分析是統(tǒng)計(jì)的核心,數(shù)據(jù)分析觀念是統(tǒng)計(jì)思想的重要組成部分。在小學(xué)數(shù)學(xué)統(tǒng)計(jì)教學(xué)中,教師要培養(yǎng)和發(fā)展學(xué)生的數(shù)據(jù)分析觀念,以有效解決生活中的一些實(shí)際問(wèn)題。教學(xué)中主要從以下三個(gè)方面進(jìn)行實(shí)踐:

一、激發(fā)興趣,引導(dǎo)學(xué)生主動(dòng)參與數(shù)據(jù)分析

數(shù)據(jù)分析面對(duì)的是枯燥無(wú)味的數(shù)據(jù),這就要想辦法激發(fā)學(xué)生學(xué)習(xí)動(dòng)機(jī)。一是要選擇合適的素材。選擇與學(xué)生日常生活密切相關(guān)的活動(dòng)或內(nèi)容。如從學(xué)生說(shuō)一說(shuō)喜歡穿什么顏色的衣服,喜歡看什么樣的動(dòng)畫(huà)片入手。引導(dǎo)學(xué)生粗略統(tǒng)計(jì)喜歡的幾種顏色和喜歡看的動(dòng)畫(huà)片,讓學(xué)生做成簡(jiǎn)單的統(tǒng)計(jì)表。二是要讓學(xué)生感受到數(shù)據(jù)統(tǒng)計(jì)與分析的現(xiàn)實(shí)意義。在生活中選取一些話題展開(kāi)有關(guān)數(shù)據(jù)分析,讓學(xué)生喜歡分析并樂(lè)于分析。比如讓學(xué)生記錄自己家庭每天的生活開(kāi)銷(xiāo),引導(dǎo)學(xué)生在搜集、整理、分析數(shù)據(jù)的過(guò)程中,能夠?qū)彝サ拿恐荛_(kāi)銷(xiāo)及物價(jià)變化做出合理的分析,從而讓學(xué)生對(duì)統(tǒng)計(jì)感興趣。

二、啟發(fā)思考,引導(dǎo)學(xué)生掌握數(shù)據(jù)分析方法

數(shù)據(jù)分析是一個(gè)復(fù)雜的思維過(guò)程。在教學(xué)中要鼓勵(lì)學(xué)生從多角度分析數(shù)據(jù),掌握數(shù)據(jù)分析的方法,通過(guò)數(shù)據(jù)的統(tǒng)計(jì)與分析,提取信息,選擇方法,培養(yǎng)思維的靈活性和多向性。如,在教學(xué)中出示“某商場(chǎng)一年12個(gè)月A、B型兩種彩電銷(xiāo)售情況折線統(tǒng)計(jì)圖”,統(tǒng)計(jì)圖上呈現(xiàn)了兩種彩電的銷(xiāo)售情況和月份,然后讓學(xué)生完成作業(yè),根據(jù)銷(xiāo)售情況說(shuō)說(shuō)隨著月份的變化兩種彩電的銷(xiāo)售情況有何變化,A型彩電銷(xiāo)售量為什么呈下降趨勢(shì)?為什么在1~3月份銷(xiāo)售量最多?B型彩電為什么在10~12月份銷(xiāo)售量最多且呈現(xiàn)上升趨勢(shì)?如果你是經(jīng)銷(xiāo)商將會(huì)有什么打算?讓學(xué)生統(tǒng)計(jì)圖表中獲取信息并聯(lián)系生活實(shí)際進(jìn)行思考,很快就能得出答案:B型彩電得到了消費(fèi)者的認(rèn)可,經(jīng)銷(xiāo)商要及時(shí)調(diào)整進(jìn)貨源頭,多進(jìn)B型彩電就會(huì)獲得更多的利潤(rùn)。

三、加強(qiáng)訓(xùn)練,培養(yǎng)學(xué)生形成數(shù)據(jù)分析能力

數(shù)據(jù)分析能力培養(yǎng)絕不能只靠課堂教學(xué)來(lái)完成,教學(xué)時(shí),教師要精心設(shè)計(jì)多樣性實(shí)踐操練活動(dòng),注重分類(lèi)與比較能力訓(xùn)練,將課內(nèi)外有機(jī)結(jié)合起來(lái),激發(fā)學(xué)生參與統(tǒng)計(jì)與分析的興趣,指導(dǎo)學(xué)生通過(guò)調(diào)查、科學(xué)實(shí)驗(yàn)、查閱資料等,把所學(xué)的知識(shí)進(jìn)行系統(tǒng)化的收集、整理、分類(lèi)、描述和分析,讓學(xué)生形成數(shù)據(jù)分析觀念和數(shù)據(jù)分析能力。

篇(6)

【關(guān)鍵詞】:數(shù)據(jù)分析;數(shù)據(jù)管理

數(shù)據(jù)管理:收集及管理企業(yè)內(nèi)所有類(lèi)型的數(shù)據(jù)。包括設(shè)計(jì)開(kāi)發(fā)的數(shù)模圖紙,零件清單,數(shù)據(jù)的審批過(guò)程、歷史記錄等。有目的記錄收集數(shù)據(jù),是確保數(shù)據(jù)分析過(guò)程有效的基礎(chǔ)。

1 定義

數(shù)據(jù)分析:數(shù)據(jù)分析的目的是把隱沒(méi)在一大批看來(lái)雜亂無(wú)章的數(shù)據(jù)中的信息集中、萃取和提煉出來(lái),以找出所研究對(duì)象的內(nèi)在規(guī)律。在實(shí)用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當(dāng)行動(dòng)。數(shù)據(jù)分析是組織有目的地收集數(shù)據(jù)、分析數(shù)據(jù),使之成為信息的過(guò)程。在產(chǎn)品的整個(gè)壽命周期,包括從市場(chǎng)調(diào)研到售后服務(wù)和最終處置的各個(gè)過(guò)程都需要適當(dāng)運(yùn)用數(shù)據(jù)分析過(guò)程,以提升有效性。

2 現(xiàn)狀

隨著時(shí)代的進(jìn)步,企業(yè)已經(jīng)從傳統(tǒng)的人工管理及文件系統(tǒng)管理,發(fā)展到數(shù)據(jù)庫(kù)管理的階段。數(shù)據(jù)庫(kù)管理的基礎(chǔ)提供了數(shù)據(jù)的完整性,正確性。并且企業(yè)已經(jīng)對(duì)數(shù)據(jù)的安全性有所管理,包括權(quán)限控制,文件加密系統(tǒng)的等。數(shù)據(jù)分析的的工作目前仍比較初級(jí)的階段,當(dāng)數(shù)據(jù)分析的水平跟上數(shù)據(jù)管理發(fā)展的水平時(shí),將會(huì)大大加快企業(yè)發(fā)展和進(jìn)步。

3 意義

數(shù)據(jù)分析是判斷、趨勢(shì)、多角度發(fā)現(xiàn)問(wèn)題的成熟解決方案,傳統(tǒng)企業(yè)的大部分業(yè)務(wù)情況,通過(guò)業(yè)務(wù)經(jīng)驗(yàn),有了數(shù)據(jù)分析即可改善業(yè)務(wù)。數(shù)據(jù)的核心是發(fā)現(xiàn)價(jià)值,而駕馭數(shù)據(jù)的核心是分析。通過(guò)對(duì)企業(yè)數(shù)據(jù)的梳理分析,結(jié)合業(yè)務(wù)的理解,找出一些突出問(wèn)題的關(guān)鍵點(diǎn),預(yù)測(cè)未來(lái)的趨勢(shì),幫助企業(yè)更好地進(jìn)行決策。

4 數(shù)據(jù)分析的過(guò)程

4.1 收集數(shù)據(jù)

收集數(shù)據(jù)是數(shù)據(jù)分析的來(lái)源,同時(shí)也是數(shù)據(jù)管理的日常工作。數(shù)據(jù)收集分為人工輸入以及數(shù)據(jù)庫(kù)系統(tǒng)的輸入。這里提到的人工輸入可以是人為判斷評(píng)價(jià)的記錄,例如:個(gè)人評(píng)價(jià)/評(píng)論/反饋;數(shù)據(jù)系統(tǒng)的輸入可以是企業(yè)內(nèi)部擁有的軟件數(shù)據(jù)庫(kù)收集的信息,例如:BOM,PDM,PORTAL等。

4.2數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理即是去除不必要的信息及明顯的錯(cuò)誤信息并進(jìn)行數(shù)據(jù)轉(zhuǎn)換。不同的數(shù)據(jù)來(lái)源通常會(huì)產(chǎn)生不同的格式,這里我們普遍常用的數(shù)據(jù)分析工具是EXCEL,所以需要將輸入的不同格式轉(zhuǎn)化為EXCEL可以方便讀取的形式。

4.3 數(shù)據(jù)分析的方法

數(shù)據(jù)分析的方法有很多種。這里只是提出比較常用的一些經(jīng)驗(yàn)方法。

聚類(lèi)分析、預(yù)測(cè)建模、關(guān)聯(lián)分析、異常檢測(cè)。

4.3.1 聚類(lèi)分析

發(fā)現(xiàn)緊密相關(guān)的觀測(cè)值族群,使得同組的相似性越大,不同組的差別越大,已達(dá)到較好的聚類(lèi)效果。根據(jù)聚類(lèi)得到的不同觀測(cè)值組,做出決策樹(shù),為業(yè)務(wù)部門(mén)提供決策支持。

聚類(lèi)分析簡(jiǎn)單、直觀。

聚類(lèi)分析主要應(yīng)用于探索性的研究,其分析的結(jié)果可以提供多個(gè)可能的解,選擇最終的解需要研究者的主觀判斷和后續(xù)的分析;不管實(shí)際數(shù)據(jù)中是否真正存在不同的類(lèi)別,利用聚類(lèi)分析都能得到分成若干類(lèi)別的解;聚類(lèi)分析的解完全依賴(lài)于研究者所選擇的聚類(lèi)變量,增加或刪除一些變量對(duì)最終的解都可能產(chǎn)生實(shí)質(zhì)性的影響。研究者在使用聚類(lèi)分析時(shí)應(yīng)特別注意可能影響結(jié)果的各個(gè)因素。異常值和特殊的變量對(duì)聚類(lèi)有較大影響。

聚類(lèi)分析是細(xì)分產(chǎn)品市場(chǎng)的有效工具,同時(shí)也可用于研究消費(fèi)者行為,尋找新的潛在市場(chǎng)、選擇實(shí)驗(yàn)的市場(chǎng),并作為多元分析的預(yù)處理。在企業(yè)內(nèi)部數(shù)據(jù)管理中可以用于用戶(hù)調(diào)研、反饋,進(jìn)而更好地為企業(yè)員工提供適合的服務(wù)及幫助。

4.3.2 預(yù)測(cè)建模

以自變量函數(shù)的方式為目標(biāo)建立模型,預(yù)測(cè)離散的目標(biāo)變量;預(yù)測(cè)連續(xù)的目標(biāo)變量。

根據(jù)CAD軟件的應(yīng)用狀態(tài)判斷下一年的需求:

根據(jù)圖標(biāo)分析可以預(yù)測(cè),明年的軟件需求應(yīng)該和今年差不多,CAD軟件保證在400左右基本可以滿足需求,CAD軟件保證在50左右可以滿足需求

4.3.3 關(guān)聯(lián)分析

關(guān)聯(lián)分析就是從大量數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系。關(guān)聯(lián)分析的一個(gè)典型例子是購(gòu)物籃分析。該過(guò)程通過(guò)發(fā)現(xiàn)顧客放人其購(gòu)物籃中的不同商品之間的聯(lián)系,分析顧客的購(gòu)買(mǎi)習(xí)慣。通過(guò)了解哪些商品頻繁地被顧客同時(shí)購(gòu)買(mǎi),這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營(yíng)銷(xiāo)策略。其他的應(yīng)用還包括價(jià)目表設(shè)計(jì)、商品促銷(xiāo)、商品的排放和基于購(gòu)買(mǎi)模式的顧客劃分。關(guān)聯(lián)分析是一種簡(jiǎn)單、實(shí)用的分析技術(shù),就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,從而描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式。

例如在零件的數(shù)據(jù)管理過(guò)程中可能發(fā)現(xiàn)一些關(guān)聯(lián)零件的規(guī)律。

例如:從VDS中找出配置選項(xiàng)的關(guān)聯(lián),例如配置了前排乘客安全氣囊,必定會(huì)配置駕駛員安全氣囊。

4.3.4 異常分析

顧名思義,當(dāng)一些較為穩(wěn)定的數(shù)據(jù),發(fā)生異常或者一組數(shù)據(jù)中個(gè)別數(shù)據(jù)異于其他數(shù)據(jù)時(shí),發(fā)現(xiàn)它們,并從中找到原因或者規(guī)律。

或者當(dāng)發(fā)現(xiàn)某部門(mén)指標(biāo)長(zhǎng)期低于平均值,則需要關(guān)注其產(chǎn)生原因,是不是因?yàn)殚_(kāi)發(fā)人員不足造成

4.3.5 對(duì)比分析

根據(jù)類(lèi)似數(shù)據(jù)進(jìn)行對(duì)比分析。在數(shù)據(jù)管理的工作中找到類(lèi)似數(shù)據(jù),嘗試對(duì)其對(duì)比分析,找出差異點(diǎn)。

4.4 數(shù)據(jù)分析經(jīng)驗(yàn)數(shù)據(jù)庫(kù)的創(chuàng)建

由于企業(yè)的數(shù)據(jù)分析方法是初步形成的,需要累積和實(shí)踐驗(yàn)證。在找到合適的數(shù)據(jù)分析方法時(shí),可以將有效的數(shù)據(jù)分析成果或者過(guò)程記錄存檔,方便后人的學(xué)習(xí)和改進(jìn)。企業(yè)的數(shù)據(jù)管理和數(shù)據(jù)分析是密不可分的,鼓勵(lì)更多的人參與數(shù)據(jù)分析將會(huì)提高數(shù)據(jù)分析經(jīng)驗(yàn)庫(kù)的含金量。

5 結(jié)語(yǔ)

數(shù)據(jù)分析在數(shù)據(jù)管理工作中的應(yīng)用將直接支持整車(chē)研發(fā)企業(yè)的開(kāi)發(fā)工作,以及產(chǎn)品數(shù)據(jù)的管理水平的提高。數(shù)據(jù)分析經(jīng)驗(yàn)數(shù)據(jù)庫(kù)的創(chuàng)建培養(yǎng)和累積足夠的。在將面對(duì)大數(shù)據(jù)盛行的時(shí)代,企業(yè)內(nèi)部的數(shù)據(jù)累積是必不可少的,數(shù)據(jù)分析有助于提高企業(yè)管理和運(yùn)營(yíng)系統(tǒng)運(yùn)行的效率。數(shù)據(jù)的管理與交流往往是檢驗(yàn)公司管理決策和經(jīng)營(yíng)策略是否正常運(yùn)作的標(biāo)志。所以企業(yè)管理中可以利用數(shù)據(jù)分析發(fā)現(xiàn)一些問(wèn)題,及時(shí)跟進(jìn)改善,從而提高公司整體的運(yùn)營(yíng)效率,為公司更快更好的發(fā)展打下良好基礎(chǔ)。

參考文獻(xiàn)

[1] 覃雄派, 大數(shù)據(jù)分析――RDBMS與MapReduce的競(jìng)爭(zhēng)與共生,軟件學(xué)報(bào),2012(1)

篇(7)

關(guān)鍵詞:數(shù)據(jù)分析;統(tǒng)計(jì)學(xué);課程體系;大數(shù)據(jù)

中圖分類(lèi)號(hào):G642.0 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2014)49-0248-02

隨著社交網(wǎng)絡(luò)的逐漸成熟,移動(dòng)帶寬迅速提升,云計(jì)算、互聯(lián)網(wǎng)應(yīng)用的豐富,更多的傳感設(shè)備、移動(dòng)終端接入到網(wǎng)絡(luò),由此產(chǎn)生的數(shù)據(jù)及增長(zhǎng)速度將比歷史上的任何時(shí)期都要多,都要快。“大數(shù)據(jù)”時(shí)代已經(jīng)來(lái)臨,它對(duì)人類(lèi)的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn),也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。大數(shù)據(jù)是指海量數(shù)據(jù)集,其來(lái)源包括動(dòng)漫數(shù)據(jù)、企業(yè)IT應(yīng)用帶來(lái)的數(shù)據(jù)、博客、點(diǎn)擊流數(shù)據(jù)、社交媒體、機(jī)器和傳感數(shù)據(jù)等。它是互聯(lián)網(wǎng)、電子商務(wù)的又一次重大革命,對(duì)數(shù)據(jù)處理、數(shù)據(jù)挖掘、數(shù)據(jù)分析提出了新的挑戰(zhàn)。如今互聯(lián)網(wǎng)行業(yè)、電子商務(wù)行業(yè)中的數(shù)據(jù)應(yīng)用及分析已經(jīng)相當(dāng)普遍,為了應(yīng)對(duì)大數(shù)據(jù)時(shí)代的要求,同時(shí)要具備較強(qiáng)的統(tǒng)計(jì)學(xué)功底和嫻熟的計(jì)算機(jī)軟件運(yùn)用能力,而今完全具備這些能力的數(shù)據(jù)分析專(zhuān)業(yè)人才是極其匱乏的。數(shù)據(jù)分析師便應(yīng)運(yùn)而生,不僅互聯(lián)網(wǎng)行業(yè)、電子商務(wù)行業(yè)需要大量的數(shù)據(jù)分析師,近年來(lái)項(xiàng)目數(shù)據(jù)分析事務(wù)所不斷涌現(xiàn),而項(xiàng)目數(shù)據(jù)分析師因其專(zhuān)業(yè)技能及量化的數(shù)據(jù)分析為客戶(hù)以及所在單位控制決策風(fēng)險(xiǎn)、保證利益最大化而備受各界青睞,以待遇優(yōu)厚和地位尊崇而聞名國(guó)際,也被視為我國(guó)21世紀(jì)的黃金職業(yè)。《華商報(bào)》將項(xiàng)目數(shù)據(jù)分析師納入了新七十二行,《HR管理世界》將項(xiàng)目數(shù)據(jù)分析師評(píng)為七大賺錢(qián)職業(yè)。本文就如何在統(tǒng)計(jì)學(xué)專(zhuān)業(yè)開(kāi)展數(shù)據(jù)分析方向進(jìn)行了闡述,首先論述了數(shù)據(jù)分析的重要意義,其次討論了數(shù)據(jù)分析方向的課程構(gòu)建,最后分析了如何加強(qiáng)理論與實(shí)踐環(huán)節(jié)的結(jié)合。

一、數(shù)據(jù)分析的重要意義

大數(shù)據(jù)預(yù)測(cè)美國(guó)總統(tǒng):美國(guó)時(shí)代周刊報(bào)道稱(chēng),數(shù)據(jù)驅(qū)動(dòng)的競(jìng)選決策才是奧巴馬競(jìng)選獲勝的關(guān)鍵。數(shù)據(jù)分析團(tuán)隊(duì)在籌集競(jìng)選經(jīng)費(fèi)、鎖定目標(biāo)選民、督促選民投票等各個(gè)環(huán)節(jié)的決策中都發(fā)揮了重要作用。這意味著華盛頓競(jìng)選專(zhuān)家的作用極具下降,能夠分析大數(shù)據(jù)的量化分析家和程序員的地位卻大幅提升。如今從事專(zhuān)業(yè)數(shù)據(jù)分析工作的企業(yè)如項(xiàng)目數(shù)據(jù)分析師事務(wù)所、數(shù)據(jù)挖掘公司等都應(yīng)市場(chǎng)需求而大力發(fā)展,并且受到風(fēng)險(xiǎn)投資的青睞。如美國(guó)社交數(shù)據(jù)挖掘公司Datasift于2012年宣布,獲得1500萬(wàn)美元風(fēng)險(xiǎn)投資。2013年,DataSift成為T(mén)witter的“認(rèn)證合作伙伴”,主要負(fù)責(zé)海量微博社交數(shù)據(jù)分析。這是該公司今年第二筆融資,五月份其曾融資720萬(wàn)美元。又如面向開(kāi)發(fā)者的大數(shù)據(jù)應(yīng)用軟件平臺(tái)服務(wù)提供商Continuity最近獲得1000萬(wàn)美元的融資,目前融資總額已經(jīng)達(dá)到1250萬(wàn)美元。

數(shù)據(jù)分析的應(yīng)用無(wú)處不在,那什么是數(shù)據(jù)分析呢?數(shù)據(jù)分析就是用適當(dāng)?shù)慕y(tǒng)計(jì)方法對(duì)數(shù)據(jù)進(jìn)行分析,以求最大化地開(kāi)發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。是為了提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過(guò)程。數(shù)據(jù)分析技術(shù)不僅能通過(guò)對(duì)真實(shí)數(shù)據(jù)的分析去發(fā)現(xiàn)問(wèn)題,還能夠通過(guò)經(jīng)濟(jì)學(xué)原理建立數(shù)學(xué)模型,對(duì)投資或其他決策是否可行進(jìn)行分析,預(yù)測(cè)未來(lái)的收益及風(fēng)險(xiǎn)情況,為做出科學(xué)合理的決策提供依據(jù)。在提高工作效率的基礎(chǔ)上,也增強(qiáng)企業(yè)管理的科學(xué)性。無(wú)論是在國(guó)家政府部門(mén),還是企事業(yè)單位中,數(shù)據(jù)分析工作都是進(jìn)行決策和做出工作決定之前至關(guān)重要的一個(gè)環(huán)節(jié)。因此,針對(duì)項(xiàng)目可行性、風(fēng)險(xiǎn)承載力、投資回報(bào)率以及相關(guān)經(jīng)濟(jì)效益指標(biāo)等方面的分析工作顯得格外重要。在這個(gè)工作過(guò)程中,專(zhuān)業(yè)的數(shù)據(jù)分析人員扮演著無(wú)比重要的角色,數(shù)據(jù)分析成果的質(zhì)量高低直接決定著項(xiàng)目投資、企業(yè)經(jīng)營(yíng)決策計(jì)劃最終的方向。所以,各個(gè)行業(yè)對(duì)數(shù)據(jù)分析人員的需求之多是不言而喻的。傳統(tǒng)行業(yè),如政府機(jī)構(gòu):一類(lèi)是計(jì)委、經(jīng)委、統(tǒng)計(jì)局等一些經(jīng)濟(jì)綜合管理部門(mén)所設(shè)有的調(diào)研處、研究室和情報(bào)所。第二類(lèi)是商業(yè)、糧食、物資、銀行等經(jīng)濟(jì)主管業(yè)務(wù)部門(mén)會(huì)設(shè)有信息中心或調(diào)研室,從本系統(tǒng)、本部門(mén)的業(yè)務(wù)出發(fā)進(jìn)行專(zhuān)業(yè)性調(diào)研,提供支持本部門(mén)的市場(chǎng)信息。而伴隨著數(shù)據(jù)分析應(yīng)用的擴(kuò)大,其在新興行業(yè)中也得到了發(fā)展,如計(jì)算機(jī)軟硬件及IT行業(yè)、電子商務(wù)與網(wǎng)絡(luò)游戲、金融保險(xiǎn)、消費(fèi)品、咨詢(xún)業(yè)與廣告媒體、大型設(shè)備與重工業(yè)以及房地產(chǎn)行業(yè)等對(duì)數(shù)據(jù)分析師的需求量很大,尤其是電子商務(wù),由于利用互聯(lián)網(wǎng),能夠比傳統(tǒng)零售業(yè)具有更好的數(shù)據(jù)收集和管理能力,能積累海量的數(shù)據(jù),因此更看重從海量數(shù)據(jù)中挖掘出用戶(hù)偏好和市場(chǎng)機(jī)會(huì)。研究機(jī)構(gòu):比如市場(chǎng)研究公司、咨詢(xún)公司、證券公司、研究院。自主創(chuàng)業(yè):取得注冊(cè)項(xiàng)目數(shù)據(jù)分析師(CPDA)資格證可以自主創(chuàng)建或就業(yè)于項(xiàng)目數(shù)據(jù)分析師事務(wù)所等。所以,數(shù)據(jù)分析的行業(yè)應(yīng)用是極其廣泛的,并且隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)分析尤其是數(shù)據(jù)挖掘?qū)⒔柚ヂ?lián)網(wǎng)的發(fā)展,逐步形成人們依靠的重點(diǎn),并可能成為未來(lái)發(fā)展與競(jìng)爭(zhēng)的重點(diǎn)之一。由此我們可以看到數(shù)據(jù)分析師的就業(yè)前景是非常廣泛而樂(lè)觀的,無(wú)論是數(shù)學(xué)專(zhuān)業(yè)、統(tǒng)計(jì)專(zhuān)業(yè),還是計(jì)算機(jī)專(zhuān)業(yè)的學(xué)生,都可以通過(guò)系統(tǒng)的學(xué)習(xí)數(shù)據(jù)分析課程來(lái)適應(yīng)對(duì)數(shù)據(jù)分析人才的要求。

二、課程體系構(gòu)建

1.主干課程。主干課程包含高代、數(shù)分、概率論、數(shù)理統(tǒng)計(jì)、多元統(tǒng)計(jì)分析、時(shí)間序列分析、市場(chǎng)調(diào)查與分析、統(tǒng)計(jì)預(yù)測(cè)與決策、數(shù)據(jù)結(jié)構(gòu)、C語(yǔ)言、數(shù)據(jù)分析、數(shù)據(jù)挖掘、大數(shù)據(jù)分析與展示。理論課程的學(xué)習(xí)可以使學(xué)生了解數(shù)據(jù)分析的基本內(nèi)容,學(xué)會(huì)如何對(duì)已獲取的數(shù)據(jù)進(jìn)行加工處理,如何對(duì)實(shí)際問(wèn)題進(jìn)行定量分析,以及如何解釋分析的結(jié)果。掌握幾種常用數(shù)據(jù)分析方法的統(tǒng)計(jì)思想及基本步驟,并具備一定的分析論證能力。

2.實(shí)驗(yàn)課程。數(shù)據(jù)分析的操作離不開(kāi)計(jì)算機(jī)。目前數(shù)據(jù)分析行業(yè)常用的一些統(tǒng)計(jì)軟件有SAS、SPSS和R軟件。SAS軟件是一個(gè)模塊化、集成化的大型應(yīng)用統(tǒng)計(jì)系統(tǒng)。它的功能包括數(shù)據(jù)訪問(wèn)、數(shù)據(jù)儲(chǔ)存及管理、應(yīng)用開(kāi)發(fā)、圖形處理、數(shù)據(jù)分析、報(bào)告編制、運(yùn)籌學(xué)方法、計(jì)量經(jīng)濟(jì)學(xué)與預(yù)測(cè)等。SPSS軟件是一個(gè)社會(huì)科學(xué)統(tǒng)計(jì)軟件包,是采用圖形菜單驅(qū)動(dòng)界面的統(tǒng)計(jì)軟件,SPSS的基本功能包括數(shù)據(jù)管理、統(tǒng)計(jì)分析、圖表分析、輸出管理等。R軟件是一套完整的數(shù)據(jù)處理、計(jì)算和制圖軟件系統(tǒng),包括:數(shù)據(jù)存儲(chǔ)和處理系統(tǒng)、完整連貫的統(tǒng)計(jì)分析工具、優(yōu)秀的統(tǒng)計(jì)制圖功能、可操縱數(shù)據(jù)的輸入和輸入等功能。這三個(gè)軟件在數(shù)據(jù)分析中針對(duì)不同行業(yè)的需求有不同方向的應(yīng)用。

3.專(zhuān)業(yè)課程。從數(shù)據(jù)分析的行業(yè)需求出發(fā),好的數(shù)據(jù)分析人員不僅要有較強(qiáng)的數(shù)據(jù)分析能力,還要有該行業(yè)的背景及相關(guān)知識(shí)的儲(chǔ)備,這樣才能將數(shù)據(jù)分析與行業(yè)特性聯(lián)系起來(lái),發(fā)揮數(shù)據(jù)分析的最大功能,即所謂的“因地制宜”。同時(shí)要兼顧學(xué)生的興趣與學(xué)習(xí)的聯(lián)系,需提供多領(lǐng)域的課程選擇,如:經(jīng)濟(jì)學(xué)、金融學(xué)、保險(xiǎn)學(xué)、管理學(xué)、會(huì)計(jì)學(xué)等。而在軟件學(xué)習(xí)方面也要拓寬渠道,除了實(shí)驗(yàn)課程安排學(xué)習(xí)的軟件,學(xué)生可根據(jù)自身發(fā)展意向再多掌握一些軟件如:SQL數(shù)據(jù)庫(kù),熟悉office常用功能,尤其熟練運(yùn)用Word和PowerPoint、Excel圖表及數(shù)據(jù)分析等。同時(shí)還應(yīng)該結(jié)合對(duì)數(shù)據(jù)分析師的要求設(shè)置一些相關(guān)課程:投資數(shù)據(jù)分析、市場(chǎng)調(diào)研與預(yù)測(cè)、預(yù)測(cè)技術(shù)分析、現(xiàn)金流量表編制、風(fēng)險(xiǎn)投資項(xiàng)目篩選、不確定性分析、編制數(shù)據(jù)分析報(bào)告等。

三、實(shí)踐環(huán)節(jié)

培養(yǎng)數(shù)據(jù)分析的專(zhuān)業(yè)型人才目的就是為了學(xué)以致用。數(shù)據(jù)分析本身就是為了從數(shù)據(jù)中發(fā)現(xiàn)問(wèn)題、建立模型、預(yù)測(cè)收益風(fēng)險(xiǎn)企業(yè)決策進(jìn)而做出合理正確的決策判斷。因此,學(xué)習(xí)了基本的知識(shí)和技能就要運(yùn)用到實(shí)際操作中。學(xué)校可以和本地的數(shù)據(jù)分析事務(wù)所,或者大量需求數(shù)據(jù)分析人員的互聯(lián)網(wǎng)行業(yè)建立實(shí)訓(xùn)基地,進(jìn)行合作式教學(xué),使得學(xué)生在實(shí)習(xí)的過(guò)程中能夠理論聯(lián)系實(shí)際,切身體會(huì)數(shù)據(jù)分析的商業(yè)操作體系,這樣就能夠促進(jìn)學(xué)生有目的、有取舍地針對(duì)自身情況學(xué)習(xí)鉆研,繼而就能夠培養(yǎng)出適應(yīng)經(jīng)濟(jì)發(fā)展,滿足市場(chǎng)需求的應(yīng)用型人才。

四、結(jié)語(yǔ)

在大數(shù)據(jù)時(shí)代到來(lái)之時(shí),數(shù)據(jù)分析在互聯(lián)網(wǎng)中的應(yīng)用將會(huì)空前廣泛,與此同時(shí)對(duì)數(shù)據(jù)分析師的需求也將會(huì)井噴,無(wú)論是在軍事、工業(yè)、企業(yè)還是在政治上,大數(shù)據(jù)分析都將會(huì)十分緊缺。因此,目前對(duì)數(shù)據(jù)分析師的培養(yǎng)刻不容緩。本文從分析數(shù)據(jù)分析行業(yè)發(fā)展及其重要意義、數(shù)據(jù)分析專(zhuān)業(yè)課程設(shè)置以及教學(xué)實(shí)踐環(huán)節(jié)方面對(duì)構(gòu)建數(shù)據(jù)分析課程體系進(jìn)行了探討。不僅從教學(xué)課程的內(nèi)容上予以安排,而且更加注重引導(dǎo)學(xué)生自主學(xué)習(xí),特別強(qiáng)調(diào)理論結(jié)合實(shí)踐的合作式教學(xué)。希望能夠結(jié)合行業(yè)需求合理地構(gòu)建課程,培養(yǎng)出專(zhuān)門(mén)從事數(shù)據(jù)分析的項(xiàng)目數(shù)據(jù)分析師,從而能夠滿足市場(chǎng)需求和自身發(fā)展。

參考文獻(xiàn):

[1]范金城.數(shù)據(jù)分析[M].科學(xué)出版社,2010.

[2]http:///jrt/120922/70953.shtml

主站蜘蛛池模板: 中文字幕无码精品亚洲资源网| 人妻色综合网站| 国产精品白浆在线观看无码专区 | 少妇被粗大的猛烈进出视频| a级毛片免费全部播放| 强行糟蹋人妻hd中文字| 性高朝久久久久久久3小时| 狠狠躁夜夜躁人人爽天天5| 国产欧美在线一区二区三区 | 无码人妻一区二区三区免费视频| 噜噜噜噜私人影院| 品色堂永远的免费论坛| 国产精品99精品无码视亚| 国产精品毛片a∨一区二区三区 | 最新亚洲人成无码网www电影| 夸克影院免费观看电视剧| 肥臀熟女一区二区三区| 亚洲最大av网站在线观看| 日韩av片无码一区二区不卡| 国产成人无码aⅴ片在线观看| 精品一区精品二区制服| 国产精品一区二区av| 内地级a艳片高清免费播放| 激情内射人妻1区2区3区| 狠狠的干性视频| 黄频视频大全免费的国产| 色欲综合久久躁天天躁蜜桃| 在线观看免费av网站| 亚洲av永久无码精品桃花岛| 粉嫩极品国产在线观看| 97久久精品人妻人人搡人人玩| 国产精品成人永久在线| 亚欧色一区w666天堂| 国产麻豆一精品一av一免费| 乱亲女h秽乱长久久久| 公么大龟弄得我好舒服秀婷视频 | 国产亚洲av片在线观看播放| 亚洲中文字幕久久精品无码喷水| 熟女精品视频一区二区三区| 精品无码国产自产在线观看水浒传 | 无码人妻丰满熟妇区96|