時間:2022-05-21 11:15:09
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了一篇統計學數據論文范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
摘 要:圍繞大數據時代的到來對管理統計學教學帶來的機遇和挑戰,分析現有的管理統計學課堂教學模式特點,總結其存在的不足,并探討大數據背景下的新型管理統計學課堂教學模式,優化課程教學實施手段,不僅能積極應對大數據對管理統計學帶來的挑戰,給管理統計學帶來新的發展機遇,也能增強大數據背景下學生的數據驅動的管理決策意識,培養適應大數據時代要求的高素質人才。
關鍵詞:管理統計學;教學模式;大數據;案例教學
1 引言
管理統計學是一門應用統計學方法和理論研究經濟管理問題的應用性學科,它通過收集、分析、表述、解釋數據來探索經濟管理問題的規律,并輔助企業進行管理決策和提高管理效率。傳統的統計學關注小規模數據下的數據描述、推斷和科學分析用。與之相應,管理統計學的課堂教學主要關注統計學原理的講述、小數據的推斷分析和經濟管理問題的簡單應用。
然而,自2008年Nature雜志發表“Big data:science in the peta byte era”以恚大數據的發展方興未艾,備受學術界,企業界等關注。大數據的理念和技術不僅在互聯網、金融、機器人、人工智能等領域取得突破性進展,也將對企業的生產、經營和決策等活動帶來深刻的影響,通過對企業大數據的深度挖掘,有助于實現企業的商業價值,規避企業的決策風險,提高企業的競爭力。
大數據時代的到來,對管理統計學來說既是機遇又是挑戰,機遇在于:大數據的分析主要建立在統計學的基礎上對數據進行處理、分析,從而使得大數據可視化;而挑戰在于:當下管理統計學的教學方法和教學手段難以匹配大數據時代對數據分析從業者的要求,這就要求對管理統計學的課堂教學模式進行進一步的發展與創新,以期適應大數據背景下的新要求。
如何結合大數據時代的新要求設計合適的課堂教學模式,如何結合豐富的大數據應用案例開展課堂教學活動,如何增強大數據背景下學生的數據驅動的管理決策意識,培養適應大數據時代要求的高素質人才,這些都是大數據背景下傳統的管理統計學課堂教學模式所面臨的問題和挑戰,這也促使管理統計學教學工作者不得不去探究、優化甚至改革現有的管理統計學課堂教育模式。
2 傳統管理統計學教學模式的概述
筆者所在的教學團隊來自于武漢科技大學管理學院,承擔全院《管理統計學》課程教學任務,在教學方法、實踐教學等有較為豐富的教學經驗。然而,在多年的教學過程實踐和與學生的教學互動當中發現:現有的管理統計學教學模式盡管相對較為成熟,在培養學生的數據分析意識方面起到的重要作用,但是仍存在以下不足,而這些不足恰恰難以適應大數據背景下對管理統計學教學帶來的挑戰。
2.1 注重理論講授,忽視應用教學
受技術發展和數據規模等因素的制約,傳統的管理統計學教學大都采用理論驅動的教學模式,教師依托教材,注重統計學基本原理和方法的傳授,學生掌握基本原理,對統計學的實際應用等關注較少。
盡管管理統計學課堂教學會涉及到一定的應用案例,但是這些案例大都簡單,陳舊,數據來源單一,難以接觸實際原始數據,統計建模思路也相對固定,這些教學案例既不能反映管理統計學的最新發展和應用思想,也無法將其帶入企業經營的情景,對企業決策過程缺乏了解,這些因素都使得學生對該課程的學習興趣不高,不利于培養學生應用統計學解決實際問題的能力,進而影響課堂教學效果。
2.2 注重數學推導,忽視工具應用
管理統計學要求學生掌握一定的數學基礎,教材也都有較多的數學公式和理論推導,忽視了培養學生應用SPSSvSASvR等統計軟件工具解決統計問題的操作能力。
根據經管類專業的培養定位,對于經管類專業的學生而言,相比于統計的數學公式,真正實用的如何借用SPSSvSASvR等統計軟件工具來解決企業經營決策面臨的實際問題,尤其是在大數據背景下,需要處理海量、復雜、多源、異質的高維數據。這些是單憑數學推導和簡單的手動計算無法完成的。
近年來,大數據、互聯網等技術的快速發展催生了一類新型且前景廣闊的職業方向-數據分析師。綜合數據分析師的職業要求,可以發現,這些職位大都要求從業者了解基本的統計學原理和方法,熟練掌握SPSSvSASvR等統計軟件工具,并應用這些工具解決企業經營管理面臨的實際問題。
2.3 注重知識考核,忽視項目訓練
受限于教學管理制度和考核手段等因素,目前管理統計學課堂教學考核方式大都以閉卷為主,主要考察學生對統計學基本知識點的掌握情況,以及學生應用統計學知識解決簡單案例的綜合能力。
然而,在大數據時代背景下,除了要求掌握統計學基本原理,更應培養學生應用統計學知識解決實際問題的綜合能力,而這種綜合能力往往涉及數據獲取、數據預處理、數據探索、統計建模、模型檢驗、模型評價、模型解釋、模型部署和模型修正等數據分析的全過程,這種綜合能力的掌握是無法通過現有的知識考核來達到的,這些必然要求學生通過參與實際項目或模擬情景來實現。
3 大數據背景下管理統計學教學模式探討
如何結合大數據時代的新要求設計合適的課堂教學模式,如何結合豐富的大數據應用案例開展課堂教學活動,如何增強大數據背景下學生的數據驅動的管理決策意識,培養適應大數據時代要求的高素質人才,這些都是大數據背景下傳統的管理統計學課堂教學模式所面臨的問題和挑戰。而現有的管理統計學課堂教學模式難以匹配大數據時代對其提出的要求,這就要求對管理統計學的課堂教學模式進行進一步的發展與創新,以期適應大數據背景下的新要求。
3.1 構建案例引導的教學模式
現有的管理統計學課堂教學以講授基本的統計學原理為主,少量簡單的統計工具應用。大數據時代下企業的數據有了更高的商業價值,這對從業者帶來了更大的挑戰。因而管理統計學教學模式應主動應對這種挑戰,調整教學模式,引入實際案例,綜合訓練學生的基本原理、數據整理、分析和操作能力。
【摘要】首先,本文給出了筆者認為的統計學研究的典型問題究竟是什么;然后,闡述了什么是大數據;最后,就筆者的理解淺談了大數據時代統計學究竟還有沒有用武之地.
【關鍵詞】統計學;大數據;統計分析
一、統計學研究的典型問題
眾所周知,統計學是處理數據的一門科學.人們給統計學下的定義很多,比如,《不列顛百科全書》中“統計學是收集、分析、表述和解釋數據的科學”;《韋伯斯特國際詞典(第3版)》中“統計是一門收集、分析、解釋和提供數據的科學”;Mario F.Triola的《初級統計學》中“統計指的是一組方法,用來設計實驗、獲得數據,然后在這些數據的基礎上組織、概括、演示、分析、解釋和得出結論”.筆者認為,統計學研究的典型問題是“運用已知數據獲得所研究的客觀事物的數量特征和發展規律,利用規律對所研究的客觀事物的行為進行預測”.
首先,統計學研究的典型問題的關鍵之一就是必須有所研究問題的數據,這是研究的前提.那么如何獲得已知數據呢?我們說可以通過調查,也可以通過實驗.先來說通過調查獲得已知數據,情況有兩種,一種是抽樣調查,另一種是普查.給大家舉一個例子,比如,某研究部門想知道其所在城市所有職工家庭的年平均收入.那么,“該城市所有職工家庭的年平均收入”就構成了所研究問題的總體.“該城市中的每一個職工家庭的年平均收入”就是總體中的個體.如果要通過抽樣調查來獲得數據,也就是抽取部分個體組成樣本,比如,該部門抽取了2 000個職工家庭的年平均收入作為樣本,那么就獲得了2 000個樣本數據(某年的年收入數據),這就是通過抽樣調查獲得的已知數據.再用這同一個例子來說一說普查.比如,2016年,該研究機構對其所在城市中的每一個職工家庭都進行了調查,獲得了每個個體(職工家庭)的2015年的年收入數據,這就是通過普查獲得的已知數據.
當然也可以通過實驗來獲得已知數據,做實驗的過程就復雜了.要想通過實驗獲得靠譜的數據,首先,得滿足樣本量足夠大,然后,就是要做到隨機.現實中這兩點也不是很容易做到的.例如,假設我們現在想研發一種做運動鞋的新材料,看看是不是比舊的材料更耐磨.又假設我們現在的研發成本非常高,只能提供4雙樣品鞋.于是,我們找來了8個孩子來試穿,4雙新材料4雙舊材料.看到這兒,第一反應是樣本量小了,但是沒有辦法啊,實際情況只允許我們做到這種程度.那么在樣本量無法擴大的前提下,怎么做才能使實驗靠譜呢?我們給每一個孩子隨機選一只腳穿新材料,另一只腳穿舊材料.這樣,每一組新舊材料的對比都是基于同一個孩子的,這就不存在比如,孩子是否喜歡運動等的混淆因素了.
統計學研究的典型問題的第二個關鍵點就是需要有合理的統計分析.針對已經獲得的已知數據也就是樣本數據,我們采用合理的統計分析,定會對所研究的客觀事物的數量特征和規律進行準確的描述、分析和判斷.
統計學研究的典型問題的第三個關鍵點就是對未來的預測具有不確定性.分兩個方面來給大家闡述.首先,未來必須是未知的,如果所研究的某事物的未來行為或特征是已經知道的,那這就不屬于統計學要研究的問題.其次,預測必須是不確定的.如果預測的結果只有一種,也就是預測的結果是確定的,那這也不屬于統計學要研究的問題.比如,我們想知道人體的骨骼有多少塊骨頭?于是,抽選部分人作為樣本,通過對樣本研究獲得已知數據,進而來預測其余未被抽中的人,這種預測具有確定性,人體骨骼是由206塊骨頭組成.這就不屬于統計學要研究的問題.再比如,一種新藥出廠后用于臨床試驗獲得已知數據,然后對更廣泛的同類型病人的療效做預測性推斷,具有不確定性.
二、什么是大數據
當今,“大數據”如日中天,似乎已經成為人們的流行語,那什么是大數據呢?麥肯錫對大數據的定義是從數據集的“大體量”入手的:大數據是指那些規模大到傳統的數據庫軟件工具已經無法采集、存儲、管理和分析的數據集.維基百科采納了麥肯錫的定義,認為大數據是一組龐大而復雜的數據集的集合,大且復雜到難以用現有的數據庫管理工具或傳統的數據處理應用來處理,大數據就是一切可記錄信號的集合.狹義地講,大數據是一個大樣本和高維變量的數據集合.廣義地講,大數據涵蓋多學科領域、多源、混合的數據,自然科學、人文社會、經濟學、通訊、網絡、商業和娛樂等各種領域的數據集相互重疊連成了一片數據的海洋.大數據涉及各種數據類型,包括文本與語言、錄像與圖像、時空、網絡與圖形.我認為,當今流行的“大數據”是通過互聯網獲得的足夠大量的、包含一切數據類型的數據的集合.
三、大數據時代,統計學是不可或缺的
我們姑且先不去談大數據和統計學中的數據誰更全面,誰更方便獲得,誰更相對有代表性;不去談什么樣本和總體,我們就只是來說一說,大數據時代,只是有全部的數據就足夠了嗎?筆者認為當然不是.無論是大數據還是統計學中的樣本數據最初都是雜亂的、無序的,所以說,大數據時代,數據的處理、理論分析等的問題就顯得尤為重要了.這些重要問題的解決都離不開統計學,它需要統計理論和統計分析方法.
就是舍恩伯格和庫克耶也不同意安德森的極端觀點.他們指出“大數據絕不會叫囂‘理論已死’”,因為“大數據是在理論的基礎上形成的”,無論是如何搜集數據、分析數據、還是解讀研究結果,都得依賴理論.“大數據時代絕對不是一個理論消亡的時代,相反地,理論貫穿于大數據分析的方方面面.”
摘要:大數據是21世紀的熱點話題之一,統計學是傳統的數據分析學科。利用百度指數提供的“用戶關注度”功能,本文選取2012年-2016年5年260周的百度周平均搜索指數為研究對象,以百度搜索指數來反映社會關注熱度,研究大數據與統計學關注熱度之間有無相關性,以及大數據搜索指數發展的趨勢變化。根據圖形分析與相關系數的計算,可知大數據與統計學搜索熱度呈現正相關關系,該關系線性程度不大,多為非線性關系。根據大數據的季平均搜索指數、每四周平均搜索指數的變化趨勢研究表明,大數據搜索指數不存在明顯季節性,存在明顯的正趨勢性;其搜索岫茸2012年初至2015年2季度以來呈明顯上升趨勢,其后增長速率放緩,呈現更為顯著的波動性,由此可知2015年2季度為其明顯的一個轉折點,符合其發展趨勢的模型有修正指數模型,以及龔珀茲曲線模型和皮爾曲線模型這兩個生長曲線模型,結果顯示三個模型的擬合度均較理想,其中龔珀茲曲線的擬合度最高。根據擬合結果,從大數據搜索指數反映的社會關注熱度來看,大數據搜索指數的發展已趨于飽和趨勢,其飽和值為4300左右。
關鍵詞:大數據;統計學;百度指數;趨勢外推
引言
現代社會,數據量呈爆炸式增長趨勢,數據已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。2012年以來,大數據一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,并命名與之相關的技術發展與創新。而統計學作為傳統的數據分析方法,在擁有海量數據的現代社會既有著巨大的機遇,但由于大數據突破了傳統統計學關于樣本和總體界定等等限制,也對傳統統計學的分析方法提出了前所未有的沖擊和挑戰。在現實生活中,并沒有一門基于大數據的專業產生,各大企業往往通過招收統計學、計算機、數學等相關專業的人才來滿足其大數據分析工作的要求,盡管如此,關于大數據的熱門是否捧熱了統計學之類的相關學科的說法一直眾說紛紜;此外經過了幾年的對大數據關注的大熱,市場逐漸對其回歸理性,甚至出現了“大數據泡沫”這樣的質疑聲音。本文借助百度搜索指數,對2012年-2015年每一周大數據、統計學兩詞條的反映其關注熱度的搜索指數進行定性、定量分析,實現以下目的:
觀察從百度搜索指數中反映出的人們對于大數據、統計學度的變化趨勢,了解在人們關注度方面二者有無相關性、有怎樣的相關性,即大數據的大熱有沒有帶來統計學關注度的變化。
通過建立統計模型,觀察大數據關注熱度5年來的變化,了解現實中其在關注度發展過程中所處的階段,即現實中對大數據的關注依然處于上升階段還是已經趨于飽和。采用定量、定性結合的分析方法,將統計學和大數據的搜索指數時間序列作線圖,并計算線性相關系數,觀察兩者的變化規律,并計算兩者有無線性相關關系。為滿足消除隨機性波動和保留足夠數據量的需要,分別計算大數據搜索指數的每四周、每季度加權平均值。觀察圖形有無季節性、周期性波動;觀察圖形是否存在轉折點,以此為基礎選擇統計模型。根據圖形識別的結果,建立可能的統計模型,并通過比較R方值的方法來選擇適當的模型。
一、中國統計學發展與大數據發展的相關性分析
用橫坐標表示周次,縱坐標表示搜索指數,將大數據和統計學的搜索指數時間序列在一個圖中分別做折線圖,從圖像中可以看出,57周以前,統計學的搜索熱度大于大數據的搜索熱度,57周以后,大數據搜索熱度逐漸超過統計學搜索熱度。90周之后,大數據和統計學的變動趨勢呈現一定的相似性,例如都在214周時達到谷值,而后回升。在178周大數據搜索達到峰值,182周統計學搜索量達到峰值,在此期間統計學的增長略落后于大數據的增長,但是分布的形狀大體一致。
2.季平均值線性相關系數=0.292112357
結果分析:兩組數據的線性相關程度都不高,其中季平均線性相關系數略高于周平均線性相關系數。說明大數據與統計學的搜索指數之間并不存在明顯的線性相關關系,但是從圖中看出二者變化趨勢具有相似性,因此猜測二者可能具有某種非線性相關關系。
因為相關關系并不等于因果關系,因此對于如上結果我們做出兩種假設:
在90周以后,統計學的分布類似并且略落后于大數據的增長,這可能是由于人們對于大數據的關注,引發了人們對于統計學這個相關學科的關注。
兩者類似的分布形態,可能是由于全國所有用戶搜索頻次的周期性、隨機性變動所引致的,大數據、統計學搜索指數變動之間并沒有直接的因果關系。
二、中國大數據需求量預測模型
由于原始數據有260周,波動性過大,為了得到更為準確的結論,我們僅對其按每季度、每四周兩種方式計算加權平均值得到的時間序列作討論,其目的是(1)平滑隨機波動;(2)判定按每季度和每四周平均哪個有季節性;(3)每季度平均更能反映長期趨勢,但數據較少,只能以季為單位預測未來值;每四周平均的數據較多,且可以進行更短期的預測。
1.季節性、趨勢性的判定
(a)圖形判別法
建立按季平均和按每四周平均的橫坐標為季度或周次,縱坐標為搜索指數的折線圖,按季節平均、按每四周平均,大數據搜索指數都不存在明顯的季節性;另外由于后一年的值往往大于前一年的值,因此可以判定其存在趨勢性。
(b)建立一元線性回歸方程并檢驗顯著性
季平均值:;
每四周平均值:;
由于兩個時間序列一元線性回歸的R2均顯著,所以大數據搜索指數顯然存在線性趨勢。
結論:上述過程從圖形和計算兩個角度得出了以下結論:大數據搜索指數并不存在明顯的季節性,不適合使用時間序列分解法;大數據搜索指數存在明顯的趨勢,一元回歸有較好的擬合優度,但是一元回歸使用的前提是時間序列不存在明顯的轉折點,為了進一步確定更好的擬合模型,我們繼續如下討論。
摘 要:傳統的統計學是因數據而生的,也是以研究數據為根本目的,傳統統計學有其獨特的數據收集、整理與分析的方法體系,也確實為我們研究數據帶來了便利,但是不得不思考的是在數據爆炸的信息時代,尤其是“大數據”概念產生以后,傳統的統計學如果不改變,又將如何應對大數據分析帶來的挑戰,該文將從零售行業的角度分析大數據為傳統統計學帶來的諸多挑戰。
關鍵詞:總體數據 相關性 個性化營銷 定制服務
隨著科技的發展,大數據已經成為信息時代的一場技術革命。大數據是指傳統數據庫管理工具難以處理的大量的、多樣化的數據。當前普遍認為大數據有3個特點:第一,數據量非常大;第二,數據增長速度非常快;第三,數據類型越來越多樣化[1]。零售業作為傳統的線下實體經營行業,積累了大量的消費者以及管理層的數據,如果依靠傳統的統計學模型對這些數據進行分析,很難得出可以用于企業經營管理的有效信息,加上年輕一代消費者越來越追求個性化,所以傳統統計學所采用的根據部分樣本推斷總體的分析方法已經無法滿足市場的個性化需求,因此,傳統統計學要想跟上時展的步伐,就必須做出與之相適應的改變。
1 零售行業里大數據與傳統統計學的區別
維克多?邁克爾在《大數據時代》一書中提出了大數據思維的3個最顯著的變化:一是樣本等于總體。這與過去基于樣本進行統計分析的思維截然不同;二是不再追求精確性。在大數據中往往存在“噪音”和罕見事件,這樣的數據影響了結果的精確性;三是相關分析比因果分析更重要,在大數據時代我們將注意力更多地放在“是什么”而不是“為什么”[2]。大數據的以上特性在零售行業同樣適用,零售行業的大數據與傳統統計學的區別有以下3點。
第一,大數據收集總體數據,而傳統統計學多采用抽樣的方式收集部分數據。傳統統計學在做統計分析時首先針對某一個問題提出假設,然后確定需要調查對象的總體,由于數據采集存在一定的難度,所以統計分析采取從總體中隨機抽樣選取一部分數據作為分析的對象,如此的話對隨機抽樣的方法與數據采集的準確性要求是非常高的。而大數據收集的是數據“總體”,在進行分析的時候不會人為進行假設,排除了人的干擾因素,僅僅從數據本身出發進行數據分析。在零售行業如果能運用大數據思維分析數據,從產生數據的顧客行為本身出發,針對不同顧客做出個性化營銷,而不是人為假設的話,管理層就可以根據數據進行預測,避免了主觀的經驗與直覺的判斷。沃爾瑪作為零售行業的巨頭,運用大數據分析得出的著名的啤酒與尿布理論可以證明這一點。
第二,大數據注重個體行為的研究,統計學用樣本數據推斷總體行為。傳統的統計學采用抽樣調查的方式對樣本數據進行分析,用樣本推斷總體,那些在圖表上反映出來的異常數據被排除在外。大數據包容一切數據,其中包括各種結構化、半結構化、非結構化甚至是異構數據。對于零售行業而言,顧客的總體行為表現是沒有意義的,因為每個顧客的需求不同,在不同的時間和地點需要的商品都不同,只有根據每位顧客的不同行為進行個性化服務才能讓線下的零售行業有優勢可言。美國高檔連鎖百貨Nordstorm最近開始采用線下實體店客流分析服務供應商Euclid Analytics公司的客流監測解決方案Euclid Zero,基于用戶連接Wifi行為來獲取店內顧客手機的Mac物理地址并進行線下追蹤,由此可以通過單個顧客在百貨店里的行動路線和滯留時間,從而用于改善商品羅列與室內動線以及顧客個性化偏好與推薦服務[3]。
第三,大數據注重數據之間的相關性,而傳統統計學更加關注數據分析的結果。從社會發展的角度來看,大數據對數據的關聯性分析更有助于零售行業管理層做出決策。對于傳統零售行業而言,線下的用戶體驗是非常重要的,如果能根據用戶行為數據分析出哪些商品放在一起能促進購買力,那么零售行業將會有更大的利潤空間,相比之下,統計學進行的結果分析顯得沒有那么重要。
2 大數據在零售行業的優勢
邁克爾?舍恩伯格說:大數據發展的核心動力就是人類測量、記錄和分析數據的渴望。
第一,大數據收集的數據是多樣化的、非標準化的,而統計學收集的數據都是標準化、結構化的,統計學無法對非結構化的數據進行分析與測量。但是在零售行業僅僅對標準化的數據進行分析做出的判斷已無法滿足行業的需求,通過對用戶在商品前滯留的時間以及與貨架上商品的互動行為產生的數據進行分析,從而調整貨架的位置才是主流。
第二,大數據可以實時、快速監測與收集數據,而統計學收集數據時間長、難度高。大數據收集與處理數據的能力對于零售行業的供應鏈管理十分有效。零售市場可以利用大數據對庫存和員工行為進行監測,從而為管理層做決策提供依據。沃爾瑪為了提高大數據成果在不同部門之間的高效利用,并增加存貨管理和供應鏈管理的投入回報率,其開發了Retial Link工具。供應商使用該工具可以預先知道不同店鋪商品銷售和庫存情況,從而能夠在沃爾瑪發出指令前自行補貨,極大地減少商品斷貨,提高供應鏈的庫存水平[4]。
3 傳統統計學面對大數據挑戰要做出改變
大數據的出現給我們的生活帶來了巨大的改變,甚至不同國家的政府都將大數據作為國家的戰略資源。相比之下,傳統統計學面臨著大數據的巨大挑戰,如果能根據自身優勢做出改變,傳統統計學仍然具有存在的價值。
第一,改變數據的收集方式。統計學收集數據時前期要做大量的準備工作,需要耗費大量的人力物力成本,所以想要更加高效收集數據,就必須做出改變。由于大數據是基于互聯網收集數據的,所以對于不使用互聯網的地區和群體來說,大數據就顯得很無力,而傳統統計學可以在此基礎上發揮自身勢,在以往的數據收集方式上進行創新。
第二,傳統統計學在數據的分析思維上也要進行改變。傳統統計學不光要打破只能分析標準化數據的魔咒,更要著重分析問題的本質,而不是一味注重結果分析,雖然“是什么”很重要,但是一直以來探尋事物內在本質才是不斷推動人類社會進步的動力所在,所以統計學也要學會知道“為什么”。
4 結語
信息技術的發展是無法想象的,我們無法通過今天來預測未來10年信息行業的發展。只有追上時代的腳步,做出順應時代潮流的改變,才能免遭淘汰,對于傳統統計學也是一樣,停留在原地不動是不明智的,改變才是世界的本質。而所有技術的變革都將反饋給人類的生活,讓人們和社會從中受益。
摘 要:隨著醫學健康檔案“電子化、信息化、數字化、智能化”的管理和醫學研究資料的不斷積累,醫學信息大數據時代悄然開啟。如何有效地利用這些海量信息為健康管理和健康決策提供支持,本文分析了大數據對統計學原理和方法提出的挑戰,列出了在醫學統計學課程教學中應該思考的一些問題。
關鍵詞:大數據;醫學統計學;教學
所謂大數據(Big Data),是指具有4V特征且用目前的管理、處理技術手段難以進行有效管理和分析的數據。4V的含義是數據量大(Volume Big),數據量級擴大至PB以及ZB級別;數據產生、輸入和處理快速化(Velocity Fast);數據結構和類型多樣化(Variable Type)及數據價值密度低(Value LowDensity)。大數據的目的是將數據轉化為知識,探索數據的產生機制和過程,進行預測和政策制定。隨著醫學健康檔案“電子化、信息化、數字化、智能化”的管理,隨著物聯網在醫學健康領域的應用,醫療、護理、康復、保健工作流程中產生的數據存儲量呈指數增長。如何有效地利用這些海量信息為健康管理、臨床治療、醫院決策及衛生政策制定提供支持,是大數據時代醫學信息化帶來的挑戰。美國國家衛生研究院(NIH)為此特設立生物醫學大數據研究中心及專項基金。在我國,科技部、國家自然科學基金委、國家社會科學基金委陸續醞釀和啟動了“大數據的處理與應用”系列重大研究項目。
統計是一門數據科學,醫學統計學是關于醫學健康數據的收集、整理、分析和解釋的方法論學科。“大數據”處理對統計學的發展提出了新的命題,如何將“醫學信息大數據”處理技術融入相關統計學課程教學以促進現代醫學信息分析技術的發展?本文做了相關的分析,并提出應該思考的一些問題。
一、大數據對統計學原理和方法提出的挑戰
1.統計數據產生由“問題導向”到“數據驅動”
目前,統計數據的產生主要是基于所要研究的問題而主動進行的“數據收集”,落腳點在于如何獲取數據。在大數據時代,海量數據隨處可得,由數據驅動而進行問題研究將非常普遍。那么,獲得數據的關鍵點不在于如何獲得,而在于如何識別與選擇。由“問題導向”產生的結構數據是經過嚴格抽樣設計獲取的,具有系統誤差小、總體代表性好的優勢,但是信息量有限,且數據獲取周期長。大數據流環境下,海量數據中有價值的數據可能并不多,即數據的價值密度低,且難以避免和判斷數據獲取的誤差和偏倚。在很多情況下,統計數據不需進行抽取,而是“數據樣本即總體”;同時,也要研究如何從源源不斷的數據中抽取足以滿足統計目的和精度的樣本,這需要研究新的序貫性和動態性的抽樣方法。
2.數據格式和結構復雜多樣化
目前統計數據都是結構化數據,如疾病空間分布和時間序列數據等,可使用二維表格表示,可以方便地被常規統計軟件讀取和進行分析。在大數據背景下,除少量數據具有結構化特征外,更多的是半結構和非結構化數據,如各種格式的文檔、圖片、網頁、圖像、音頻和視頻等。目前,這些半結構和非結構化的大數據僅能做到初步的實時業務應用。如在研究氣候變化與人類健康相關的命題時,需要處理龐大的氣象數據,而80%以上的氣象數據均為非結構化的大數據,如何將這些非結構化的大數據做到降維、分解和長時間序列儲存無疑是統計學面臨的新命題。
3.大數據的整合及跨庫分析方法亟待建立
傳統上,數據集的合并和拆分都是利用關系數據庫技術,如共同的編碼或關鍵字進行操作。在大數據環境,很多數據集不再有標識個體的關鍵字,關系數據庫鏈接方法不再適用,需要探討利用數據庫之間的重疊項目來結合不用的數據庫。此外,還可以改變分析思路,如直接利用局部數據進行推斷,然后整合這些數據集的統計結論。
4.大數據對于統計學核心理論的沖擊
一個新生事物的出現將必定導致傳統理論和技術的變革。大數據對傳統統計學原理和方法的沖擊是劃時代的。傳統的統計學方法和理論立足于應用抽樣技術在總體中抽取小樣本進行分析,通過樣本統計量推斷總體的參數和性質。在大數據背景下,我們更關心的不是數據量的大小,而是數據所蘊含的信息量及信息的識別和選擇。因此,大數據的預處理如數據清洗、糾偏完全跳出了傳統小樣本研究的范疇。同時,大數據充滿了各種隨機的、非隨機的誤差和偏倚,很難滿足小樣本數據精度和分布的要求。在大數據時代,需要進一步拓展統計思維,豐富現有統計學的理論和方法,賦予統計學新的生命力。
二、在大數據時代對統計學教學的幾點思考
《“十二五”時期統計發展和改革規劃綱要》中明確提出,“建立現代統計體系就是建立以現代信息技術為支撐的統計系統”。根據這個綱要,計算機技術、互聯網系統、多媒體等現代信息技術在統計技術中將發揮更重要的作用。在醫學信息大數據時代背景下,醫學統計學教育是否能夠與時俱進,迎接大數據帶來的機遇與挑戰?為此,筆者談幾點思考:
1.補充和加強數學基礎和計算機應用課程
在大數據背景的沖擊下,統計學教育首先要面臨兩大沖擊。一是大數據背景下的統計模型將會跳出原有的傳統統計模型框架,需要更廣泛的學習一些數學概念,如拓撲、幾何和隨機場,這些數學知識將會在龐大數據分析的背景下扮演重要的角色。二是算法和計算機上的實現是傳統教育面對的更大挑戰,大數據環境下的數據是海量的,同時又是結構化、半結構化、非結構化的混合數據,處理這些技術需要先進的計算機技術平臺。在大數據和信息化的時代背景下,在目前醫學生的通識教育中,是否應該加強數學基礎及計算機應用等相關課程的教育?值得思考。
2.滲透大數據基本知識和統計思維
統計思維的培養,是提高學生處理數據和運用數據分析實際問題能力的重要一環。在大數據時代,并非所有的醫學健康問題都通過大數據方式去處理,基于小樣本的分析仍然是最基本和最有效的實現方式。因此,傳統統計學基礎和原理仍然為醫學統計學教育的核心和重點。與此同時,結合大數據技術的特點,對統計學的基本知識進行拓展教育,有計劃地將大數據的統計分析思維滲透在教學工作中。將大數據的基礎知識,如數據來源、數據結構和格式、收集和篩選,在教學中進行適當補充。引導學生將已有的統計學基本原理和方法運用到大數據處理中。
3.擴充實驗教學內容,夯實基本軟件操作
統計學是一門處理數據的方法學科,重在應用。因此,在系統統計原理教學的基礎上,更加側重實踐性和應用性的訓練。在目前的統計學教學中,學生普遍比較缺乏的不能將醫學實際問題正確的轉化為統計學問題,不能根據資料根據資料的設計類型、性質和分析目的靈活選用合適的統計分析方法。通過綜合性的實際案例,將醫學科研中的實際問題納入教學,使學生虛擬的置身于科研一線,去感受和完成科學研究中的統計學應用。大數據時代,數據、資料的產生方式發生了很大變化,因此,需要增加部分大數據方面的數據、資料收集和整理方法的訓練內容。大數據背景下,數據中除了一些結構性數據外,更多的是半結構和非結構化數據,很難用傳統的二維數據表顯示方式予以直觀化。因此,除了目前常用的統計圖、統計表外,還應該逐步補充一些比較復雜的數據透視化技術方面的教學,如探索性可視化描述工具、Tableau、TIBCO和QlinkView以及敘事可視化工具等。
在大數據時代,在統計學的教與學中,不應要求死記有關概念、定理和計算公式,而應加強統計學基礎性原理與知識的教學,凸出統計學理論與方法的應用性,建立起大數據統計思維。學習統計學是為了應用和解決實際問題。對教師來說,教好醫學統計學的標志是教會學生運用統計思維思考問題和選擇合適的統計方法解決實際健康決策及健康管理問題。對學生來說,學好統計學的標志是建立統計思維,能夠以問題為導向,在統計思想的引導下,選擇合適或最優的統計方法,或者通過創新統計方法,有效地解決實際問題。
大數據已經成為助力互聯網+發展的重要手段,成為創客實現夢想的必經途徑,其已經成為我們生活中不可缺少的一部分,大數據正在以一種前所未有的態勢推動著各行各業的發展,其蓬勃發展的態勢也標志著大數據時代的來臨。
統計學時展
一、引言
大數據時代以迅雷不及掩耳之勢席卷世界,在全球范圍內掀起了前所未有的數據革命浪潮。相對于政府單位的統計數據來說,大數據主要利用的是多層次、多樣化的數據采集方式,整合了多種數據的開發優勢,并且利用現代科學技術手段和高速處理以及信息架構數據等資源,兼具極高的使用價值和判斷決策能力。一方面,統計調查數據的多樣化發展趨勢和電子商務產業的不斷發展,為統計數據的使用方式和生產方式制造了不小的麻煩,不斷地挑戰者政府部門數據管理系統和統計數據的概念。另一方面,信息技術、網絡發展以及空間信息技術的不斷進步,為統計生產力的升級發展提供了廣闊的視角和空間。數據量急劇增長的電子化、信息化和產業化數據,都成為了統計數據發展的重要來源。種類不斷增多的“大數據”資源,正在成為政府統計部門利用研究的重要領域。
二、大數據與統計學的區別
統計知識在大數據的利用研究中有多樣化的應用形式,主要是對“大數據”進行肢解,對爆炸增長的數據信息進行搜索、分類以及整合主要依賴于統計學。因此,大數據的相關研究在一定程度上運用了統計學的知識。但是,大數據的使用尚未被統計學這門學科充分利用,這主要是因為大數據的運用方式,使用模式和統計學之間存在著重要差異。統計學主要利用的是樣本統計資源,樣本主要在根據既定的概率標準從總體中抽樣調查,但是隨機抽樣調查是帶有成本屬性的,例如消耗時間、資本投入的成本等。在樣本數量逐漸增加的情況下,樣本估計的誤差范圍是伴隨著總體樣本數量的增大而逐漸增加的,這是樣本統計學不能忽視的缺點。大數據時代最具代表性的就是海量的信息數據化以及即時電子商務信息,大數據在整體上呈現出“總體樣本數據化”的趨勢,這樣的特征恰好可以補充樣本統計的弊端。大數據環境下的整體樣本統計即使可以囊括全部的樣本容量,但是因為很多情況下數據具有非結構性和半數據化的特征,而且大量的數據資源呈現的是重視尾部分布的狀態,方差、標準差等標準化的方法變得毫無意義,整體依靠性和不穩定性經常會超越經典時間內的時間序列的整體假設性,所以概率論的應用范圍呈現狹窄化的發展趨勢。因此,統計學在利用大數據進行樣本統計的過程中,可以對整體上的數據資源進行融合和選擇,這和樣本統計中的數據化處理技術存在異曲同工之妙。
三、大數據時代統計學教育的發展
1.全面培養人才素質
統計學專業的學生需要具備良好與人交往能力。統計學的學生很多都是理科出身的學生,不善于交際。但是在日常的工作中,有數據經驗的科學家應該經常和每個部門的工作人員交流,協同工作。怎么樣才能讓頗具專業性的數據分析結果讓普通的老百姓也可以讀懂,讓每個部門的工作人員都能無障礙地理解,這是不容易做到的。要訓練自己的交往能力和溝通技能,主動地參加演講活動是不錯的渠道,演講活動鍛煉了演講者的自信,在整個演講的過程中,能否清晰地表達自己的思想以及給人以信服力是至關重要的。需要培養數據常識,廣其見聞。數據科學家經常面對各種各樣的海量數據,并需要從這些數據中挖掘出有價值的信息,這就需要數據科學家具有強烈的數據敏感性。對數據的敏感程度的訓練不是一蹴而就的,要經過長時間的積累和數據分析工作的磨練,同時也可以根據閱讀數據分析材料積累閱歷,提升對數據資源的敏感程度。
2.培養應用型人才
大數據時代培養的數據科學家需要兩方面的基本素質,第一是概念性,也就前面所說的數據科學家需要掌握的基本素養和專業知識;第二是實踐性,也就是本文中我們提及的應用型人才,也就是實際操作中處理數據的能力。在高校開展大數據分析研究生學科,最大的問題是沒有可用的數據,這就需要高效與大數據企業合作,進行研究生的聯合培養,注重學生的實際操作能力,這里面涉及到我們的應用統計學專業碩士的雙導師培養制度,一名校內導師一名校外導師,校內導師注重學生的概念性,校外導師注重學生的實踐性,學生通過在校外導師單位的實習,從而熟悉并且掌握實際工作中所需要的技能。
3.促進統計與數學、計算機學科合作
“大數據”時代需要的海量數據分析資源僅僅憑借統計學科單一學科的發展是不能滿足發展需求的,大數據的數據結構性特征已經拋棄了傳統意義上的數據分析模式的非智能化框架,而且數據分析需要利用新型的數據運算方式以及計算機技能分析,這也是進行數據分析工作的攔路虎。所以,數據科學家的成長僅僅依靠單一的統計學科知識的學習是遠遠不夠的,其需要的是數學、計算機和統計學三門學科融合發展,緊密結合。三門學科之間交叉發展,融會貫通,這樣既可以發揮學科的優勢資源,同時也能彌補其他學科的弊端。
四、結語
數據信息的爆炸式增長使我們在使用統計數據處理信息時需要更多的數據資源,更有甚者,在很多情況下可以利用全面化的數據,數據資源不再是制約統計分析的唯一因素,大數據前提下的統計學效用和粘合度預測的準確程度不斷提升,而且可以發現諸多在樣本統計基礎上未能顯現的細節。統計學關鍵優勢就是“見微知著”,也是統計學在數據環境下的約束性妥協。在海量數據洶涌襲來的年代,充分發揮統計學的優勢,和大數據資源整合發展,實現“以小見大”和“由繁入簡”的有效結合。
摘要:我們已經進入大數據時代,統計學作為處理和分析數據的科學,必然受到大數據的影響。目前我國統計學專業課程設置和教學內容改革還處于探索階段,統計學教育現狀存在亟待解決的問題,統計學教育的改革勢在必行。本文在分析大數據時代特征的前提下,分析了我國統計學教育的現狀與挑戰性問題,討論了統計學教育改革的內容、方法、借鑒和適應時代要求的變革問題。
關鍵詞:統計學;教育改革;大數據
一、引言
最早提出大數據時代到來的機構是全球知名的麥肯錫咨詢公司,該公司在一份研究報告中指出:“數據已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素,人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來”。
大數據是隨著互聯網技術的廣泛應用帶來的數據量和數據類型激增而衍生出來的一種現象,但大數據一詞不僅指規模大、種類多的數據集,還包括對這種數據集進行采集、處理與分析以提取有價值信息和直接創造價值的技術構架和技術過程。大數據的第一個特征是數據量巨大。截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。第二個特征是數據類型繁多、異構性突出,包括網絡日志、音頻、視頻、圖片、地理位置信息等等。第三個特征是數據價值密度較低,數據中存在大量重復性和無價值性信息或噪聲。如何通過強大的計算技術和統計分析等方法迅速完成數據的價值提純,是大數據時代亟待解決的難題。第四個特征是處理速度快、時效性要求高。這是大數據區分于傳統數據挖掘最顯著的特征。
目前,不同的學科領域對大數據概念有著不盡相同的解釋,但各種解釋中大致可以從兩個方面去理解。首先,大數據概念體現在數據量的巨大、種類的眾多及產生速度的飛快,同時產生的數據集極有可能包含著各種半結構化和非結構化數據;其次,大數據概念還體現在對數據進行處理的手段和流程方面,由于數據量的龐大和類型復雜,利用常規的統計軟件已經無法對當今的數據進行及時有效的存儲、分析及處理。因此,所謂的大數據并不是單純指數據流量的巨大,還指其結構的復雜和種類的多樣,在數據處理和分析上需要采用高端計算平臺或高級統計軟件,以及海量數據中存在著可挖掘的潛在的大量價值信息與知識。
近年來,隨著高速計算機的應用、信息技術的快速發展,特別是云計算技術的發展,使大數據的存儲和分析技術得到迅速發展,目前的核心技術有MapReduce、GFS、BigTable、Hadoop,以及數據可視化等。在數據搜集上,可方便地通過在線互聯網數據庫獲取二手數據或一手實時數據。在數據分析上,傳統統計學方法采取的是基于統計模型的樣本數據分析,而大數據分析技術則是通過高端計算平臺,對大數據中的信息進行挖掘。
統計學作為對數據進行處理和分析的科學,必然受到大數據的影響。在大數據時代,統計學教育必須與時俱進,跟上時展步伐。近年來,有不少文獻討論了大數據環境下我國統計學教育的改革問題(例如[1]-[5]),本文在分析大數據時代特征的前提下,進一步討論我國統計學教育的現狀與挑戰、統計學教育改革的內容、方法、借鑒和適應時代要求的變革問題。
二、統計學教育的現狀與挑戰
2013年,教育部對我國統計學專業設置進行一次新的調整,將原來的既可授予理學學位,也可授予經濟學學位的統計學專業劃分為統計學、應用統計學和經濟統計學三個本科專業[6]。根據教育部高等學校統計類專業教學指導委員會2013年11月公布的數據,當時全國有194所高校開設了統計學專業,156所高校開設了應用統計學專業,164所高校開設了經濟統計學專業[6]。目前,全國開設這三個統計學專業的高校個數和在校學生人數與2013年相比都有不少的增加。
面對大數據時代,我們目前的統計學教育無論在培養目標和教學內容上,還是在教育方式和人才培養模式上,都存在著亟待解決的挑戰性問題。例如,在專業培養目標和人才培養過程中,我們比較重視課程層面上的評價,比較輕視專業層面上的整體評價,缺乏對學生綜合能力的反饋機制。
關于教學內容,目前三個統計學專業在統計理論和應用統計兩個方面有不同的側重。統計理論主要包括:抽樣理論、實驗設計、估汁理論、假設險驗、決策理論、貝葉斯統計、半參數和非參數統計、序貫分析、多元統計分析、時間序列分析、小樣本理論和大樣本理論等。在數據分析中,現今的統計方法基本以結構化數據為主要處理對象,而對非結構化和半結構化數據的分析和工具涉及較少。因此,現今統計學課程及內容已不能滿足從事非結構型和半結構型的大數據研究和商業應用對人才培養的需要,必須進行必要的改革。
對于教育方式,鑒于大數據時代要求,統計分析人員需要具備較高的數學和現代統計學基礎,具有較高的軟件操作能力,掌握一定的大數據收集、整理、分析、處理和挖掘數據的技能。日本學者城田真琴認為:“數據科學家要有計算機科學專業背景,數學、統計方面的素養和使用數據挖掘軟件的技能,善于利用數據可視化的手法展現晦澀難懂的信息,而且具備相應的專業知識、眼界和視野,具有適應社會發展和創造價值的能力”。現今的統計學教育方式還不能很好適應大數據時代數據科學人才培養需要,必須進行必要及時的調整和變革。
對人才培養模式,大數據時代不僅要求培養具有數據處理和分析所需的基本素質與技能,更重視培養從海量數據中發現和挖掘價值信息、把握市場機遇、創造利潤的潛在能力。面對大數據時代的諸多挑戰,現代統計技術、數據挖掘方法、計算機信息技術、軟件工具和理念的日新月異,培養統計人才的教育模式也需要相應變化,統計學教育只有與時俱進,主動做出全面的調整和變革才能適應新時代知識進步和激烈人才市場競爭的需要,積極迎接大數據時代的挑戰。
大數據時代對統計學教師有更高的要求,統計學教師需要與時俱進,跟上時代步伐。隨著互聯網、物聯網、云計算等信息技術的發展,對數據的分析和處理的技術也隨之要求更高,統計學教師固有的知識體系已不能滿足培養現代統計人才的需要,必須進一步深化和更新原有的統計學理論知識,而且還需要學習掌握計算機技術、互聯網、數據庫和信息科學等有關知識和技術,同時還要熟悉處理非結構型和半結構型數據的知識和技能,以適應現代統計學教育對教師的知識結構和基本素質的要求。
大數據時代對統計專業的學生也提出了更高的要求,他們不僅需要掌握現代統計理論、統計方法和專業統計軟件,還要學會如何分析、處理來自互聯網或各種實際問題中的海量數據,如何利用統計軟件和互聯網技術進行數據操作,如何借助軟件技術和統計準則判斷數據質量,如何進行模型選擇和評價模型方法的有效性,如何準確清晰地呈現統計分析結果和結論,等等。
2014年11月,美國統計學會了統計學本科專業指導性教學綱要 [7],該教學綱要對統計學專業提出四個方面的要求:(1)具有扎實的數學和統計學基礎、強大的統計計算和編程能力,熟練使用統計軟件和數據庫;(2)分析來自現實問題的真實數據,真實數據是統計專業教育的重要組成部分;(3)掌握多樣化的統計模型方法;(4)具有通過語言、圖表和動畫等方式解釋數據分析結果的能力。美國是統計學教育和人才培養最先進的國家之一,該指導性教學綱要代表著美國統計學專業培養人才的基本要求和發展方向,對我國統計教育的改革具有重要的參考價值。以該指導性教學綱要為參考依據,對照我國目前的統計學本科專業教育,無論是在培養目標和課程設置方面,還是在教學內容和教學方法方面,都存在著亟待解決的挑戰性問題。
三、統計學教育的改革
大數據時代的統計學教育不僅是各種統計方法、數據挖掘方法和信息技術手段的延續或發展,更主要的是這些方法的集成應用和在實際數據分析中的真實體驗。過去,企業數據庫價格昂貴,在統計學教育的教學案例或實驗課教學中,很少采用真實和海量的數據庫資源,基本都是采用過時或虛擬的數據。今天,像百度大數據引擎這樣的數據庫的逐步對外開放,將有助于開展“線上大數據統計實驗”教學。為了適應大數據時代要求,有必要利用網絡資源以及各種數據處理軟件,搭建線上大數據分析實驗教學平臺,全面開展大數據統計實驗教學的改革。實際上,借助大數據分析平臺,本科階段的統計學教育就可以融人聯機分析和數據的可視化教學。其次,要時刻關注大數據分析理論的進展,及時將新理論新方法融入課堂教學內容。
需要指出的是,在大數據時代,經典統計理論和方法并沒有過時,但需要進行改進和進一步發展。這是因為,網上采集的巨型數據集往往存在大量的重復性和無價值數據信息,使得大數據價值密度降低。在對這些數據進行分析處理之前往往需要通過去噪、分層、截斷、聚類等方法的預處理,將其變成便于進行分析處理的小數據,繼而借助于經典統計方法進行分析和處理。因而在大數據時代仍然需要采用傳統統計學的小樣本理論和方法。所以,即便是在大數據時代,經典統計方法仍然是進行統計分析的基石,其核心地位不可動搖。所以,在大數據時代仍然要強化統計學的基本理論和方法,尤其是在長期發展和實踐應用中經過驗證的、成熟有效的經典和現代統計方法,在大數據時代仍然沒有過時,但需要結合大數據分析的需要對經典統計方法進行必要的發展和改進。
大數據科學需要統計學與數學、計算機等學科的結合。亞馬遜大數據科學家John Rauser 認為:“數據科學家是統計學家和計算機工程師的結合體”。為了滿足大數據時代的要求,統計學專業的課程設置需要進行必要的調整。應根據新時代人才培養的要求,增設與大數據前沿領域發展相關的課程,如計算機網絡和大數據相關的軟件應用,同時要加大實驗課和社會實踐課的比重,引導學生理解和掌握大數據概念、理論、技術和方法,培養其運用大數據的相關分析工具解決實際問題的能力。對于理論課程,除基本統計理論外,還應開設一些較為現代和深入的課程,如現代貝葉斯方法、神經網絡、數據挖掘、應用隨機過程論等。另外,還應開設與大數據分析相關的關聯規則、決策樹、機器學習、支持向量機等課程。
為了培養與時代適應的統計學人才,統計學專業教師應不斷更新自身的知識結構和價值觀念,改變認識數據、收集數據和分析數據的思維,主動學習和補充互聯網、現代數據分析技術、數據庫和數據挖掘技術,使自己的知識體系不斷更新和提升,跟上時展的步伐。
在大數據時代,要注意培養學生適應社會的能力。統計專業人才培養模式應以提高本專業學生數據分析方面的能力,開闊他們的視野,培養其適應社會的能力。應積極引導學生進入實訓場所動手操作和鍛煉,嘗試以企事業單位的財政、金融、保險、統計、咨詢和信息公司等部門為主構建專業性教育實踐基地。鼓勵學生到大數據相關的機構部門、產業園區和企業中去調查研究和實踐。此外,統計專業應積極同其他專業進行合作,聯合培養適應新時代要求的數據分析人才。鑒于大數據對數據分析人員在計算機技術、行業認知、業務知識、數據分析工具和方法的要求提高,統計學科應主動與計算機、經濟學、管理學等相關學科合作,培養學生的計算機能力、專業素質和業務修養。
“它山之石可以攻玉”,關于統計學專業的課程設置,可以參考和借鑒美國統計學會公布的統計學本科專業指導性教學綱要。根據該教學綱要,統計專業的課程設置應該涵蓋五個模塊[7]:(1)統計方法與統計理論。建立統計模型并對模型的輸出結果進行評價,熟悉統計推斷,能夠從數據分析中得出恰當的結論。(2)數據操作和統計計算。熟練使用一款專業統計軟件進行探索性數據分析,發現和清洗數據中的錯誤記錄,具有編程能力和算法思維,可以進行各種數據操作,還應掌握統計計算技術,能夠進行模擬研究。(3)數學基礎。熟練掌握微積分、線性代數、矩陣論、概率論和數理統計的基礎知識。(4)實踐訓練和表達能力。具有良好的表達和交流能力,善于通過圖示和動畫等聽眾易于理解的方式展示分析結論,并且具有團隊合作精神和項目領導能力。(5)特定領域的知識。掌握特定應用領域的知識,并用統計學特有的思維方法來分析和解決特定領域的實際問題。
大數據時代是以數據為中心的時代,統計學專業的教育改革必須適應這個時代的要求。統計數據分析中軟件應用能力至關重要。在眾多統計軟件中推薦使用R和SAS軟件,因為R是免費開源軟件,其統計建模、統計計算和可視化功能強大,更新迅速,是最新統計方法的主要平臺,非常有利于培養學生的編程能力和知識更新能力,而SAS軟件被很多公司用于數據管理和數據分析,在實際應用領域具有長期而深遠的影響,是數據分析不可或缺的專業統計軟件。當然,教學中也可以嘗試使用其他專業統計軟件,例如經濟統計專業學生也可使用SPSS軟件,但最好會使用SAS或R軟件。在加強軟件使用和編程能力的基礎上,應加強學生統計計算和統計模擬能力的培養。在大數據時代,強調統計計算的重要性是大勢所趨。統計模擬技術是伴隨著高速計算機和信息技術的快速發展而廣泛應用的現代技術,可用來解決傳統學科領域中無法解決的問題。例如,在計算技術飛速發展的今天,貝葉斯統計方法過去曾經面臨的計算瓶頸正在逐漸消失,基于馬爾科夫鏈蒙特卡洛(MCMC)技術的統計模擬方法在數據分析中的強大威力正在日益顯現[8]。
摘要:移動互聯網技術與信息技術的飛速發展加快了大數據時代的來臨,而大數據時代的來臨在給統計學帶來更多發展機遇的同時,也給統計學帶來了更多嚴峻的挑戰。為幫助統計學有效應對這些挑戰,本文對大數據時代給統計學帶來了的挑戰及大數據時代背景下統計學應采取的有效改革策略進行了詳細的探究。
關鍵詞:統計學;大數據時代;挑戰;改革
前言
在這個信息爆炸的二十一世紀,大數據幾乎無處不在,交通行業、圖書館、高校學生檔案管理、企業財務數據、地方文獻等等都是擁有龐大信息量的場所。大數據的產生與發展使得統計學挑戰與機遇并存,傳統統計學方法已不適用于大數據處理,難以滿足大數據處理需求,而大數據處理分析需要以統計學為基礎。所以對大數據時代下統計學所面臨的挑戰進行研究具有重要意義。
一、大數據時代給統計學帶來的挑戰
大數據時代給統計學所帶來的挑戰是多方面的,但集中表現在數據的生產、處理與應用方式上以及統計學教育方法、內容和人才培養上。在統計學中,數據的生產主要是通過相關統計部門,如社會保障機構等開展相應的統計工作來獲得統計數據,對于數據的預處理方式主要是數據清洗、數據矯正、數據填補等[1]。而在大數據時代中,對于數據的獲取則是借助先進儀器設備如傳感器、測量儀等來實現的,數據處理是通過各種軟件,編寫數據庫實現的。
二、基于大數據時代背景下統計學的改革策略
1.提高統計人員綜合素質
大數據時代背景下,統計學工作的開展與進行對統計人員素質提出了更高的要求,只有統計人員具備較高的道德素質、職業素質才能幫助統計學較好的應對大數據時代給統計學所帶來的各種挑戰[2]。從企事業單位和高職高校教育機構兩方面入手:企事業單位應定期開展崗位培訓工作與思想道德教育活動,增強統計人員專業技能,提高統計人員思想認識,鼓勵統計人員不斷學習新的統計知識理論,掌握新的統計方法,熟練新型統計工具的操作流程,在企業內部為統計人員工作營造良好統計氛圍,促進全體統計人員素質全面提升。對于高校等教育機構,應重視起對統計學專業學生素質的培養與提升,從學生入學開始,從大一開始,在統計學專業課教學過程中,為學生營造良好的課堂氛圍,加強教師對學生的引導與教育,通過對統計學專業課程的不斷學習與統計學專業理論知識的不斷掌握,加深學生對統計學的認識與理解,幫助學生充分意識到統計學是一門需要細心、耐心與專心,需要迎合時展,依據社會實際需求來進行學習的一門專業,從而讓學生形成自主意識,以主動方式來不斷提升自身素質[3]。
2.加強統計人員對新技術的掌握
大數據時代之下,新的數據處理技術、分析工具、處理設備不斷出現,這些新的數據處理技術與工具,對于統計學來說既是一種挑戰也是一種機遇,挑戰是因為統計人員對這些新的技術與工具還不夠了解,還沒有掌握這些新技術,機遇表現在這些新技術可以成為推動統計學適應大數據時展的有利支撐[4]。但前提是統計學人員對這些新技術有足夠的了解與掌握。所以,基于大數據時代背景下,統計學的改革還需要重視起對統計人員新技術的培訓工作,加強統計人員對新技術的學習與掌握。企業應積極引進新型數據處理技術與設備,并以專題講座、培訓、實訓等方式為統計人員提供學習的機會與平臺,通過他們對新數據處理技術的學習使統計學更好的服務于大數據時代。
3.加快統計學課程教學改革
高職高校等教育機構應與時俱進,跟隨大數據時展腳步加快統計學課程教學改革,摒棄傳統落后的教學理念、方式方法,完善統計學教學設備設施,改善統計學教學環境與教學條件,引進先進統計學教學方法,并在實際改革過程中將統計學教學內容和教學方法與大數據充分融合,使統計學教學內容與教學方法與大數據處理分析相協調、相適應[5]。統計學課程教學改革,包括課程改革與教學改革兩部分,只有從課程和教學兩方面來對統計學進行改革,才能真正提高統計學對大數據時代的適應性,才能使統計學更好的應對大數據時代帶來的各種挑戰,更好的把握大數據時代帶來的發展機遇。
對于統計學課程改革需要按照新課程標準要求,對課程教學模式、課程目標、課程結構安排,課程內容規劃等進行有效整改,進一步提高課程結構安排的合理性,課程目標的科學性與課程內容規劃的完整性,保證統計學課程重點突出。對于統計學教學改革,需要教師提高自身教學水平,轉變教學理念,采用新的教學方法,構建科學的教學模式,重視實踐實訓教學,提高學生實踐操作能力。
三、總結
綜上所述,大數據時代的來臨是時展的必然趨勢,統計學應客觀看待大數據時代給其所帶來的各種挑戰,并從統計學教育、企業統計人員等各方面來提高統計學對大數據時代的適應性,促進大數據與統計學相互協調發展,充分把握與利用大數據時代給統計學帶來的機遇,讓統計學成為推動大數據處理與分析的有力工具,大數據時代成為加快統計學教育改革的高效平臺。
[摘 要]由于科技進步,大型網絡電商不斷興起,博客、微博、微信等社交平臺逐漸建立,龐大的數據量隨之出現,大數據時代到來的信號已經發出。隨著大數據時代的來臨,統計學受到了重大的沖擊。因為傳統的統計學教育主要應用抽樣技術,即在總體中隨機抽取部分數據樣本進行處理、分析。然而,隨著大數據的興起,數據量不斷增多,數據的總體性不斷強化,對統計學人才的要求也越來越高。所以,在大數據時代下,統計學的發展受到了制約。但另一方面,大數據也給統計學的發展提供了一些機遇,促進統計學的改革創新。為了促進統計學的發展,培養出更多適應大數據時代的新型統計人才,本文對統計學在大數據時代面臨的機遇、挑戰和發展趨勢進行了系統的研究。
[關鍵詞]統計學;大數據;機遇;挑戰;發展趨勢
統計學是指通過應用數學以及其他學科的專業知識,來搜索、整理、分析、評估數據,從而達到推斷、預測所研究對象的未來發展情況的一門綜合性學科。隨著大數據時代的來臨,全球的數據量急速增長,這使在短期內完成收集、整理、分析數據的任務,變得十分困難,同時也影響到了統計學的正常教學。但是,大數據時代也為統計學提供了眾多的數據研究對象,為統計學的發展提供了一個良好的平臺。在這個平臺上,統計學遇到了許多機遇,比如:統計學科體系得到延伸。在大數據時代下,只要相關人員把握住這些機遇,順應大數據的脈絡走向,那么統計學的發展趨勢必將趨于良好。
1 統計學在大數據時代面臨的機遇
1.1 統計學應用范圍的增大
以往傳統的統計是根據所要研究的問題而去收集相關數據,再進行整理、分析、最后得出結論。這種統計,一方面,無法保證收集到的數據即是所需要的數據,也就是說數據的時效性得不到保證;另一方面,在大數據時代下,數據量巨大,欲收集到某一方面的代表性數據或者全部數據是十分困難的一件事,這就導致相關人員的工作量巨增,工作壓力增大。然而,在大數據時代下,統計學不僅僅根據問題研究數據,還根據數據挖掘其背后的信息。這一研究方向的轉變意味著大數據帶給統計學新的機遇。隨著社會的發展,許多新型產業應運而生,但是多數人不了解這些產業的運營情況以及促進這些產業發展的奧秘。在大數據背景下,通過分析、研究新型數據往往可以解開一個產業的“秘密”,或者是將數據涉及的信息全面地展現出來,從而促進相關產業的發展。因此,統計學應用范圍的增大對產業的發展具有重大意義。
1.2 統計效率的提高
傳統的統計在收集數據方面,常常會出現數據滯后、失效等情況,而在大數據時代下,數據量大,數據的更新速度快,因此,收集到的數據的質量得到了大幅度提升。不僅如此,在大數據時代下,數據及時性的特點,給數據收集提供了極大的便利,比如:相關人員可以定期進行數據收集,這樣不僅能減少工作量,還能確保數據的時效性和準確性。另外,在統計的過程中,數據多樣性的特點,給數據分析提供了極大的便利,比如:大數據可以被反復應用在不同方面的研究中。因為,數據的多樣性就決定了數據應用范圍的廣泛性,特別是在數據的統計方面。因此,統計數據時就不該將數據局限于一種用途,而應該深度挖掘數據的應用價值,將數據應用于各類相關的研究方面,從而達到降低相關人士的工作量、控制統計成本、提高統計效率的目的。
1.3 統計學科體系的延伸
在統計學中引入大數據,雖然會給統計學帶來一些挑戰,但是同時也會給統計學帶來機遇。現今,大數據逐漸進入統計學科,數據的龐大性使樣本統計中的樣本選取和標準確定受到了極大的影響。再加上,在大數據時代下,數據具備總體的特征,簡單的抽樣調查無法滿足新時代對統計的要求。因此,傳統統計中的樣本統計會朝著總體統計的方向發展,統計學科體系將會成為樣本統計與總體統計齊發展的體系,以此掩蓋樣本統計中的不足,保證統計的有效性。
2 統計學在大數據時代面臨的挑戰
2.1 樣本選取及其標準確定的難度增大
樣本統計是現今統計學中最重要的統計方法,統計學正是通過運用該方法對客觀事物的數據展開數量特點及數量間關系的研究。樣本的選取和其標準的確定,是考察樣本統計是否具備價值的重要依據。隨著大數據時代的來臨,樣本選取和其標準的確定,變得越來越困難。一方面,大數據意味著數據量不僅十分巨大,甚至大到超乎想象,而且數據還有分散性和多樣性的特點。這使在選取樣本的過程時,收集數據的難度系數將變高,標準將很難界定,工作量將加大;另一方面,在大數據背景下,人們面對海量數據,不會只想知道出現這些數據的原因,還會想了解這些數據代表的涵義。這不僅改變了傳統統計對數據的訴求,還迫使統計學進行改革、創新。另外,隨著眾多電商和社交網絡的興起,互聯網上的數據量不斷增多,其研究價值也越來越高。但是,網絡數據大都屬于非結構化數據,而統計學研究的是結構化數據。因此,在運用樣本選取方法的過程中,難免會錯失很多有價值的數據,使樣本選取不夠全面。總之,大數據時代給統計學帶來了挑戰。具體的挑戰體現在:能否將非結構化數據轉化為結構化數據和是否能找到準確分析非結構化數據的方法。
2.2 統計軟件及統計方法欠缺
統計軟件是基于計算機運算環境下,信息計算機技術迅速發展而研制出來的。它主要用于提升統計學的數據分析和處理的效率,提高一般性的統計實踐操作質量,并通過設置統計模型來簡化統計的復雜操作。在大數據時代,常見的統計軟件有Eviews、SPSS、SAS、Stata等,但是這些軟件要運用于大數據,在存儲、傳輸方面還有欠缺,它們還需要得到進一步的完善和升級。可是,完成升級、完善統計軟件的任務相對困難,并且無法與互聯網、電子商務等公司相提并論。另外,在大數據背景下,數據不僅具備海量化,多樣化的特點,而且其獲取途徑眾多,因此,分析、研究數據變得困難,再加上,我國的統計方法相對欠缺,所以,統計學在大數據時代下面臨著挑戰。
3 統計學在大數據時代下的發展趨勢
3.1 加大應用型統計教學力度
統計學和其他理論型學科不同,它是一門實用性極強的學科,無論是非統計學人士,還是統計人員,或多或少的都需要掌握統計學的應用方法和技巧。在大數據時代,數據具有多樣性、總體性、分散性及海量性等特點,因此,欲從數據背后得到精確結論,必須對所研究數據進行全面且精準的統計分析。另外,根據大數據的這些特點,不難看出,新時代對統計人才的要求越來越嚴,對統計學教育也更加重視,因此,在統計學教學過程中,加大應用型統計的教學力度必不可少。應用型統計是指輕理論、重實踐的統計教學。這種教學類型,在提高學生的實踐操作能力,幫助積累實踐經驗,掌握統計技巧方面,具有重大意義。教師加大應用型統計學的教學力度,主要從三方面入手。第一,加大數據收集的教學力度。收集數據是統計的基礎步驟,也是初步判斷統計結論是否有效的參考因素。就某種意義而言,只有加強對數據收集的教學力度,才能保證學生在大數據時代下,能收集到保質保量的數據。第二,加強數據整理的教學力度。由于,在大數據背景下,收集到的數據具有多樣化、海量化的特點,所以如何高效地整理這些數據成為一大難題。正因為如此,才在高校中呼吁教師加大對數據整理的教學力度。第三,加大數據透視的教學力度。數據的透視是指通過數據透視化技術,來使非結構化數據直觀化的一項教學內容。因為在大數據時代下,會出現許多非結構化數據,而傳統的統計方法只能統計結構化數據,所以,加強數據透視的教學力度,有助于提高統計的高效性,幫助培養統計人才。
3.2 提高大數據統計思維
無論是在傳統的統計學教育中,還是在大數據時代下,統計思維一直都是教師著重培養的一方面。良好的統計思維,不僅能提高學生收集、整理數據的能力,還是將理論有效地付諸實踐的重要保證。從另一角度看,如果統計人員不具備統計思維,那么在海量的大數據下,就無法準確分辨出所需的數據,也就無法高效地完成工作。傳統的統計思維包括平均思維、變異思維、普遍聯系思維、動態思維等,面對大數據時代下,數據的混雜性和總體性,提高統計思維還需注重培養學生的大數據統計思維。大數據思維不僅具備容錯性和復雜性,其還強調數據之間聯系和注重相關數據間的分析。
3.3 加強基礎性統計知識教學力度
現今,統計學教學現狀不容樂觀,學生在學習統計學時,普遍會出現基礎知識薄弱,畏難情緒較嚴重的現象。為了改善統計學教學現狀,緩解大數據時代下統計學的危機,教師應加大基礎性統計知識的教學力度,確保每位學生都能掌握良好的統計學知識,從而促進統計學的發展。由于統計學中的概念、公式較多,而且較抽象,學生不易理解,所以,教師要盡量做到深入淺出,保證學生準確掌握相關知識。但是,不是所有教學內容都可以做到深入淺出,所以,教師應重視基礎知識的教學。只有在學生對統計學的基礎概念、公式、原理等都充分了解的情況下,才能為后續的學習打下堅實的基礎,才能提高后續教學的效率。大數據時代的到來,促使統計學進行改革。在改革后,統計學的教學要求更嚴,教學內容更深,所以,不具備良好的統計學基礎是無法完成學業的,更無法促進統計學的發展,培養出新型統計學人才。
3.4 重視復合型人才培養
統計學不僅能為數學、物理等學科提供數據分析方法,還在生活、經濟等領域具備重大意義。以前,數據簡單化,來源較單一,所以對統計人才的要求并不高。然而,隨著大數據時代的來臨,統計人才不再是單純具備良好統計知識的人,而是復合型人才。在大數據時代下,許多數據比較混亂、龐雜,只有具備良好的編程技能、統計能力的人,才能將其收集、整理為有價值的數據。在大數據時代下,行業間競爭十分激烈,數據的統計工作也變得十分艱辛,只有具備大數據專業知識,超強的數據分析、處理能力的人,才能在這個時代具備強大的競爭力。在大數據時代,統計不是單純的加減運算,只有具備統計思維、數據甄別能力、計算機專業技術的復合人才,才能高效地進行統計工作。因此,在大數據背景下,培養復合型人才十分必要。
4 結 語
統計學作為教育階段最重要的學科之一,不僅能促進物理、數學等學科的發展,在推動政府的情報決策、工商業的發展方面也具有重大意義。地方政府在進行市場經濟的宏觀調控、指導、規劃等方面離不開統計,也只有對數據開展精細的分析、統計工作,才能得到更具說服力、更具價值的結論,實踐于生活中才更有利。而且,在人口普查、環境評估等方面也會經常運用到統計學。由此可見,統計學十分重要。雖然,我國的統計學教學現狀不容樂觀,在大數據背景下,統計學還面臨眾多挑戰,但是,相關人員更應看見其中的機遇,把握好時機,共同努力,攜手推進統計學的發展。
【摘要】隨著信息技術的不斷發展,大數據的時代已然來臨,大數據對人們的生活生產都產生了巨大的影響。大數據給統計學的發展也帶來了許多挑戰與機遇,基于大數據背景下的統計學在當前不斷地發展。本文對大數據和統計學的概念進行了分析,對大數據時代下的統計學進行了詳細的介紹,并提出了一些大數據時代下的統計學的未來的展望。
【關鍵詞】大數據統計學應用
大數據,主要是指龐大的數據資訊,由于其數據之龐大,人們不能利用當下主流的軟件在一定時間內對其進行提取、分析從而幫助決策者決策的資訊;統計學,主要是對數據進行分析、整理,再以較為直觀的方式呈現出數據的特征,以供人們、參考、決策。隨著信息技術的不斷發展,當今時代已是大數據的時代,大數據在全世界范圍內都得到了不同程度的發展,傳統統計學由于自身具有的單調性,被人們將其與大數據緊密結合,并且在各個領域中加以利用。大數據時代下的統計學應用已經成為了一種發展的潮流。社會在不斷發展著,信息也在不斷地進步,許多人都開始注意到數據的重要性。就目前的情況而言,實用的數據很多,我們可以對其進行利用,從而提高生產力的發展水平,并且解決一些民生方面的問題。因此大數據時代的統計學應用十分重要。
1統計學與大數據的簡單概述
1.1統計學概述及其性質
統計學是一門主要對數據進行收集并通過直觀的方式將其表現出來的一門科學。在傳統的統計學中有兩種主要的統計方法,即推斷統計和描述統計法。在推斷統計中,主要是通過對已知樣本進行推斷,推斷出總體參數,將推斷出的數據用概率的方式表示出來。描述統計則是對所收集的數據進行處理,將其結果用統計圖等圖表形式直觀地表現出來。
統計學有包含如下幾個基本性質:
統計學的主要目的是對數據進行研究。統計學所研究的數據并不是抽象的,而是客觀真實存在的數據。這些數據有大有小,可以是微觀的粒子,也可是廣闊無垠的宇宙;甚至可以追溯至遠古時期的人類發展以及未來的發展。
統計學的主要研究方法是歸納與推斷。統計學主要通過對樣本數據進行延伸,將其上升至整體,從而得出一般結論。也就是我們所說的通過現象對其本質進行研究。這個方法主要是有小到大,由個體到整體。
統計學的研究結論往往是不確定的。在統計學中對數據的提取主要是通過抽樣進行的,抽樣數據并不是整體數據,它只能代表整體數據的一部分。因此,不可避免的,統計學研究結論會帶有不確定性,這也是傳統統計學中不可避免的缺點。
統計學最重要的特點是其聯系范圍的廣闊性。在大部分學科中,以及人們的生產生活中,脫離不了數據,而數據必須要通過統計才能發揮其作用,因此,統計學與各個學科聯系緊密,也與人們生產生活息息相關。
1.2大數據的產生與發展
當今時代是互聯網高速發展的時代,也屬于信息發展的時代。由于信息量的龐大,不可避免地會出現各種各樣的數據。大數據就是信息高速發展的產物,它包括了各種各樣數據的交匯,它不是傳統意義上單一的數據。我們可以將大數據看成是各種數據的集合,通過對各類數據進行整合、交叉運用,在云計算基礎上對數據進行處理和運用,并且形成一種可供我們利用的智力資源和強大的知識服務能力。
大數據雖然數據量大,但是價值密度低,數據類型多且復雜,但是處理的速度快,這也是大數據的四大特點。從中我們不難看出大數據十分注重對海量數據的處理,在預測方面具有十分的優勢。與目前擁有的其他技術相比,大數據所具有的“速度”“廉價”“優化”這三個方面所綜合起來的成本是最低的。在我們的生產生活中,大數據給我們提供的可量化維度是以前所不具有的,它對我們的生活生產帶來了許多方便,在新發明和新服務方面起到了不可替代的作用。
大數據不僅給我們帶來了機遇也帶來了挑戰。大數據的數據量之龐大,有更多的數據需要我們分析,傳統的抽樣方法已不再適用。在大數據面前,對數據精度的要求有所減少,進而更加注重對整體信息的獲取;我們也由之前注重事務之間的因果關系轉而注重事務之間的相互聯系,從中獲取對我們更具價值的信息。
目前,在我國許多企業中對大數據利用的能力還不足,產生了效率低、成本高、耗能高等問題。如何對大數據進行利用并推動企業發展是我們當下所面臨的問題,在大數據背景下,對海量數據進行高效合理的利用對未來大數據的發展十分重要。
1.3大數據的研究動向與信息問題
1.3.1大數據的研究動向
當前,國外一些機構對大數據環境下的發展提出了一些極具挑戰性的問題。比如如何對高度分布的數據資源進行處理,對數據來源的追蹤,對樣本的核實等等。他們在大數據的處理方法上進行了改進,開發了一系列的算法。在我國,也十分重視對大數據的研究。對大數據的研究還專門召開了會議進行討論,國家設立了專項的研究計劃,設立了專項的研究基金。而大數據最終的服務對象是廣大的企業,因此,在企業方面也開展了合作計劃。大數據的研究并不能只依靠單一的統計學,其他學科也應該重視大數據對自身學科發展的影響。在計算機領域,相關的計算機人才除了掌握扎實計算機技能,也應該對大數據有所掌握。計算機與統計學關系緊密,因此,計算機領域在大數據與統計學中也扮演了重要的角色。
1.3.2大數據的信息問題
當今時代是數據信息的時代,大數據所包含的數據量十分龐大,人們需要對這些數據研究就必須將這些數據相互融合起來。將數據融合就需要清楚數據的來源以及如何對這些數據進行獲取的。在獲取數據的過程中,數據的來源復雜并且數量龐大,不可避免地就會出現一些問題。比如原始數據遭到破壞,因為大數據主要注重對數據整體的獲取,因此,在某些數據上出現問題在所難免,甚至所取得的數據不是原始數據,而是經過分析推斷后的預測數據。因此,我們要引起足夠的重視,重視數據的獲取,避免取得一些遭到破壞的數據。
另一方面,在大數據的獲取過程中也很容易造成數據的缺失。而數據缺失的最直接的結果就是影響數據的分析。有些不同領域的研究卻需要相同的數據,這就造成了數據的重疊,比如經濟和保險,兩者分屬于不同的領域,但是在具體的研究過程中某些數據的利用是相同的。在我們對數據進行分析時,要特別注意兩個方面的數據。一方面是觀察得到的數據,另一方面是實驗得到的數據。這兩個數據所包含的具體信息是不同的,但是卻仍然會使得一些人對數據產生錯誤的認知。這是因為數據本身是具有特定的范圍的,我們對數據進行收集的同時,實際上也就確定了這一屬性,所以當我們需要一些超出這個范圍的含義就需要我們對這些數據進行推斷。
2大數據時代的統計學的具體應用
2.1大數據時代的統計學在企業中的應用
在企業的生產、經濟活動中,統計學都占據著十分重要的地位。企業通過對統計方法的利用,建立了風險監測體系。但是單純運用傳統的統計方法是遠遠不夠的,企業往往會將大數據與統計學相互結合,從而對公司進行實時的監管。在企業的生產活動中,涉及了許多方面的數據,包括各個月份、各個季度的總體收入,各個具體項的收入情況,整體支出情況、具體項的支出情況等等,這就包含了十分龐大的數據量。因此,在企業中往往利用大數據對整體的數據進行把握,在根據統計方法進行分析、總結,以此對企業進行實時的監管,并建立了相對完整的風險監測體系。
2.2大數據時代的統計學在農業中的應用
農業的生產與我們息息相關,我們可以以水稻為例,對其進行具體的分析。影響水稻產量的原因有許多,氣候、土壤、環境、營養等都是影響水稻產量的重要因素。但是由于技術的發展,水稻在全國范圍內十分廣闊地種植,利用傳統的統計學方法勢必不能對影響水稻產量的因素進行很好的分析。但是將統計學與大數據相結合,卻能夠對影響其產量的原因進行很好的把握。當前,由于科學技術的發展,我們可以對水稻的種植環境進行各個方面的監測,比如土壤、水分、養料等,從而得到一系列的數據,這些數據數量龐大并且數據種類繁多,傳統的抽樣方法不能夠對其進行整體的把握,只有對整體數據進行分析,將其原因進行統計才能真正得出影響水稻產量的因素。這是大數據時代的統計學在農業方面的典型應用,通過對整體數據的把握,并對其進行統計分析,從而得出我們想要的結果。
2.3大數據時代的統計學在其他學科方面的應用
大數據給人們的生產生活都帶來了影響,各行各業的勞動者也紛紛通過對數據的利用來帶動行業的發展,通過對數據的利用達到解決問題的目的。隨著科技的發展,我們在出行之前會習慣性地對交通、天氣等狀況進行查詢。事實上,我們所利用的這些軟件都與大數據和統計學息息相關。交通狀況主要是對該路況進行實時的監測,比如人流量、車流量等,通過對這些數據的實時監測,再將其進行統計分析,得到具體的交通狀況,并且以直觀的圖表方式呈現給我們。還有我們都十分熟悉的翻譯軟件,我們日常的學習中,會使用到一些翻譯軟件,實際上這些翻譯軟件也和大數據、統計學息息相關。在這些軟件當中,儲存了十分龐大的詞匯量,當我們使用翻譯功能是,會統計出最常用的句子,并且按檢索次數呈現出來。這些都是大數據下背景下的統計學的應用,這些應用都給我們的生活帶來了便利。
3統計學在大數據時代下的機遇與挑戰
3.1統計學與大數據的聯系十分緊密
統計學主要是對數據進行研究,通過對數據的研究分析進而得出結論。在統計學中,研究的數據范疇十分廣,包括定量數據、定性數據、截面數據、實驗數據等等,都是統計學所要研究的數據對象。而大數據就是各種數據的集合,它包含了各式各樣的數據類型,簡單的、復雜的。統計學與大數據都主要是圍繞數據進行展開的,這是統計學與大數據之間的一種內在聯系。因此,我們可以將統計學與大數據相結合,改變傳統統計學中對數據抽樣研究的方法,轉變成對整體的數據進行研究,從而得出更能為我們所利用的研究結果。
3.2大數據使傳統統計學得到改進和補充
傳統的統計學中,在對數據量大的數據處理中存在著明顯的不足,其數據處理過程中,往往存在滯后性和低頻性等問題。我們以經濟學里的消費物價指數,也就是CPI為例。我們所得到的CPI報表中,往往在時間上存在著一定的滯后性,本月的CPI數據只能在下個月才能得到相關的數據報表。由于時間上存在著滯后性,許多政策的制定都會受到影響,不能根據情況及時的做出調整。而大數據就隨時提供當前階段的“價格指數”,對市場進行實時的監測,它的時間頻率甚至甚至可以小到以天為單位,提供每天的價格指數。借助大數據,可以對市場價格進行實時的監測,我們可以對市場價格作出合理的調節,從而減少出現通貨膨脹和通貨緊縮的情況發生。我們可以利用大數據對信息全面掌控和對總體覆蓋的優勢,對數據進行全面地分析,從而補充傳統統計學中的不足。
3.3統計學思想在大數據時代中的轉變
在當前的統計學中,由于整體數據量龐大,我們往往會通過樣本對整體進行分析。在這一過程中,往往十分重視樣本數據的精確程度,傳統統計學重視樣本的數據的精確程度。而大數據往往相反,大數據呈現的是一個整體,由于整體數據十分龐大,對于其數據的精確程度勢必不能很好的把握,因此,大數據重視整體數據的情況,對于其樣本精確程度并沒有做很高的要求。在大數據中,我們的立足點是整體數據而不拘泥于某個樣本,看中的也是整體數據所呈現出來的價值,大數據中“樣本即是整體”的概念與傳統統計學重視樣本的概念不同,大數據的這一整體概念對統計學的思想有著十分重要的影響。
3.4統計學與大數據互相促進,共同發展
當前所處的時代是大數據發展的時代,大數據的發展十分迅猛,這給統計學的發展帶來重大的影響,使統計學的發展具有劃時代的意義。傳統的統計學通過樣本對整體進行把握,大數據對其進行突破,通過對整體數據的把握,得出一系列更具效益的結論。而在統計學中,其對數據的細致分析,準確推斷,對統計理論的應用和掌握也十分值得借鑒。只有將二者進行結合,才能發揮更大的作用。我們應該充分利用大數據所帶來的巨大信息量,運用統計的方法對其進行整體感知,在大數據時代的發展中,迎接它所帶來的機遇和挑戰。只有將大數據和統計學進行有效的結合,才能給我們的生活生產的發展做出貢獻。
4結語
一個新事物的到來,必然會對傳統的事物產生影響。大數據時代的到來也對統計學產生了深刻的影響,大數據給統計學帶來了新的生命力。目前很多學科的發展都融入了大數據的潮流之中,作為與大數據聯系緊密的統計學如果不進行改革創新,那么終將會被邊緣化,阻礙自身的發展。大數據給統計學帶來了挑戰,但是不可否認的是大數據也給統計學的發展帶來了機遇,我們在抓住機遇的同時還應該意識到傳統的統計學中,一些方法已經不能滿足當今數據的分析。基于這一現狀,統計學家不能盲目將傳統的數據環境當成研究的目的,而是應該積極融入到新事物當中,迎接挑戰,使大數據時代下的統計學能夠得到更好的應用和發展。
摘要:大數據給應用統計學專業帶來機遇與挑戰。本文針對應用統計學專業的自身特點和大數據下的新特點,剖析了現有教學體系中存在的問題,探討和改革了應用統計學專業人才培養目標定位、課程調整與設置、教學內容、教學手段等。
關鍵詞:大數據;應用統計學;教學改革
一、研究背景
自2002年桂林理工大學在廣西開辦了第一個統計學本科專業以來,針對當時理學學位的統計學專業培養的學生雖然數理基礎相對扎實,但普遍統計思想不夠,實際應用能力較弱的現狀和特點,對統計學專業進行了全方位的改革研究,確立了"數學與統計學相融,從培養學生扎實的數理基礎和極強的統計分析應用能力有機相結合的理念出發,構建了新的課程體系和教學內容,取得了系列研究成果。2009年研究成果開創“應用性、實驗性、案例性”一體化的統計學專業課程體系和教學模式,獲得廣西高等教育自治區級教學成果二等獎[1],并在其后分別把統計學學科建成廣西重點學科和廣西高等學校優勢特色專業,以及把應用統計實驗室建成廣西高等學校重點實驗室。
雖然我校統計學專業的教學改革和建設取得了許多成果,但近幾年,我們也逐漸感覺到在大數據新形勢下,我校應用統計學專業的教學體系還有一些不適應的地方,且某些問題還有日益凸顯的趨勢,我們原來的某些研究成果已不再適應新時代的要求,這就迫使我們繼續進行改革研究,探討在大數據背景的新形勢下,如何培養統計學專業復合型和應用型人才,如何準確把握統計學的發展方向與發展形勢,如何調整人才培養模式,如何調整相關課程和課程內容,以培養適應大數據背景下社會經濟發展需要的統計學專業人才。
許多國家越來越重視數據在大數據時代重要作用,我國也不例外,2012年9月,國家統計局第7次局務會提出,盡快開展在政府統計中應用大數據的研究。2013年可以看作是我國政府統計之大數據元年。2015年9月《國務院關于印發促進大數據發展行動綱要的通知》(國發〔2015〕50號)[2]頒布,標志著我國正逐步進入大數據建設的新時代,為此,國家統計局積極推動大數據在各方面的應用與實踐。而大數據的核心是數據,應用統計學學科是與數據分析處理聯系最為緊密的應用性學科,因此,應用統計學專業的教學體系應順應大數據發展的趨勢。在大數據背景下,應用統計學專業在繼承傳統數據分析技術的基礎上,對所需的數據處理技能提出的需求更高了。這就是說,大數據對應用統計學的培養目標,以及教學內容等的沖擊無疑是最大且不可避免的,這給應用統計學專業帶來了巨大的挑戰,同時也為應用統計學學科的發展帶來了前所未有的機遇。
大數據逼迫人們改變分析、處理數據的手段、思維和理念,這就逼迫應用統計學專業改革必須引入新手段、新思維和新理念。培養應用統計學人才必須與時俱進,才能不斷適應大數據新時代的要求,這關系到應用統計學專業培養的人才能否適應和滿足社會的需求,因此,這一研究是十分必要、十分迫切且有著重要的理論和實際應用意義。
二、大數據背景下應用統計學專業的改革探討
1.培養目標的轉變。大數據時代給應用統計學帶來機遇與挑戰,同時引發了對應用統計學培養目標的新思考。目前應用統計學專業教學體系的培養目標是,培養學生收集、整理和分析數據的能力的“應用型”專業人才。然而,在大數據背景下,除了要求學生具備數據收集、處理和分析的能力外,還要對其應用領域的背景知識有所了解,這就要求應用統計學培養“復合型”專業人才。因此,如何從培養“應用型”向“復合型”人才進行轉變,是在大數據背景下應用統計學專業培養目標必須解決的首要問題。在定位應用統計學專業的人才培養目標是培養“復合型”專業人才后,就得重新探索教學體系的調整和設計。傳統的應用統計學專業教學體系專業的主干課程有數理統計、抽樣技術與方法、回歸分析、計量經濟學、多元統計分析、統計軟件等。而在大數據下,強調對全數據開展分析,不需進行隨機抽樣,即不是在給定的精確下,利用樣本推斷和分析總體;同時,大數據注重數據之間的相關關系,而不是像傳統統計那樣強調數據之間的因果關系。現有的教學體系沒有涉及這些內容,與大數據時代的要求有些不相適應。因此,我們必須創新傳統的應用統計學專業教學體系,重視大數據的不同的分析方法、分析技術,在課程設置、教學內容等都要圍繞著數據的分析方法和技術展開。
2.教學內容改革探討。雖然在大數據時代下,必然要對數據收集、分析方法等進行改革和創新,但與此同時我們也清楚地意識到,對大數據的搜集、分類、分析等都仍需要依賴傳統的統計學方法,因此,大數據分析離不開傳統統計學,大數據分析是對傳統統計學的補充而不是替代,建立在樣本統計和預測分析之上的傳統統計學仍發揮著主導作用。所以,在應用統計學專業的改革中,我們強調深化基礎,培養擁有厚基礎、寬口徑的學生。加深應用統計學基礎理論知識學習,夯實數學基礎知識,讓學生學好數學分析、高等代數、概率論、數理統計等基礎課程,打好理論基礎,通過這些課程的學習不但打好學生的數理基礎知識,培養他們的抽象思維能力和邏輯推理能力,因為只有理論基礎打牢了,才有后勁,才能更好地學習新知識,適應新形勢下的要求。同時,在大數據背景下,應用統計學專業課程教學要培養寬口徑的統計學復合型人才,由于一些大數據充滿了各種隨機的、非隨機的誤差和偏倚,不滿足傳統的統計方法和理論對數據的苛刻要求,不能用傳統的統計方法進行分析。因此,必須對現有的應用統計學專業的課程體系、教學內容等作出相應的調整和改革。這就需要對應用統計學專業課程內容進行協調和整合,在精選知識、內容銜接與交叉融合上狠下工夫。探索在一些課程中,增加介紹一些大數據方面的概念和應用,例如在時間序列分析、多元統計分析、統計預測與決策分析等課程內容中引入大數據分析的理論和實踐案例。大數據對統計學專業人才提出了更高的要求,除了應具備數據收集、處理和分析的能力以外,還應具備很強的自我學習、自我提高的能力,以適應大數據時代數據量大、總類繁多、時效性高等發展特點。這就要求學生自主學習、閱讀大數據等相關資料,掌握國內外最新動態和進展,這可通過布置課外作業、課外讀書報告和課外論文檢查學生自主閱讀學習的效果。同時,特別要注重課程的開放性教學和研究,以適應大數據時代的要求。(1)樣本概念的深化。全樣本(總體)研究是大數據方法的重要特點。過去,由于缺少收集和分析數據的各種工具,數據收集、處理能力受到限制,因此,產生了隨機抽樣的理論方法,從而達到用較少的樣本推斷、預測總體的目的。然而,大數據時代數據收集、處理的方式和技術都發生了翻天覆地的改變,現在我們可以通過數據庫、互聯網、各種通訊工具等獲得各種各樣的海量數據。這時,隨機抽樣在某些情況下就失去了它原有的意義、地位和作用。方便、廉價的數據收集,數據處理、存儲能力的提高,使得全數據分析模式成為可能。因此,大數據背景下不需隨機抽取,可用總體進行分析,也可用與分析目的相關的數據進行分析。所以,在大數據時代,傳統應用統計學面臨著新的任務和挑戰,首先要改變對樣本、對不確定性等的重新認識,轉變抽樣調查的功能和地位,建立新的收集、梳理、分類數據的方法。大數據的分析和處理與傳統樣本數據的分析和處理的方法有許多不同,傳統的統計學的理論和方法是以隨機樣本來推斷總體,即它的理論和方法幾乎都是建立在樣本的基礎上的,是建立在隨機抽樣基礎之上的統計推斷,其理論基于"樣本數據-分布理論-概率保證-總體推斷",這種用樣本推斷總體的理論和方法,不可避免的會出現誤差。而大數據時代的特點是信息處理迅速、獲得途徑廣泛、價值密度低,這樣在處理數據時就不需要進行隨機抽樣,可以全體數據作為樣本,而即大數據關注的不是隨機樣本,而是總體,這不同于傳統的統計推斷分析,大數據時代可以收集全數據進行分析,這一特點剛好能彌補樣本統計必然會帶來誤差的劣勢。因此,應用統計學應該補充、適應大數據時代的全數據分析模式,將大數據總體統計的思想、思維和方法納入到教學體系和教學內容,從傳統的樣本統計轉向樣本統計和總體統計相結合,這是應用統計學發展的必然趨勢。探討在什么課程、如何引入全樣本統計尤其重要。我們研究實踐了在抽樣技術與應用等課程教學中,新增大數據背景下的全樣本理念,闡明樣本統計和總體統計的差別、如何搜集大數據,以及大數據樣本常存在缺乏代表性、信息冗余、存在噪聲、呈現重尾分布、長相依和不平穩性時如何選用合適的統計分析方法,以盡量避免分析結果的系統偏差等。(2)相關分析與因果分析并重。在傳統統計分析中,因果關系占據重要的地位。我們可以根據概率P值進行因果關系檢驗,從而確定兩個變量之間是否存在著顯著的因果關系。即傳統統計分析是建立在假設的基礎上揭示數據相互之間是否存在因果關系,因此,傳統統計分析比較注重因果分析。但大數據時代由于數據海量、結構復雜、要求數據處理速度快等特點,造成因果分析往往不可行。而相關關系分析不需要建立在假設的基礎之上往往可行,且相關關系分析不易受偏見的影響而發生錯誤。因此,大數據改變了傳統統計注重因果關系檢驗的思維,注重相關關系分析,而不是因果關系分析,大數據時代的重要特點是注重相關分析,以及建立在相關分析基礎上的預測分析。側重相關性研究的思想是大數據方法的重要特點,大數據時代相關分析方法的重要性日益凸顯。大數據時代,相關分析的運用范圍之廣、重要性之大引起了我們的重視和研究,我們在教學中從傳統的注重因果分析向相關分析與因果分析并重轉變。傳統的相關分析基本上是線性相關分析,大數據研究的相關分析不僅是線性相關,更多的是非線性相關關系。傳統的統計研究方法,如建立各種回歸方程、估計模型參數、假設檢驗等因為大數據的特點而無法實施。針對大數據的相關關系分析不同于傳統的相關關系的分析,我們在教學中重點不是做傳統的邏輯推演,而是重點闡明如何搜索、分類、歸納、分析大數據,以及如何找出數據之間的相關性并據此進行預測。闡明大數據時代相關分析思維的重要性,以及相關分析在特征選擇、變量依賴關系識別中的實用性。
摘 要:隨著科學技術的迅速發展,大數據時代來臨,從科學角度看,大數據通過對信息的整合分析處理,形成快捷全新的數據分析方法,這為大數據與統計學架起互通的橋梁。大數據時代的變革為統計學發展起到了重要的推動作用,未來挑戰與機遇同在。文章首先對大數據時代下的統計學做出概述,接著陳述統計學在大數據時代影響下的變革,再次分析大數據時代下統計學面臨的挑戰,最后解讀大數據時代下統計學的發展與機遇,以期為相關領域的研究提供有價值的參考。
關鍵詞:大數據時代;統計學;發展
一、大數據時代下統計學概念概述
教科書上對統計學給出了這樣的定義“有效搜集整理分析隨機性數據,對考察問題給出推斷與預測,最終為行動提供數據支持”,這就是統計學。從根本上看,統計學是一門與數據有關的學科。眾所周知,美國總統奧巴馬通過數據團隊的幫助得到連任的機會,阿里巴巴的馬云很早就把大數據作為企業發展戰略。隨著我們走進大數據時代,網絡科技給搜集數據帶來方便,傳統的設備已經無法容納大量的數據,我們對其進行更新,通過對大數據的分析,我們為社會傳遞出有效的、有價值的信息,這一切為社會的發展起到了不可替代的推動作用。
統計是社會各界乃至各環節不可或缺的因素,在商品交換過程中,統計有先導作用,市場經濟信息也需要統計學的幫助,大數據時代,我們的統計數據不再局限于隨機抽樣調查,電話調查等高成本的搜集方式,通過互聯網及移動終端,我們可以獲得更多數據樣本,可以說我們的社會進入高速發展的時期,大數據時代下的統計學也進入全新的發展階段。
二、統計學在大數據時代影響下的變革
1.從樣本的角度看,樣本概念得到深化
我們知道統計學離不開樣本,有效的樣本能夠正確反映情況,大數據時代樣本概念與傳統不再相同,通常我們得到諸多網絡數據,一種為靜態,即直接在客戶端創建的數據,無需提取即可使用,成本低,另一種為動態數據,即數據隨著時間的推移而變化,最終表現為所有數據的總和,可見此時的樣本不局限于隨機抽樣,直接可以做選定分析。
2.從類型方面看,呈擴大之勢
在過去數據通常指結構化數據,有固定的標準,大數據時代數據不僅局限于固定的結構,還有異構數據,再有存儲方式也發生了改變,大數據可以直接將探測的信號容納進去,由網絡系統作為工具,可以識別各類結構或非結構的數據并進行快速存儲。
3.收集概念得到擴展
傳統的統計過程中,我們有目的的進行數據收集,效率低,成本高,隨著大數據時代來臨,我們將收集步驟化,第一預先處理好數據的識別與處理,第二做好分析,提煉出所需要的信息,最后做好存儲,就這么簡單。面對大量的數據,我們的分析、識別等都需要注意,大數據不代表萬能,我們還是要注意數據的安全性,盡量控制收集成本。
4.數據來源較傳統不同
曾經我們根據研究目的去做統計收集數據,這些數據源都是已知的,在核對方面相對容易。大數據時代,我們得到數據變得容易,但通過互聯網收集數據后,目的性變弱,大多數記錄沒有源頭,很難識別記錄身份,可見,大數據時代做好數據來源登記開始變得重要。
5.量化方式也發生變化
對于傳統的結構化數據,量化方式是成熟的,可以將收集到數據直接分析得出結果,大數據時代,很多異化結構數據幾乎無法做直接分析取得結論,當下,很多結算及專家在研究處理非機構化數據,力爭將大數據時代統計推向新的高端。
6.分析思維發生改變
從分析過程看,傳統分析需要進行三步走,即定性、定量,最終定性。大數據時代,統計分析過程僅需要兩步即定量、定性;從證實分析方面看,傳統思路為假設、驗證,事實證明傳統證實分析有很大誤差,而大數據時代,我們的思維為發現,總結,這是整合,發現最終定論的過程,在此過程中會有很多發現。
7.統計軟件變得越來越多
傳統統計學中,我們比較熟悉的軟件有SPSS、SAS、STATA等,大數據時代,我們分析技術為非關系型,主要以數據中心為基礎,將軟件與大數據結合,分析過程得到很大簡化。綜上,大數據時代給了我們更多的主動權,這些更促使我們推動大數據時代統計的發展進步。
三、大數據時代下統計學面臨的挑戰
大數據時代給我們帶來了更多的好處,統計學的大數據化是大勢所趨,但傳統與更新的交錯間還有一些不相容的方面,對于革新我們還是要從各個方面做謹慎考慮與慎重調整。
首先從樣本標準的角度看,大數據時代我們可以輕松得到很多樣本,此量大到可以視為總體,隨著互聯網科技的不斷發展,大樣本標準也應隨著發展,傳統統計學將界限定在30,大于30為大樣本,小于30為小樣本,大數據時代這個界限略顯低,沒辦法清除干凈干擾信息,這會影響分析結果,因此,加強數據來源的同時還要更新大樣本標準,將更大規模的樣本數量代替舊有的數量,以適應大數據時代的要求。
其次從樣本選取與形式的角度看,傳統統計學固定結構化數據內藏著一定的統計規律,盡管我們能夠發現研究對象的數量關系,但并不是所有的事物都有量化指標,一些被量化的指標也不一定能夠清楚的解讀研究對象,目前大數據采集數據超過80%為有結構數據,傳統的統計數據庫沒有辦法對這些數據做很好的處理,而大數據通過建立非結構數據庫,對數據做有效轉化,發揮多元化分析作用,無形中降低了樣本的選取標準,將統計范圍擴大化。
最后統計軟件的開發是一項挑戰。我們常用的統計軟件主要以構建模型之間的變量與數量關系的方式分析研究對象,如我們熟悉的SPSS等。大數據時代,我們很多以數據為基礎做非關系分析技術,谷歌利用MAPREDUCE實現了月處理400PB數據的工作量,雅虎也利用云計算平臺實現了100PB的存儲工作,未來大量的數據處理需要更快捷更科學的軟件,對于軟件的研發與升級將是一種挑戰。
四、大數據時代下統計學的發展與機遇
1.大數據時代下統計質量更高
從國際數據標準SDDS中得到的統計質量標準可以看到,適用、準確、時效、平衡是統計質量的內涵。其中適用是指統計信息符合要求,統計信息最大化的滿足客戶的用途,大數據的覆蓋很大程度上促進適用功能的提升;傳統角度我們說時效性主要指統計的時間更短,讓客戶及時了解統計信息,大數據時代網絡化完全滿足時效性各類要求;準確是指估值與真值之間的差別,數據中存在誤差在一定范圍內屬于正常,大數據時代我們的全面性最大程度包容了誤差,也縮小的了誤差,統計更加真實可信;平衡性也被稱之為協調性,大數據時代,數據結果的核對與檢驗都經得起客戶的不斷核查,可以使數據的平衡性得到很大提升。
2.大數據時代統計成本降低
首先,從數據收集角度看,大數據時代可以不再依靠人力做電話調查或問卷調查,甚至有些普查動用全國力量,耗費大量人力財力,通過互聯網、移動通信等,我們大大降低人力成本,數據收集快,成本低,準確性也高;其次從數據利用角度看,傳統統計過程中,一旦資料過期就需要再起啟動抽樣分析過程,對外公布手段也有局限性,大數據時代,我們收集數據更輕松,且數據可多次被利用,綜合比算,數據的成本大大降低。
3.大數據時代統計學作用范圍擴大
傳統統計學有各種局限性,比如受成本、觀念等影響,統計學主要用于行業與部分統計,隨著大數據時代的來臨,統計學被應用到各行各業,比如、金融、醫學、計算機行業等,從這個角度看,社會的新計劃讓信息傳遞發生質變,統計學作用價值得到認可并服務擴大,這樣推動自身發展的同時更服務社會服務人民,為整個國家發展進步起到不可估量的作用。
摘 要:隨著社會經濟的迅速發展,科技信息技術的進步,大數據走入了我們的日常生活,大數據的統計與分析影響著各行各業的發展。因此,對大數據的統計顯得格外重要,在大數據時代研究統計學的發展也顯得尤為重要。
關鍵詞:大數據;統計學;發展
由于科學技術的不斷發展,大數據席卷了全球,各行各業在經營管理中都離不開大數據的統計與分析,對于政府單位來說,大數據更如經常便飯,大數據主要利用多樣式和多層次的采集方式進行數據采集,在分析數據時利用現代科學技術手段和高速處理數據的信息系統,分析的數據結果為公司或者政府單位的決策做參照。大數據的發展給統計學不僅帶來了機遇,更重要的還有挑戰。一方面信息技術和網絡科技的發展為數據收集和整理帶來了便利,另一方面由于近幾年電子商務的迅速崛起,數據量更加的繁雜,所以又給數據統計時帶來了麻煩,種類不斷增多的大數據資源,正在成為政府統計部門分析研究的重要領域。
一、大數據與統計學的區別
我們就大數據自身而言,要想在信息化迅猛發展、數字爆炸式增長的現代信息平臺中尋找到自己想要的有效數據,就必須依靠數據統計來完成。這就充分證明了關于大數據的相關研究是要和統計學緊密的聯系在一起的。但是其與統計學也存在巨大的差別,它的使用模式和運用方式是不一樣的。統計學需要依靠樣本抽樣的方法來進行數據整體和提煉的,這就意味著會有人力、物力以及財力的投入,其成本相對于大數據來說是比較高的而且過程是相對比較繁瑣的。而大數據主要依靠網絡信息平臺,在海量的電子數據信息中查找自己所需要的數據,具有來源廣、數據量大、整體性的特點,其是以整體的數據作為一個大樣本進行工作的,數據相對于統計學來說更加的精確化及標準化。因此,統計學和大數據的結合過程中,要充分發揮大數據全面性和統計學高效性的特點,在利用統計學進行大數據樣本的統計過程中要對整體的數據資源進行選擇和篩選,這樣能避免樣本統計的弊端,還可以把樣本統計的優勢發揮到極致。
二、大數據時代下統計學教育的發展
(一)培養全方面素質人才
統計學專業的學生與文管專業的還不一樣,文學專業的以及管理專業的學生都比較善于交際,善于溝通,而統計學是理科專業,很多學生只善于埋頭做題計算,這樣的話在以后的工作崗位就會感覺吃力,因為做數據統計,必須要與其他部門學會溝通,協同工作這樣才能把數據統計和分析的準確。要鍛煉自己的交際能力和溝通能力,針對不同數據信息做出不同的溝通與交流,從數據中挖出有價值的信息,需要本身具有數據敏感性,但是對數據的敏感程度也不是先天所帶來的,更不是一朝一夕就能鍛煉出來的,而是要經過時間的積累和數據分析工作的磨練,同時也可以根據案例型的數據分析材料,積累閱歷,提升對數據資源的敏感程度。
(二)培養統計學專業的應用型人才
大數據時代下培養的統計學應用型人才應該具有兩方面的基本素質,第一是概念性的,也就是說統計學的相關人才應該掌握統計學基本理論知識和基本素養,這是基本要求,也是培養統計學人才的前提。第二就是實踐性,也就是本文中我們提及的統計學專業的應用型人才,就是在實際操作中處理數據分析數據的能力,應用型人才需要利用理論知識解決實際問題,也需要有較多的經驗與閱歷,不能只會紙上談兵。在高校開展大數據分析學科中,最大的問題就是沒有真是可用的案例和數據,這就需要學校與公司企業走合作道路,這樣一來不僅可以得到真實有效的數據,還能將學生送到企業去實習,進行校企聯合,注重學生的實際操作能力,這是培養統計學專業應用型人才的關鍵點,也是統計學專業人才培養模式中的重點。
(三)促進統計學與信息計算科學的融合
在大數據的分析與研究時,僅僅憑借統計學科的支撐是不夠的,大數據的數據結構性特征已經拋棄了傳統意義上的數據分析模式的非智能化框架,而且數據分析需要利用新型的數據運算方式以及計算機技能分析,這也是進行數據分析的問題所在,因此要想做好數據統計和數據分析工作,只單單依靠單一的統計學科知識的人學習是遠遠不夠的,其需要的是數學,信息技術,統計學三門學科的融合發展,緊密結合三門學科之間的交叉發展,融會貫通,利用各科優勢資源相互彌補不足,這樣才能為大數據的收集,統計,分析做出科學準確的結果。
三、結語
學習統計學的優勢在于:我們可以利用統計學進行大數據的有效整合和利用,使得我們在使用數據時可以更加的便利和高效。隨著信息科學技術的進一步發展,來自各方面的數據出現井噴的狀態,這就增添了我們在數據統計和信息處理時的困難。在現在這個信息化數據爆炸式增長的形勢下,我們要充分全面的利用各方面的數據資源才能充分發揮統計學的優勢,做好預測和分析,同時充分將統計學的優點與完備的大數據資源實現有效的整合,讓統計變得通俗易懂。
摘要:隨著大數據時代的到來,統計學專業教育教學將面臨大數據的信息與識別、大數據的數據產生方式與抽樣方法、大數據的統計整理與統計分析等方面的挑戰。中西部地區二三本高校統計學專業教育教學,在院校構成與專業方向、學歷教育層次、學生培養規模、學科建設、師資力量、課程設置與教育教學手段等方面具有自身的特征和不足,與大數據時代的發展方向和需要存在較大差距。為此,應注意從以下五個方面進行改進和完善:普及大數據知識,積極引導學生認識和熟悉大數據;認清教育教學與大數據之間的關系,正確定位專業發展目標和方向;改革和創新現有課程設置,豐富和完善計算機與統計軟件類課程;提升統計學專業授課教師的職稱與學歷,革新知識容量和結構;加強統計專業教育教學的組織支持和制度保障。
關鍵詞:大數據;中西部二三本高校;統計學專業;教育教學
一、前言
隨著大數據時代的到來,大數據已成為變革組織、變革經濟和變革價值的力量。鑒于大數據發展對經濟社會和生產生活的影響愈加深入,我國高等教育領域和統計學專業領域的相關專家學者進行大量的思考,并形成一些思想和成果。但是,有關大數據時代背景下統計學專業教育教學的研究成果相對較少。從研究主題和關注領域來看,不同學者的研究成果差異較為明顯,但大致可以分為以下幾類:一是大數據時代統計學面臨的機遇與挑戰;二是大數據時代背景下統計學教育教學應該如何改革和創新;三是高職院校統計學教育教學領域中某一問題;四是其他一些具體或個別問題。從研究結論來看,大數據時代的來臨,統計學研究方法、統計學專業教育教學方式與內容、教師知識結構、人才培養模式與方案等,均面臨諸多挑戰,同時也會帶來變革與創新的機遇。
與多數著名財經類高校和一本高校相比,我國中西部地區不少二三本高校在師資力量、專業建設、學科建設、人才培養方面,還存在不少缺陷和不足。所以,作為與大數據研究技術和方法緊密的統計學專業,二三本高校更應該對其進行認真思考和科學定位與設計,從而避免在未來更加落后和遭到淘汰。本文基于上述背景和現實需要,對中西部地區二三本高校統計學專業教育教學進行認真思考和更進一步的探討。
二、中西部地區二三本高校統計學專業教育教學的現狀
(一)院校構成與專業方向
目前,開設統計學專業教育教學的中西部二本高校主要以地方財經類院校、師范院校和部分理工類院校為主。從專業方向來看,地方財經類院校主要以社會經濟統計、金融統計、風險管理與精算學為統計學專業的方向;師范類院校則主要依托數學系,一般是從概率論、數理統計、多元統計等相關課程的教學中衍生而來,通常以數理統計為專業方向;而理工類院校則以數理統計或者應用統計為主要研究方向,同時兼顧本院校的專業構成和傳統研究領域,如生物衛生統計等。多數三本院校沒有開設統計學專業,考慮到招生的便利性和就業前景,開設統計學專業的三本院校通常以社會經濟統計、金融統計為專業方向。
(二)學歷教育層次
從學歷教育層次來看,多數地方財經類院校統計學專業以本科和碩士研究生層次為主,個別傳統悠久、實力較為雄厚的財經類院校上升到博士研究生的層次;師范類院校和部分理工類院校則以本專科層次為主,少部分院校則開展了碩士研究生層次的教育,或者與擁有碩士學位授予權的院校開展碩士研究生的聯合培養。開設統計學專業的三本院校一般會開展本科學歷層次的教育,畢業后通常授予經濟學學位。除了上述幾類開展統計學專業教育教學的二三本高校外,還有個別省市的統計學院(學校)。但是該類院校一般隸屬于省統計局,通常以國民經濟統計和核算為專業方向,在較長的歷史時期開展中專層次的教育,近十年來多數學校則實現專科層次學歷教育的轉變,只有少部分學校上升至本科層次的學歷教育。
(三)學生培養規模
從學生培養規模來看,就本科學歷層次而言,地方財經類高校統計學專業每年招生規模一般為100人左右,師范類院校一般為150人左右,部分理工類院校招生規模和三本院校一般為50人左右,與一本高校相比,招生規模偏小。統計學專業研究生教育,包括應用統計碩士(專業學位)和學術型研究生兩大類,多數地方財經類院校開展統計學專業普通研究生的教育。目前,全國共計80余所高校開展應用統計碩士教育,中西部地區高校有31所,其中二本高校12所(包括8所財經類院校、4所師范大學),近年來應用統計碩士招生規模和學術型研究生基本持平。8所財經類院校中,西安財經大學招生規模最大,應用統計碩士招生規模和學術型研究生分別達到25人和30人,山西財經大學、安徽財經大學、江西財經大學三所院校兩類研究生招生人數為20人左右,而蘭州商學院、貴州財經學院、新疆財經學院招生人數為10人左右,河南財經政法大學招生人數則不足5人。4所師范類院校中,河南師范大學兩類研究生招生人數為10人左右,安徽師范大學、湖南師范大學招生人數為5人,廣西師范大學應用碩士招生則高于學術型研究生,兩者之和為20人左右。其余的財經類院校和師范類院校研究生招生規模存在與上述學校類似的特點。
(四)學科建設
統計學專業學科建設的效果,可以通過教育部學位中心公布的學科排名和近年來中國大學統計學專業排名進行評判。2012年教育部開展第四輪學科評估,教育部學位中心公布一級學科最終排名結果。在該次統計學科評估中,全國具有“博士一級”授權的56所高校中有46所參評,還有部分具有“博士二級”授權和碩士授權的高校參加評估,參評高校共計87所。所以,最終的統計學學科排名結果顯示,中西部地區有12所一本高校、23所二本高校參加該次評估,學科整體水平得分在74分以下,排在第22名之后。其中,西南大學得分為72分,居于中西部二本高校之首,山西財經大學、西安財經學院得分為70分,其余二本高校得分為69分、68分、66分、65分和64分的分別有4、4、3、9、1所高校。三本高校因為不具備統計學學科碩士授予權,所以沒有參加該次學科評估排名。
此外,在2014年5月,中國校友會網公布2014中國大學統計學專業排名。該專業排名將學科專業分為4個星級(最高為6星級,最低為3星級),學科專業層次分為頂尖學科專業、一流學科專業、高水平學科專業、知名學科專業四類,辦學類型分為研究型、行業特色研究型、區域研究型、區域特色研究型、專業型和應用型六類。在該統計學專業排名中,參評高校有87所。其中,中西部地區有17家二本高校參評,學科專業星級均為3星級,學科專業層次為中國知名學科專業;辦學類型方面,只有太原理工大學為區域研究型,其余16家院校均為專業型;辦學層次方面,太原理工大學、西北師范大學、武漢科技大學和長沙理工大學被評為中國知名大學,其余13家院校沒有相應歸屬。除了上述排名外,中國金蘋果科教評教網,也公布2012-2013中國大學本科教育統計學類專業排行榜,有94所高校參評。但是,只能查詢到該排行榜前20名的高校,所以本文沒有采用該結果對中西部地區開設統計學專業的二三本高校學科建設情況進行評判。
(五)師資力量
從師資力量來看,中西部地區二三本高校統計學專業仍然相對薄弱,特別是三本高校師資力量配置尤為薄弱。就中西部地方財經類院校、師范院校和部分理工類院校而言,與同領域一本高校相比,其師資力量配置比較完備,院系設置和師資規模、結構類似,差異主要體現在教師的職稱結構、學歷結構和科研實力方面。其中,這些差異一方面在于國家人事制度和管理體制,另一方面在于學校所能提供的薪酬待遇和教學科研平臺相對有限,不能吸引更多的高層次人才。而三本高校則與同領域二本高校相比,其師資力量配置不健全,師資規模、結構仍有較為明顯的缺陷與不足,與同領域一本高校相比差距很大。造成這種差異的原因除了上述兩個方面外,還與三本高校對教育教學的短視和其天生的缺陷有很大關系。
目前,每個省都制定了本省《事業單位專業技術崗位結構比例控制標準》,將“教育事業單位”中的“高等院校”分為“211工程”重點建設院校、與教育部共建院校、設有博士點和其他省部共建院校、設有碩士點院校、其他本科院校、省管高等專科學校、高職高專院校、成人專科學校和技師學院等若干類。對高級職稱人員所占最高比例要求依次逐步降低,“211工程”重點建設院校正高級、副高級職稱所占比例為15%和30%左右,分別高于高職高專院校、成人專科學校和技師學院10~15個百分點;對中級職稱人員所占最高比例依次逐漸上升但差異較小,“211工程”重點建設院校為45%左右,低于高職高專院校、成人專科學校和技師學院5個百分點左右;對初級職稱人員所占最高比例則依次逐步提高,“211工程”重點建設院校一般不超過10%,低于高職高專院校、成人專科學校和技師學院僅20個百分點。國家人事制度和管理政策中關于不同院校職稱結構的要求,在一定程度上對二三本高校廣大教師尤其是中青年教師的晉升成為一種障礙,限制他們的職業生涯發展和提升。
中西部地區二三本高校院校所提供的教學科研平臺受到局限,一方面與學校當前自身實力有關,另一方面也與教育行業所存在的歧視和潛規則有關。廣大一本高校由于自身具備較強的實力,在學術、縱向科研項目申報、橫向課題申請、對外學術交流方面具有先天的優勢。在職稱、學歷和相應材料質量接近或相同的情況,相應的雜志社優先發表著名高校和一本高校教師的學術論文,尤其是一些排名榜首的期刊幾乎不發表第一作者單位為二三本高校的教師的學術論文,行政主管部門和企業也優先審批這些高校的項目,從而形成明顯的虹吸效應和馬太效應,對廣大二三本高校造成嚴重的歧視和不公。不少青年教師在二三本高校工作若干年之后,如果職稱和學歷得到足夠提升之后,比如獲取博士學位、博士后順利出站和評完高級職稱后,多數選擇一本高校或本領域內著名高校作為新的就業崗位,從而規避和去除教學科研平臺帶來的限制。
高校院校所提供的薪酬待遇,一方面與學校自身所獲取的教育經費、學校所處的階段及其發展目標和方向有關,另一方面與學校所擁有的產業和創收項目有很大關系。中西部地區廣大二本高校所獲取的教育經費主要以學生繳納的學費、所在省市行政主管部門劃撥的財政事業經費為主,兩者占教育經費總額的80%左右,甚至更高。中西部地區多數省市經濟社會水平在全國處于中下游水平,財政收入規模相對較小并且增速相對緩慢,而教育經費支出占財政支出的比重比較穩定,所以中西部地區廣大二本高校所能獲得財政撥款增長較為緩慢,從而影響到學校發展目標的實現速度和進度。而廣大三本高校的教育經費幾乎全部來源于學生繳納的學費,當前公立高校每個學生財政型教育經費提高到12000元左右,三本高校生均教育經費投入水平與公立高校相比處于劣勢。隨著近年來物價水平的持續上漲和人力資源成本的逐漸提高,三本高校出于生存的需要,近年來對招聘教師的職稱、學歷和薪酬待遇沒有進行明顯提升。因此,畢業于全國“985”高校、成績相對優異的統計學專業研究生,尤其是博士研究生,綜合考慮薪酬待遇和職業生涯規劃的需要,就業時首選一本高校,其次是二本高校,不愿意或者不樂意到三本高校來就業,從而造成三本高校統計學專業師資規模、職稱與學歷結構很難得到提升與改善。
(六)課程設置與教育教學手段
從課程設置與教育教學手段來看,與廣大一本高校和著名財經類高校相比,中西部地區二三本高校統計學專業基本類似和比較接近,但是三本高校的差距依然較大。就中西部地區二三本高校而言,由于師資力量和學生基礎、接受能力的差異,在統計學專業不少課程尤其是專業核心課程的教學過程中,教師對課程知識、原理、方法的理解與講解方面,與廣大一本高校和著名財經類高校仍然有明顯差距,從而對學生的啟發與引導仍顯得較為薄弱。就中西部地區三本高校而言,除存在上述類似問題之外,還存在因人設課、因事設課、變相壓縮學時等現象,統計軟件類課程的種類和學時量與一二本高校相比差距明顯,課程設置仍然需要健全和完善。比如,本科生通常課程教學每個學時為50分鐘,每學期正常上課教學時間為18周,加上兩周的考試時間,一般每學期教育教學期限為20周。但是有不少三本高校在統計學專業教學過程中將每學時減少為45分鐘,每學期正常上課教學時間和考試時間合計僅為18周。此外,對于一些統計學專業的專業基礎課和專業核心課,不少一本高校與二本高校通常進行每周4學時的授課,選修課程的設置也突出統計學專業的特色和需要。但是,有不少三本高校則進行每周3學時的授課,因人設課現象較為嚴重,要么短期聘用校外兼職教師進行授課,而選修課程的設置也脫離統計學專業學生學習和未來發展的需要,不能激發學生的興趣和求知欲,教學效果較差。
三、中西部地區二三本高校統計學專業教育教學的定位和出路
(一)普及大數據知識,積極引導學生認識和熟悉大數據
大數據是一個新生事物,全球80%左右的大數據產生于近四年。大數據正在處于推廣和發展階段,其未來的影響也會更加深遠和廣泛。大數據在給統計學帶來機遇的同時,也帶來不少挑戰。統計學家、統計學專業的授課教師,必須在傳統統計數據環境的基礎上,積極學數據這個新生事物,學會適應新的大數據環境,從而拓展統計學的新應用領域,創造和發現適應大數據的新統計方法。就目前中西部地區二三本高校統計學專業教育教學的實際來看,不少教師聽說過大數據的提法,但對大數據的概念、特征、意義、分析方法,以及如何處理大數據和大數據的未來發展方向,認識不是很清晰和深刻。所以,對中西部地區二三本高校統計學專業的廣大教師而言,不但要積極學習和熟悉大數據,更重要的是利用課堂和課余時間,有計劃、有步驟地向統計學專業的學生積極宣傳和介紹大數據的有關概念、知識和方法,使學生對大數據有一個清晰、客觀、正確的認識和觀念,早日將其引導到大數據的發展之路上來。
(二)認清教育教學與大數據之間的關系,正確定位專業發展目標和方向
由上述分析可知,中西部地區二三本高校統計學專業教育主要以本科層次為主,一些實力較強的二本高校開展了碩士研究生層次的教育,個別高校開展博士研究生層次的教育。本科教育是通才教育,強調扎實地學好基礎課程,為以后工作或者研究打好基礎,而研究生教育則強調提高獨立研究、獨立創新的能力。從知識結構和層次來看,統計學專業本科生所學知識和課程的涉及范圍較寬,但深度不夠,而研究生層次的教育與大數據的距離更為接近,更能滿足大數據分析對于統計方法和技術的要求。
統計學專業的培養目標是培養應用型統計專業人才,即培養具有良好的數學或數學與經濟學素養,掌握統計學的基本理論和方法,能熟練地運用計算機分析數據,能在企業、事業單位和經濟、管理部門從事統計調查、統計信息管理、數量分析等開發、應用和管理工作,或在科研、教育部門從事研究和教學工作的高級專門人才。而對大數據進行分析,需要將統計學、計算機、數學和社會科學等多學科進行融合。因此,大數據時代,統計學專業的培養目標要轉向培養復合型專業人才。這使得傳統的統計學專業培養目標面臨兩個方面的轉變,一是注重統計學與其他專業之間的融合,二是如何實現由應用型人才向復合型人才的轉變。
中西部地區二三本高校由于師資力量、課程體系設置、教育投入規模等方面的不足與局限,在較短的一段時期內實現上述兩個方面的轉變有較大困難。根據不同學歷層次教育與大數據之間的聯系和自身高校的實際,當前中西部地區二三本高校統計學專業教育教學應以原先的培養目標為主,在現有課程設置和師資力量方面率先進行改革和創新,在不斷夯實和提升自身實力的基礎實現這兩個轉變。
(三)改革和創新現有課程設置,豐富和完善計算機與統計軟件類課程
在大數據背景下,統計學專業課程設置應進行改革和創新,根據大數據的發展方向和要求,提升現有課程或開設新的課程。根據中西部地區二三本高校統計學專業教育教學的實際,改革和創新現有課程設置,主要從以下三個方面做起。
一是加強對數據收集部分內容的講解與訓練。就統計數據的收集而言,一般在統計學課程中的“統計調查”與“抽樣與抽樣分別”部分進行講解和說明,為此,不少學校開設市場調查分析與預測或者抽樣技術的課程。大數據時代,大數據的產生方式更加豐富和多樣化,數據的抽樣方法也發生很大變化。在當前大數據抽樣技術不甚明朗的情況下,應繼續加強對傳統抽樣方法與技術的講解深度和訓練力度,同時注重補充有關GDP核算、普查和CPI、PMI等重要指標數據抽樣技術的有關知識和實踐操作規程。
二是有針對性地增加計算機類相關課程。目前,中西部地區二三本高校統計學專業開設的計算機類課程主要以計算機基礎課程、計算機高級語言和計算機網絡課程為主,遠不能適應和滿足大數據對統計學專業的要求。為此,需要在課程設置中增加Office辦公軟件、專業數據語言等課程,使統計學專業學生具備大數據分析對計算機操作的基礎技能。
三是健全和完善統計軟件類課程。目前,中西部地區二三本高校統計學專業開設的計算機類課程主要為R語言、SPSS或者SAS、E-views,一般來講,以其中兩個軟件的教學為主。但其存在的最大問題是軟件課程授課教師相對較少,學生對軟件的學習和操作訓練不夠系統和完備,不少學校統計軟件課程只是針對基礎統計學、計算經濟學基礎、多元統計的部分內容來進行。所以,健全和完善統計軟件類課程首先體現在加強對現有統計軟件所學內容的廣度和深度以及訓練方面,其次應增設3門以上的軟件課程供學生選擇和學習,加強實踐操作技能的培養和提升。
(四)提升統計學專業授課教師的職稱與學歷,革新知識容量和結構
無論是形成大數據的思維模式和普及大數據知識,還是改革和創新現有的課程設置,最終主要靠統計學專業授課教師來開展和執行。所以,提升統計學專業授課教師的素質是關鍵。職稱反映著高校教師在學科建設和教學科研領域的積累與付出,學歷則代表著教師在專業領域和科研能力方面的突破與提升。所以,應對大數據時代統計學專業教育教學面臨的挑戰,實現上述途徑的方式,一方面,中西部二三本高校需要提升現有統計學專業授課教師的職稱與學歷,改造和提升現有教師的規模及其專業結構、學歷結構和職稱結構,擴大計算機和數據庫類課程教師、統計軟件類課程教師的力量。另一方面,現有的教師尤其是專業基礎課和專業核心課程的教師,要積極學數據的有關知識和方法,不斷提升自身處理和解決大數據有關問題的能力。
(五)加強統計專業教育教學的組織支持和制度保障
改革和創新現有的課程設置,豐富和完善計算機與統計軟件類課程,需要增加這些課程的內容和學時,并且聘用更多資歷更高的教師。所有這一切,都需要在統計學專業教育教學的軟硬件建設方面投入更多的資金、人力與物力,而這與學校對統計學專業學科建設與教學建設的重視和大力支持是密不可分的。為此,中西部地區二三本高校統計學專業的教育教學,在未來仍然需要繼續加大投入,同時輔之以積極和良好的人事政策支持與后勤保障。所以,大數據時代中西部地區二三本高校統計學專業教育教學的革新和突破,離不開所在院校的組織支持和制度保障。
摘要:統計學是培養經管類專業學生定量分析能力的重要課程,大數據時代的到來對統計學提出了新的要求。本文圍繞大數據時代對經管類專業數據分析人才的需求,以專業特色為導向,運用“知識+能力+應用”模式進行統計學模塊化、層次化課程體系構建。
關鍵詞:大數據;經管類專業;課程體系
大數據時代給社會經濟發展帶來了機遇和挑戰,社會各行各業對數據分析需求大幅上升,需要借助數據分析實現數據的增值,挖掘數據背后的潛在價值,為其經營管理決策、投資決策提供智力支持。隨著社會經濟發展對具有數據管理和數據分析能力的應用創新型經濟管理人才的需求逐漸攀升,也引發了對高校經管類專業學生能力的更高要求。面對紛繁復雜的社會經濟環境,經管類專業學生必須能夠廣泛應用定量分析技術,能夠從海量數據中獲取有效數據,運用科學的方法從這些數據中提取出有用信息,建立相應的模型,作出最優決策。
統計學是培養經管類專業學生定量分析能力的一門重要課程,是眾多高等院校經管類專業的專業基礎必修課,是以后深入學習相關定量方法類課程(諸如計量經濟學、管理運籌學、市場調查與預測等)的基礎。因此,統計學課程體系設置是否合理,將直接影響到學生獲取有效數據和分析數據應用能力的培養,進而影響學生定量分析能力的培養。
一、經管類專業統計學課程體系存在的問題
1.課程教學定位模糊。我國高等院校經管類專業統計學教學中的最大弊端在于一直按照前蘇聯劃分方式將其歸類為一門偏重于簡單數據整理課程,而將相應的統計分析所采用方法和理論歸為數理統計,因此在教學中不重視對后者的學習。然而,西方發達國家的統計學課程是同時包括這兩個部分內容的,尤其是后一個部分內容是定量分析的重要基礎。因此,在傳統統計學教學定位下,學生只認識了基本理論與概念,卻掌握不了處理和分析數據的能力,這與經管類專業應用型人才培養目標相背離,難以適應大數據時代社會各領域對經濟管理人才素質的新需求。
2.課程體系有待完善,與經管類專業融合不夠。目前,大多數高等院校經管類專業統計學課程設置只涉及理論統計學這一領域,未將統計分析方法與相關經管類專業知識有機結合。在這樣的課程體系安排下,學生雖然掌握了統計基本理論和方法,但難以體會到統計在本專業學習中的應用價值,當面臨現實的經濟、管理問題卻無能為力,不會運用所學統計方法,結合專業知識對實際問題進行定量分析。這種狀況與經管類人才定量分析能力培養目的相違背,難以實現具有創新能力的經管類人才的培養目標。
因此,如能結合經管類專業特點,對統計學的課程體系進行優化建設,勢必能夠培養出具有定量分析技能,滿足社會需求和企業需求,符合大數據時代人才素質要求的經濟管理人才。
二、大數據時代經管類專業統計學課程體系構建
1.明確課程教學定位。目前,統計學教學中偏重于統計學基本概念、基本模型和基本方法的理論知識學習,系統性較強,有利于學生全面了解統計學的知識體系,但是對統計思維能力的培養和統計方法的應用重視不夠,這不僅會讓學生望而生畏,從而失去學習的主動性與積極性,更為重要的是學生不能夠學以致用,在自己本專業深入學習過程中不會運用統計學知識來解決實際的經濟管理問題,而在教與學中出現的這些問題源頭在于教學定位不夠準確。因此,本文提出新的課程教學定位:以應用創新型人才培養為導向,提高經管類專業學生定量分析能力為目標,結合經濟學科和管理學科的特點,通過統計學的理論教學、案例分析、課程設計、實驗(踐)等教學環節,培養學生統計思維能力和統計應用能力,具備運用統計學理論與方法,研究社會經濟管理領域有關數據收集、整理、分析等解決實際問題的綜合能力,以適應大數據時代對經濟管理人才的新需求。
2.課程體系優化建設。根據新的教學定位,統計學課程體系優化建設的基本思路:一是課程體系設置要強調基礎知識、注重靈活應用、突出定量分析的教學理念和教學目標;二是課程結構上,突出專業針對性,強調統計學科和經濟學科、管理學科的有機結合,使課程特色化;三是建立實踐教學體系,加強學生實踐能力的鍛煉,為學生提供綜合素質和能力提高的實訓平臺;四是將統計分析軟件的運用融入到課程體系之中,加強統計分析軟件的技能培養。
因此,本文將運用模塊化系統集成思想,根據經濟與管理類各專業的要求,提出按專業分模塊,按模塊分層次,按層次定內容的改革方案,構建“課程體系課程子系統課程模塊具體內容”的遞階控制結構模型,具體如圖1所示。
在統計學課程體系優化建設中,我們運用系統科學的方法構建出模塊化、層次化集成的課程體系在整體功能上達到了最佳狀態。
課程基礎子系統是統計學理論基礎和統計思維培養階段,由統計學基本原理和基本理論構成,體現了“厚基礎”的功能。課程應用子系統和課程案例子系統是統計分析能力訓練階段,首先結合認知性案例模塊系統介紹統計分析方法,讓經管類專業學生了解統計分析方法的基本原理,其次進一步結合專業特色案例模塊和統計分析軟件模塊,通過分專業教學方式,使不同專業學生能夠體會到統計學在本專業中的應用,增強學生的學習興趣,體現了“強能力”的功能。課程實踐子系統是統計應用能力實踐階段,是培養大數據時代應用型經管人才的重要環節。課程實踐主要包括課堂實踐和實驗室模擬,課外實踐主要包括社會實踐活動、實訓實習和相關競賽,通過課程實踐和課外實踐兩大平臺訓練學生運用所學統計調查、統計整理和統計分析等知識解決實際問題的綜合能力。課程選修子系統是統計應用能力擴展階段,該階段在學生掌握統計學相關知識的基礎上,通過選修統計預測與統計決策兩大模塊,進一步培養學生的定量分析能力。
三、結束語
大數據時代經管類專業統計學課程體系構建,應注重強化基礎理論,突出知識的實用性和創新性,做到統計知識與實例分析相結合,與軟件應用相結合,理論教學與實踐教學相結合,與實際應用相結合。根據經管類各專業特色,以“知識+能力+應用”模式進行模塊化、層次化課程體系設置,從本質上提升學生的數據素養和信息素養,提高解決實際問題的定量分析能力,以適應大數據時代對人才素質的新需求,使具有數據管理和數據分析能力的經濟管理人才在就業市場上更具有競爭力。