時間:2023-09-12 17:03:20
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了七篇統計學的數據分析范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
關鍵詞:農經專業;數據分析;教學改革
2019年12月,農業農村部、中央網絡安全和信息化委員會辦公室關于印發《數字農業農村發展規劃(2019-2025年)》的通知,部署了用數字化引領驅動農業農村現代化,加快農業農村生產經營、管理服務的數字化改造的發展戰略,將全面提升農業農村生產智能化、經營網絡化、管理高效化、服務便捷化水平作為農業農村發展的目標[1]。農業農村的數字化建設離不開專業人才的培養。農林經濟管理專業畢業生的就業方向主要有農業經營單位、面向農業農村的政府管理部門、事業單位、科研院所等。隨著農業農村數字化發展戰略的推進,給傳統的農經人才培養帶來了一系列的挑戰[2]。在數字經濟和智慧農業的時展背景下,數據分析能力是農經專業學生重要的核心競爭力。如何提升農經專業學生數據分析能力,是農經專業人才培養中面臨的重要課題[3]。
1農業農村數字化發展戰略給農經人才培養帶來的挑戰
1.1對農經人才的數據思維的更高要求
在大數據時代,無論是農業生產經營活動,還是農村的行政管理中都有大量的數據資源。農業企業、農業合作經營組織、農產品產銷數據、農產品溯源數據為農業經營者提供了生產、物流、銷售環節大量的數據資源。經營者需要認識到數據是一種新的生產要素,要調動數據作為生產要素的屬性,讓數據分析為管理決策服務[4]。在數字中國的建設進程中,各級政府部門工作人員通過各級各部門的行政管理智能,收集了大量省、市、區、縣級的區域經濟社會發展數據。社區網格化管理下收集了微觀層面的農業經營單位數據、農村常住人口數據、醫保數據、扶貧數據、農村小額信貸數據。這些數據資源是政府提高行政效率、提高政務服務質量的寶貴資源。
1.2對農經人才的數據分析能力的更高要求
在大數據時代,每天都有海量數據生成,如何能更好地利用這些數據,讓數據能發揮其為管理決策服務的功能,與數據使用者的數據分析能力是密切相關的。例如,農業經營單位在農業生產環節的農業投入數據、農產品銷售數據、電商平臺的客戶反饋評論、農產品庫存的動態數據,如何整合分析這些數據,要求農業經營者系統掌握數據分析、數據挖掘、文本分析等多元化的數據分析方法。政府管理部門掌握的農業人口的遷移數據、農村常住人口網格管理數據、農村居民醫保數據、扶貧數據等,數據類型豐富,數據量龐雜,如何實現數據庫的整合,要求政府部門工作人員掌握數據庫管理、大數據分析技術。
2農經專業數據分析課程群建設中存在的問題
2.1課程之間連貫性不足
以筆者所在的高校為例,為農經專業本科生開設的數據分析類課程,見表1。數據分析課程群包括了通識教育、專業教育和實踐教育。從目前的課程設置來看,涵蓋了數據庫、統計學、經濟計量學、多元統計、大數據分析等領域,內容豐富。數據庫應用由計算機學院開設,是一門通識教育課程,在授課時教師往往將其視為一門計算機類的入門課程,在教學中沒有針對農經專業學生的特質,將數據庫的教學與其在農經領域的應用結合起來。學生在學習中往往會覺得該課程與專業聯系不夠緊密,教學內容枯燥,缺乏學習興趣。
2.2學生學習的軟件種類繁多,但不夠深入
在統計學和多元統計課程中,學生將學習EXCEL、SPSS或者R語言的應用,在經濟計量學課程中學生將學習Eviews或STATA的應用,在數據挖掘與大數據分析課程中學生將學習Python語言的應用。在每一門課程中學習的軟件都不同,對于軟件的學習缺乏連貫性和延續性,雖然學生接觸的軟件種類多,但是由于學時所限,每一種軟件都只是入門級的介紹,無法進入到深度學習。
2.3與專業課學習聯系不夠緊密,缺乏應用機會
學生缺乏在專業課學習中運用數據分析類課程所學知識的機會。數據分析類課程主要介紹數據分析方法和軟件的應用,但大部分都安排在第5學期和第6學期。學生在學習了數據分析方法后,缺少在專業學習領域里運用這些方法的機會。例如學生若要完成產業經濟學、農業技術經濟學、農產品國際貿易學的專題研究、課程論文,需要用到統計學、經濟計量學、大數據分析的方法,但在第2-4學期開設大量專業課的學期,數據分析類課程還沒有開設。若能將數據分析類課程盡量靠前安排,學生可以在后續的專業學習、課題研究中運用所學的方法,一方面夯實數據分析技能,另一方面也可以增加學生對專業課的學習興趣。
2.4排課不夠科學
在大三階段,學生可以選修多元統計、數據挖掘與大數據分析、Python語言三門選修課。但到了大三,學生專業課的學習任務重,選修課種類考慮繁多,學生選課可能出于興趣、學分安排或者準備考研保研考慮,并不是每一位同學都會選修上述課程。尤其是計算機能力不太強、對數學類課程感到困難的同學,會傾向于選擇難度小的課程。
3基于項目驅動式教學理念的數據分析課程群改革
3.1開展項目驅動式教學的意義
項目驅動教學法是基于行動導向的探究式教學方法,是將真實的或模擬的項目轉化為教學項目,結合課程內容將項目分解為若干工作任務,創設工作情境,引導學生完成任務,進而實現項目教學目標的教學活動[4-5]。項目驅動式教學法最顯著的特點是“以項目為主線、教師為主導、學生為主體”,改變了以往“教師講,學生聽”被動的教學模式,完善了學生主動參與、自主協作、探索創新的新型教學模式。與傳統教學方法相比,教學實施過程中,學生的目標更清晰明確,可避免傳統課堂教學的被動性,進而提高學生學習知識的興趣和主動性[6]。在數據分析課程群中引入項目驅動教學,一方面能讓學生運用所學的數據分析方法分析現實問題,創設數據分析情境,加深對所學方法的理解和運用,激發學習興趣,培養自主學習能力;另一方面也可以有針對性地創設圍繞“三農”問題的數據分析項目,讓學生從數據分析中加深對“三農”問題的感性認識,培養對農經專業學習的興趣,提升對農經專業的認同度。具體來講,可以從以下方面開展對數據分析課程群的改革[7]。
3.2統籌規劃教學內容,加強課程間的連貫和遞進
農經專業數據分析課程群目前主要包括必修課數據庫應用、統計學和經濟計量學,選修課多元統計、數據挖掘與大數據分析,以及實踐課R語言與統計應用、Python語言。統計學教學的重點在于對基礎性的統計方法的運用,經濟計量學教學的重點在于讓學生掌握經濟計量分析的范式,如何利用經濟計量模型開展實證分析。多元統計強調對復雜多維數據信息的提煉。數據挖掘與大數據分析教學的重點在于大數據時代數據挖掘方法的應用。此外,針對于目前學生所學的軟件門類過多,軟件操作不夠熟練,建議在統計學、多元統計、數據挖掘大數據分析中統一采用R語言進行教學,讓學生通過幾門課程的學習,能夠熟練掌握一種統計分析軟件。
3.3基于項目驅動對教學內容進行整合及優化,調動學生主動參與
例如統計學課程介紹了基礎性的統計分析方法,在后續課程經濟計量學、多元統計、數據挖掘與大數據分析中引導學生運用基礎性統計分析方法,對數據進行初步的統計分析和整理,為經濟計量分析、多元統計、數據挖掘做好數據處理上的準備,讓學生體會到關聯課程中所學知識的聯結。鼓勵學生積極參與“三下鄉”活動,開展田野調查實踐,圍繞“三農”開展調研,運用統計和計量方法對調研數據進行分析,鼓勵學生參與到教學中來,培養學生的學習興趣,學以致用。
3.4建設“項目驅動”實踐教學模塊
結合農經專業課程體系,建設數據分析課程群“項目驅動”實踐教學模塊。在農經專業的課程體系中開設的農業經濟學、農產品貿易、農村社會學等專業性課程對大量的“三農”問題進行了探討,這類課程中涉及的城鄉差異問題、收入和消費問題、農產品價格波動、農產品貿易等現實問題的研究,都離不開基于現實數據的定量分析。因此,在農經專業的數據分析課程群中可以結合教學內容引導學生對專業課學習中熱點問題的研究,圍繞課程教學大綱,建設“項目驅動”實踐教學模塊,理論聯系實際,讓學生在研究項目中運用所學的數據分析方法,加深對專業知識的理解。
4農經專業數據分析課程群優化方案
在大數據時代,數據分析能力是學生的核心競爭力之一。數據分析類課程在建設中要強調理論與實踐的結合,不能只是將教學停留在課堂上,引入體現專業特色的實踐教學環節。可以從以下幾方面開展數據分析課程群的優化:第一,數據分析基礎類必修課安排在大一學年。在第1學期,可以安排R入門、Python入門、數據可視化課程,讓學生盡早接觸當前主流的數據分析軟件,激發學生對R或Python的學習興趣,讓學生自我拓展學習空間。R入門、Python入門、或者數據可視化課程都屬于數據分析的基礎課程,無需其他先修課程。在這一時期,讓學生開始接觸數據分析軟件,學習數據可視化的分析工具,有利于培養學生的數據思維、數據意識和軟件實操能力。第二,將與農經專業課有關的專業必修課統計學、經濟計量學安排在第3-4學期學習。統計學課程需要學生先行修讀高等數學和概率論課程,經濟計量學需要學生先行修讀微觀經濟學、宏觀經濟學,因此可安排在第3-4學期。讓學生在掌握了一定經濟管理專業知識后,可以更好地體會統計學、經濟計量學方法論學科的應用價值。第三,將數據分析進階類選修課多元統計、大數據分析、數據挖掘、機器學習等課程安排在第5-6學期。為高年學生提供豐富的數據分析類選修課,讓學生結合自己的興趣、未來的發展規劃學習更加多元化的數據分析技術。鼓勵學生能在專業論文習作、學科競賽中有更多的機會運用自己所學的數據分析方法,增加學生的收獲感和成就感,挖掘學生的學習潛力。第四,改革課程考核評價體系,采用項目式管理和評估的思路,由學生自主開展一個數據分析項目,從收集數據、提出問題、分析數據到提煉研究結論,開展小組團隊成員互評。教師跟蹤學生的項目開展過程,從學生的學習態度、投入程度、數據分析質量等綜合評價學生的學習效果。
5結束語
將項目驅動教學引入到農經專業數據分析課程群的建設,讓學生參與到教學中去,突破傳統教學中“教師教學生學”的局面,讓學生通過參與項目,運用數據分析方法解決項目中的實際問題,激發學生的學習興趣和潛能,讓學生體會到所學知識的應用價值,讓學生不再對數據分析類課程望而生畏。本文的研究對于農經專業學生數據分析能力的培養有重要的意義,強調理論與實踐的結合,提高學生數據分析的高階能力,也能為同類課程開展項目驅動教學提供借鑒。
參考文獻:
[1]農業農村部中央網絡安全和信息化委員會辦公室關于印發《數字農業農村發展規劃(2019-2025年)》的通知[EB/OL].(2019-12-25)[2020-4-14].
[2]李虹賢.農業經濟管理專業人才培養模式創新研究與實踐[J].智慧農業導刊,2022,2(7):110-112.
[3]馮開文,陶冶.農業經濟管理專業實踐教學改革———以中國農業大學經濟管理學院為例[J].教育現代化,2017,4(23):54-56+63.
[4]杜洪燕,陳俊紅.鄉村振興背景下中國數字農業高質量發展路徑研究[J].南方農業,2021,15(21):213-214.
[5]金娥.基于項目式學習的《現代教育技術應用》課程學習框架的設計與實踐研究[D].武漢:華中師范大學,2021.
[6]胡靜,王昌鳳.基于應用型本科人才培養目標的項目式教學模式構建[J].教書育人(高教論壇),2022(9):59-64.
關鍵詞:統計測度;統計學;大數據;數據科學;
作者簡介:李金昌,男,50歲,浙江義烏人。浙江財經大學校長,統計學教授,博士生導師。研究方向為經濟統計學,統計理論與方法,抽樣技術,政府統計等。
最近兩年,統計學界對大數據問題所進行的理論探討逐漸增多,視角也各有千秋,引起了一些共鳴。圍繞大數據問題,由統計學、計算機科學、人工智能、數學等學科共同支撐的數據科學開始形成。但大數據畢竟是一個新課題,因此遠未達到對其有一個系統完整的認識,仍然需要從不同的方面加以研究,其中有一個重要但又容易被忽視的問題,即統計測度問題,值得去探討。
一、什么是統計測度
漢語上,測度是指猜測、揣度、估計。數學上,測度是一個函數,它對一個給定集合的某些子集指定一個數,這個數可以比作大小、體積、概率等等。通俗地說,測度把每個集合映射到非負實數來規定這個集合的大小:空集的測度是0;集合變大時測度至少不會減小(因為要加上變大的部分的測度,而它是非負的)。
除了數學角度的測度論,查閱國內文獻資料,帶有測度這個詞匯的文獻不少,但專門針對統計測度(或測度)內涵的討論幾乎沒有。一些對社會經濟現象進行分析測度的文獻,例如新型工業化進程測度、貨幣流動性測度、全面小康社會發展進程測度、收入分配公平性測度、技術效率測度、人力資本測度、金融風險測度、產業關聯測度等等,所做的測度都是再測度,均不對測度本身進行討論。查閱國外文獻資料(關鍵詞:measurement),也同樣存在這樣的問題,只能收集到一些比較零散的表述。LudwikFinkelstein(1975)[1]認為,在我們對事物或現象進行描述時,測度可以被定義為對現實世界中某一現象的個體屬性或特征進行量化的過程。JamesT.Townsend和F.GregoryAshby(1984)[2]認為,如果按照極端的觀點,那么統計分析中的基本測度理論的含義仍然是存在爭議的。LudwikFinkelstein(2003)[3]指出,測度在那些原來尚未得到卓有成效或廣泛應用的領域,也已取得了明顯的進步,社會、政治、經濟和行為科學正在更大程度地利用定量技術;測度是現代思維的一種實際有效的工具,是我們借以描述世界的一種方法。GiovanniBattistaRossi(2007)[4]認為,用以表示測度結果的,是數字或者數字符號。LucaMari(2013)[5]認為,測度的基礎特征是被公認為世界上獲取并正式表達信息的基本方法,這讓它成為一種跨學科的工具。LudwikFinkelstein(2014)[6]指出,在自然科學技術中,測度的重要性不可否認,它是科學調查和發現必不可少的工具,它可將宇宙中的復雜現象用精確、簡潔和普遍的數學語言來描述。
那么,到底什么是統計測度呢?目前沒有一個統一的定義。本文認為,統計測度具有不同于測度的意義,并且大大超越數學上的界定,即它具有數學定義的一般屬性,但又不受制于函數表現形式,因為統計測度所要面對的是現實世界,實際問題要比理論上可以定義的問題復雜得多。按照我們的理解,統計測度就是用一定的符號和數字,用一定的形式和載體,對所研究的現象或事物的特征進行量化反映,表現為可用于統計分析的數據的過程。它應該具有這樣一些屬性:以實際現象為測度對象,測度結果具有實際意義;以量化為目的,把信息轉化為數量,提供人們容易理解的定量結論;個體特征的測度符合形成總體定量結論的要求,同時能夠體現個體差異。可以發現,統計測度需要借用數學工具,但更重要的是對具體測度現象本質特征的認識和掌握。
統計測度可以從若干不同角度進行分類。邱東教授(2012)[7]曾在“宏觀測度的邊界悖律及其意義”一文中,從邊界的角度對宏觀測度進行了分類:一是因事物本身可測度性而形成的邊界,即本體論意義上的測度邊界;再一是由人的認知能力而形成的邊界,即認識論意義上的測度邊界;第三則是由統計相關性偏好和投入約束而形成的邊界,即操作意義上的測度邊界。這三條測度邊界,應該以本體論意義的測度邊界最大,認識論意義的測度邊界次之,而操作意義的測度邊界最小。這樣的分類,對于我們正確理解統計測度的內涵很有幫助。受此啟發,筆者認為統計測度還可以有如下分類:
1.從測度的實現形式看,可以分為原始測度和再測度。原始測度也可以稱為直接測度,它通過對測度對象進行直接測度來獲取數據,例如清點庫存物品數量、丈量作物播種面積、觀察培育細菌數目、檢測藥物成分等獲得的數據,以及各種登記、記錄的原始數據等等。再測度也稱為間接測度,它以其他已知的測度數據為基礎去計算、推算或預測所需的未知數據,例如根據GDP和人口數測度人均GDP、根據人口普查分年齡人口數據測度老齡化系數和社會負擔系數、根據相關指標數據測度CPI的變化等等。復雜的再測度則需要借助相應的統計模型作為工具,因為它實際上是對相關變量之間的關系進行定量反映。從兩者關系上看,原始測度是基礎,是根本,沒有科學的原始測度就不會有可靠的再測度;再測度則是測度功能提升的必然要求,以解決原始測度不能解決的問題。
2.從測度的計量方式看,可以分為自然測度、物理測度、化學測度、時間測度和價值測度。自然測度是利用現象的自然屬性所進行的一種統計測度,例如人口規模、企業數量等的測度,采用自然計量單位;物理測度是利用現象的物理屬性所進行的一種統計測度,例如公路長度、作物播種面積、天然氣產量等的測度,采用物理計量單位;化學測度是利用現象的化學屬性所進行的一種統計測度,例如醫學、生物學中化學合成物的成分結構測度,采用百分數、千分數或特定標識為計量單位;時間測度是利用現象的時間屬性所進行的一種統計測度,例如勞動用工、閑暇時間等測度,采用時間計量單位;價值測度是利用現象的價值屬性所進行的一種統計測度,例如勞動報酬、經濟活動成果等測度,采用貨幣計量單位。在這些測度計量方式中,價值測度因最具有綜合功能而應用最為廣泛。
3.從測度的方法看,可以分為計數測度、測量測度、實驗測度、定義測度和模型測度。計數測度是一種通過觀測計數來獲得數據的方法,最為簡單,一般用于自然測度或時間測度;測量測度是一種根據物理或化學規制對現象進行測量、測算來獲得數據的方法,一般用于物理測度或化學測度;實驗測度是一種按照科學實驗原理、通過觀察實驗對象在既定條件下的反應來獲得數據的方法,一般與測量測度相結合,用于獲取科學研究數據;定義測度也可以稱之為指標測度,是一種通過探究現象的本質特征和活動規律、歸納出表現其數量特征的范疇、給出統計指標定義(包括內容、口徑、計算方法和表現形式等)來獲取數據的方法,最常用于價值測度,也用于其他形式的測度。可以說,定義測度方法應用最為廣泛,但也最為困難。模型測度是一種根據現象與現象之間的內在聯系關系、或者現象自身的發展變化規律,通過建立一定的方程模型來獲取數據的方法。前面三種統計測度方法基本上都屬于直接測度,定義測度既可能是直接測度、也可能是間接測度,而模型測度都屬于間接測度方法。
4.從測度的維度看,可以分為單一測度與多維測度。單一測度是指采用單一的方式方法對所研究現象或事物進行單一角度的測度,獲得單一的數據。多維測度是指對所研究現象或事物進行多角度的測度,測度過程中可能需要采用多種測度方法和計量方式,例如多指標綜合評價就需要借助統計指標體系對評價對象進行多角度的測度。顯然,單一測度是多維測度的基礎。
二、統計測度是統計學的立足之本
首先,從統計學的發展歷史看,是統計測度使統計學破繭而出。為什么主流觀點認為政治算術是統計學的起源而不是國勢學?正是因為威廉·配第首次采用統計測度的方式進行了國家實力的統計分析和有關推算,得出了令人信服的結論。威廉·配第在1693年出版的《政治算術》[8]中寫道“因為和只使用比較級或最高級的詞匯以及單純作思維的論證相反,我卻采用了這樣的方法(作為我很久以來就想建立的政治算術的一個范例),即用數字、重量和尺度的詞匯來表達我自己想說的問題,只進行能訴諸人們的感官的論證和考察在性質上有可見的根據的原因”,這一觀點在統計學的發展過程中產生了非常重要的影響。他的這段話雖然沒有出現測度一詞,但卻道出了測度的本質,即讓事物變得明白、變得有根據,因為“數字、重量和尺度”就是測度、就是根據,用“數字、重量和尺度的詞匯來表達想說的問題”就是一種測度的思想,盡管測度的方式方法還很簡單。相反,國勢學雖然提出了歸納法這一統計學的基本方法并首創了統計學一詞,但由于沒有采用統計測度的方式進行國勢問題的研究而難以修成正果。正如邱東教授[7]所說:“在配第之前,統計學的研究對象雖然是國家的態勢,但它在方法論上只是定性言說。一個國家的財富總量在本體論意義上是可以測度的。然而只是到了配第時期,人類才想到了要測度它,并發明了如何測度的基本方法。政治算術,即開創期的經濟統計學,實現了從無到有的轉變,大大擴展了宏觀測度的認識論邊界,因而才具有了統計學范式創新的革命性意義。”同樣,格朗特的《關于死亡表的自然觀察和政治觀察》也是人口統計測度方面的經典之作,無論是原始測度還是再測度,都給后人留下了寶貴的財富。之后,統計學就是沿著如何更加科學、準確測度世界這一主線而發展的。筆者曾在“從政治算術到大數據分析”一文[9],對數據的變化與統計分析方法的發展進行了粗淺的歸納,其主題實際上就是統計測度問題。
其次,從統計學的研究對象上看,統計測度是體現統計學數量性特征的前提條件。統計學的研究對象是現象的數量方面,或者說統計學是關于如何收集和分析數據的科學。統計數據從何而來?從統計測度中來。數據不同于數字,數字是統計測度的符號,數據是統計測度的結果,這也正是統計學區別于數學之處。所以說,數據的本質問題就是統計測度問題,故此統計測度是統計學的基本問題。這里重點討論兩個問題:一是統計測度與統計指標的關系,二是統計測度面臨的新問題。關于第一個問題,本文認為統計測度與統計指標是一個事物的兩個方面,這個事物就是數據。統計指標法是統計學的基本方法之一,盡管前面對統計測度從方式方法上進行了分類,但從廣義上說所有統計測度都是定義測度,都表現為指標。也就是說,任何統計測度———不論是直接測度還是間接測度,最終目的是獲得能夠讓人明白的數據,而表現數據的最主要形式就是統計指標,其他表現數據的形式都是派生出來的。所以,統計測度就是根據所設定的統計指標去獲得所需的數據。關于第二個問題,與后文所要論及的大數據有關,就是定性測度問題。在統計學中,數據可以分為兩類———定性數據與定量數據,其中定性數據又包括定類數據與定序數據兩種,它們屬于非結構化或半結構化數據。相應地,統計測度也可分為定性測度與定量測度。很顯然,只有定性測度與定量測度方法得到同步發展,統計學才能更加完善。總體上看,定量數據的統計測度已經比較完善,但定性數據的統計測度還有很多問題尚待解決,難點就在于測度的切入點———如何提取有效的信息、如何最終轉化為統計指標。盡管關于定性數據分析的論著已經不少,但還沒有從理論方法上建立起定性數據統計測度的體系,因此統計學在這方面的任務依然很重。
第三,從統計學的永恒主題看,通過科學的數據分析、得出有效的結論是其不變的追求,而數據分析過程就是綜合的統計測度過程。獲得數據的目的是為了發現隱含其中的有價值的信息,即發現數據背后的數據,讓數據再生數據,從而滿足人們認識事物、掌握規律、科學決策的需要。除了總量、結構等基本信息外,更重要的是通過數據分析來呈現現象的變化規律與相互關系。不難發現,這種數據分析的過程,就是不斷進行各種統計測度的過程,所以最終的統計分析結果實際上就是各環節、各方面的各種類型的統計測度的疊加結果,或者說是統計測度不斷放大的過程。大量針對社會經濟現象進行分析研究的文獻(不論是否冠以“測度”兩字),只要有數據分析,都是如此。可以說,統計測度貫穿于統計數據分析的全過程。但是,為什么很多統計數據分析并沒有得出有效的結論呢?本文認為原因就出在統計測度上,尤其是沒有首先解決好原始統計測度問題。應該說,圍繞數據分析已經建立起一整套比較完整的統計方法體系,很多方法也都身經百戰、行之有效,但一旦原始統計測度有問題、數據不準確或不真實,那么任何方法都只是擺設。仔細研讀很多所謂的實證分析文獻,其重點均在于構建什么樣的模型或運用什么樣的方法,雖然有的文獻也必須要討論選擇什么樣的變量(指標)這個問題,但并不是系統地從測度的角度進行闡述,因此所用的模型越來越復雜,但所得的結論卻離實際情況越來越遠。學界總是有這樣一種觀念:變量越多、符號越新奇、模型越復雜的文章才越有水平,似乎這樣分析所得的結論才越可靠。殊不知,不以科學可靠的原始統計測度為基礎,任何數據分析都會成為無源之水、無本之木,所得的結論也只是更精確的錯誤而已。本文認為,任何脫離科學統計測度的統計分析都是毫無意義的,充其量是一種數字游戲而已。應該樹立這樣一種觀念:科學的統計數據分析首先取決于科學的統計測度,而不是首先取決于什么樣的分析模型,雖然模型也很重要。這也再一次證明,統計測度問題是統計學的根本問題。其實,歸根結底看,在統計數據分析過程中,每一步分析都以前一步的測度為原始測度,每一步所用的方法都是統計測度方法,因此所有的統計分析方法都是統計測度方法。甚至可以說,統計學方法體系就是統計測度方法體系。
當然,在實際的統計分析中,統計測度往往遇到一些困難,即有些指標數據由于各種原因無法獲得,這就不得不采用替代這種途徑。例如,綠色GDP核算的概念已經提出很多年,但為什么還沒有哪個國家真正公布綠色GDP數據,原因就是自然資源價值、生態環境價值等的統計測度目前還面臨著很大的困難,其背后存在著一系列有待進一步研究和解決的理論與實踐問題,因此不少學者進行了替代測度的探討。這一方面說明統計測度的重要性,另一方面說明統計測度替代的無奈性。但是,替代測度必須遵守相應的規則與邏輯,要經得起推敲。有的文獻明明知道有關變量無法測度、有關數據無法獲得,卻隨意地、不符合邏輯地進行所謂的替代,結果是最后的結論不知替代成什么樣了,很難理解它的意義。關于替代測度的有效性問題,邱東教授[7]已有精辟的論述,在此不再展開討論。
三、統計測度是數據科學的基礎
籠統地講,數據科學就是以大數據為研究對象的科學,需要多學科交叉融合、共同支撐。由于大數據是快速增長的復雜數據,因此大數據分析僅有統計思維與統計分析方法是不夠的,還需要強大的數據處理能力與計算能力。只有把統計思維、統計方法與計算技術結合起來,才有可能真正挖掘出大數據中的有價值信息。本文認為統計思維、統計方法與計算技術相結合的基礎就是科學的統計測度。
首先,大數據技術不能自行解決其計算和分析應從何處著手的問題。現代信息技術與互聯網、物聯網技術的快速發展,使人類進入大數據時代,也有人說進入到數聯網時代,這意味著我們一方面被各種越來越多、越來越復雜的數據所包圍,另一方面又被數據中巨大的信息價值所吸引,想從中挖掘出可供決策之用的信息。如何挖掘大數據?人們已經進行了艱苦的探索,發展了很多專門的方法技術,并已嘗到了不少甜頭,但遠未達到充分利用大數據中有效信息的目的,因為已有的大數據分析研究主要集中于計算機科學與技術、軟件工程、計算數學等領域,重點是計算能力與算法研究,而很少從統計學的角度進行有針對的探討,還沒有真正進入數據分析的深層。這里面實際上忽略了最基礎的統計測度問題。如果說,計算技術的發展能夠解決數據儲存與計算的能力問題,算法模型的改進能夠解決大數據分析的綜合能力問題,那么它們仍然不能解決對誰進行計算與分析的問題,也即從何處著手的問題。無論是傳統的結構型數據,還是現在的包含大量非結構型數據的大數據,要對它們進行分析都必須找到正確的切入口,即分析的基本元素是什么,或者說需要測度什么。當然,還有如何測度的問題。然后,才能進行分組、綜合和構建模型,否則大數據分析不會達到人們的預期。
其次,大數據之所以催生數據科學,就是為了通過多學科交叉融合來共同解決大數據分析中存在的問題,其中包括統計測度問題,這一點對于非結構化數據尤為突出。實際上,大數據的本質就是非結構化數據,一是體量大、比重高(超過95%),二是變化快、形式多,三是內容雜、不確定。通過各種社交網絡、自媒體、富媒體,以及人機對話和機器感應記錄等產生的各種非結構化數據,例如各種文字、各種表情符號、各種聲音、各種圖像,到底表示什么?綜合在一起能體現什么規律?如何綜合各種信息?存在著大量有待研究的問題。其實,文字的長短、用詞、表達形式(敘述式、議論式、散文式、詩歌式,等)甚至字體大小與顏色,表情類型與偏好,聲音高低、頻率與情緒,圖像顏色等等,都是有特定意義的,即在特定環境條件下的反應。所以,一句話或一段聲音的意義并非文字本身的意思,一個表情符號的意義并非符號表征的意思,一個圖像的意義并非圖像內容與色彩本身的意思,因為背后有太多的未知。人們瀏覽檢索各種信息的習慣、收看與回復郵件等信息的習慣、參與信息網絡的習慣、購物習慣與支付習慣等等,也是如此。更何況,同樣的網絡詞匯在不同的時間代表著不同的語義。這背后隱藏著的是人們的行為與社會關系,既具有個性又具有共性,極其復雜。所以對這樣的數據進行分析,首先絕非是計算問題,也不是用什么模型問題,而首先是從何處著手、如何選取關鍵詞、如何選定關聯詞、可以用什么樣的指標來綜合、可以用什么樣的表式來表現等問題,一句話就是統計測度問題。非結構化數據的統計測度將主要是定義測度,這些問題不解決,分析模型也是難以構建的,或者難以得出令人信服的結論。
例如,關于《紅樓夢》前80回與后40回是否同一作者的爭論,韋博成[10]進行了綜合性的比較研究并提出了自己的觀點,他指出已有美國威斯康辛大學華裔學者陳炳藻教授(1980)[11]、我國華東師范大學陳大康教授(1987年)[12]和復旦大學李賢平教授(1987年)[13]等學者從統計學的角度進行過專門的研究,但卻得出了不同的結論:陳炳藻教授認為前80回與后40回均是曹雪芹所著;陳大康教授認為前80回與后40回為不同人所著;李賢平教授認為前80回是曹雪芹根據《石頭記》增刪而成,后40回是曹雪芹親友搜集整理原稿加工補寫而成。此外,還有其他一些學者進行過類似的研究,也有一些不同的結論。為什么都通過提取關聯詞和統計的方法卻得出不同的結論?原因就在于用以分析的關聯詞不同,即統計測度的切入點不同,當然也有統計方法上的差異,但前者是根本。至少存在幾個統計測度上的問題:提取單一維度的關聯詞還是多維度的關聯詞?提取什么類型的關聯詞(例如:關聯詞是名詞、形容詞還是動詞;是花卉、樹木、飲食、醫藥還是詩詞)?這些關聯詞可以綜合為什么樣的指標?等等。由此可見,原始統計測度代表著數據分析的方向。
相比《紅樓夢》,大數據分析要復雜得多、困難得多。所以,數據科學除了需要數學、統計學、計算機科學與技術、人工智能等學科的交叉融合外,還需要與行為科學、語言學、社會學、經濟學等學科相結合,以便能很好地解決作為數據分析之前提的統計測度問題。
第三,數據科學將進一步拓展統計測度的邊界,并提出更高的要求。伴隨著人類認識世界的范圍的不斷拓展,統計測度的范圍也不斷擴大,從自然現象統計測度到人口現象、經濟現象統計測度,再到社會現象、環境現象、政治現象等統計測度,幾乎已經滲透到了所有可以想象到的領域。相應地,統計數據分析也從少量數據的分析進入到了大數據分析。大數據的復雜性、不確定性和涌現性(王元卓等,2013)[14],意味著統計測度的內容大大增加,原來一些不能測度的數據被納入到了統計測度的范圍,按照邱東教授的說法就是統計測度的邊界大大擴展了。統計測度邊界的擴大,必須以統計測度能力的提升為前提,即要求統計學借助現代信息技術進一步提升處理和分析數據的能力———對大數據“化繁為簡”、“變厚為薄”的能力,這就必須以科學準確的大數據統計測度為前提,既改變統計思維,又創新統計分析方法,其中就包括統計測度思維、統計測度方法與統計測度標準。面對大量繁雜的數據,如果沒有更好的統計測度思路與方法,包括個體標志定義方法、最小數據細胞分組與聚類方法、關聯詞含義的時間影響計量方法、定性測度指標篩選方法、再測度路徑與方法、大數據統計測度評價標準等,那么統計學在數據科學發展過程中就難以發揮應有的作用,數據科學也將裹足不前。這就是統計學邁向數據科學的重要挑戰之一。
綜上所述,統計測度的基礎性問題從統計學延伸到了數據科學,是兩者的共同基礎,并且對于數據科學而言顯得更為重要。大數據的復雜性、不確定性和涌現性導致了統計測度的難度猛增,亟需建立面向大數據分析的統計測度理論與方法。要通過研究大數據的復雜性、不確定性和涌現性特征的基本因素,以及這些因素之間的內在聯系、外在指標和測度方法,進而研究基于先進計算技術的大數據度量模型,構建尋找面向計算的數據內核或者數據邊界的基本方法。總之,建立有效易行的數據表示方法,即科學的統計測度方法,是數據科學必須解決的基礎問題之一。
四、創新與完善大數據統計測度方法
如前所述,統計學研究對象已經從結構化數據延伸到了包括非結構化數據在內的一切數據,統計測度邊界得到了大大的擴展。按照邱東教授[7]曾經引用過的海德格爾的話:“界限并不表示某一事物的發展到此為止,而是像希臘人所認知的那樣,界限是某種事物開始展現的地方”,預示著統計學在數據科學發展階段的新起點已經展現在我們面前。新的統計測度邊界催生統計測度方法的創新,統計測度方法的創新促進統計測度邊界的拓展,兩者相輔相成,共同推動統計學與數據科學的發展。為此,我們要系統梳理統計測度方法的發展歷程,面對大數據提出的新挑戰,大膽探索統計測度的新思路、新理論和新方法,為數據科學奠定堅實的統計學基礎。為此提出如下幾點建議:
首先,要緊密結合現象的本質去探求更科學的統計測度方法。本質決定一切,既然統計測度的目的是獲得客觀反映現象本質的數據,那么深入到現象本質、認識和掌握現象的本質,是科學統計測度的關鍵,也是探求新的統計方法的出發點。換句話說,科學的統計測度方法能夠體現出數據的真正意義。例如,要探求社交網絡數據的統計分析和測度方法,就必須了解社交網絡的產生背景、構成要素、表現形式與基本特征,既要研究它的共性問題,又要研究它的個性問題與差異性,同時還要研究它的變化趨勢。只有這樣,才能掌握社交網絡數據的構成要件或元素,才能建立起科學的、能有效體現社交網絡數據意義的統計測度方法。再如,要分析研究電子商務數據,也必須先弄清楚什么是電子商務,尤其是弄清楚它與傳統的商業模式有什么不同(包括物流、資金流與信息流)、有哪些新生事物(包括時空特征、法律監管)等等,否則統計測度無從下手或者抓不住要害。同時,作為一個新的研究領域,數據科學的理論基礎將與計算機科學、統計學、人工智能、數學、社會科學等有關,離不開對相關學科領域知識與研究方法的借鑒,因此對相關領域的知識與研究方法的學習十分重要。否則,就會嚴重扭曲統計測度方法,胡亂設置測度標志,這需要引起高度關注。
其次,要緊密結合大數據的特點去創新統計測度方法。大數據的特點是復雜性、不確定性和涌現性并存,構成了多維的數據空間,里面蘊藏著豐富的信息資源,這是傳統的統計數據不可比擬的。那么該從何處進入這樣的數據空間?怎么進去?又怎么出來?這歸根結底還是統計測度方法問題。因此,在開展大數據分析之前,首先要研究大數據的基礎性問題,包括大數據的內在機理(包括大數據的演化與傳播機制、生命周期),數據科學與社會學、經濟學、行為科學等之間的互動機制,以及大數據的結構與效能的規律性等等,為創新統計測度方法提供導向。本文認為,再復雜的數據也有共性,再不確定的數據也有規律,再涌現的數據也有軌跡。網絡大數據背后的網絡平均路徑長度、度分布、聚集系數、核數、介數等具有共性的特征與參數,是開展復雜網絡數據分析的基礎(李國杰、程學旗,2012)[15];大數據在時空維度上的分布形式、內在結構、動態變化和相關聯的規律,是找到大數據分析切入口、進而簡化大數據表征的前提;大數據的涌現性軌跡(包括模式涌現性、行為涌現性和智慧涌現性),是研究更多的社會網絡模型和理解網絡瓦解失效原因,理解人們網絡行為涌現特征(例如人們發郵件數量的時間分布特征),以及探求大量自發個體語義融合連接形成有特定意義的通用語義之過程的路徑(靳小龍等,2013)[16]。也就是說,這些共性、規律和軌跡就是統計測度的主要依據,也是重點內容。發展和創新能夠準確發現大數據的共性、規律和軌跡的定量方法,其實就是發展和創新大數據統計測度方法。
第三,要緊密結合現代信息技術以完善統計測度方法。復雜、多變和不斷涌現的大數據,不僅需要借助現代信息技術(包括硬件與軟件)來解決極其復雜的分析計算問題,也需要利用現代信息技術來解決其繁雜多樣的統計測度問題。對于大數據,不論是原始統計測度還是再測度,其復雜性或難度都不是傳統的結構化數據所能相提并論的,哪怕是基本的關聯詞計數、分類與匯總,其工作量之大也超乎想象,不借用現代信息技術幾乎是不可能完成的。而事實上,有些統計測度的內容與方法本身也是以數據處理能力的提升為前提的。可以說,脫離現代信息技術,人們難以承受大數據的統計測度與分析任務;要把統計測度思想變為可實現的統計測度方法,必須借助現代信息技術。為此,要充分利用各種信息技術和手段,把統計測度與數據清洗相結合、與數據分析模型相結合、與計算方法相結合,努力建立融自動搜索統計測度、動態演化統計測度和自主優選統計測度為一體的大數據統計測度方法體系。
【關鍵詞】統計學;統計思想;認識
1關于統計學
統計學是一門實質性的社會科學,既研究社會生活的客觀規律,也研究統計方法。統計學是繼承和發展基礎統計的理論成果,堅持統計學的社會科學性質,使統計理論研究更接近統計工作實際,在國家和社會得到廣泛發展。
2 統計學中的幾種統計思想
2.1 統計思想的形成
統計思想不是天然形成的,需要經歷統計觀念、統計意識、統計理念等階段。統計思想是根據人類社會需求的變化而開展各種統計實踐、統計理論研究與概括,才能逐步形成系統的統計思想。
2.2 比較常用的幾種統計思想
所謂統計思想,就是統計實際工作、統計學理論及應用研究中必須遵循的基本理念和指導思想。統計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想。現分述如下:
2.2.1 均值思想
均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統計學理論,是統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。
2.2.2 變異思想
統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
2.2.3 估計思想
估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。
2.2.4 相關思想
事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。
2.2.5 擬合思想
擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模式和基于此而預示的可能性”。
2.2.6 檢驗思想
統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。
2.3 統計思想的特點
作為一門應用統計學,它從數理統計學派汲取新的營養,并且越來越廣泛的應用數學方法,聯系也越來越密切,但在統計思想的體現上與通用學派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現出:(1)統計思想強調方法性與應用性的統一;(2)統計思想強調科學性與藝術性的統一;(3)統計思想強調客觀性與主觀性的統一;(4)統計思想強調定性分析與定量分析的統一。
3 對統計思想的一些思考
3.1 要更正當前存在的一些不正確的思想認識
英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜越科學,在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產。
3.2要不斷拓展統計思維方式
統計學是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數據信息(尤其是不完全甚至劣質的信息)去產生新的知識或去驗證一個假設,即以所掌握的數據信息為依據,歸納得出具有一般特征的結論。歸納推理是要在數據信息的基礎上透過偶然性去發現必然性。演繹推理是對統計認識能力的深化,尤其是在根據必然性去研究和認識偶然性方面,具有很大的作用。
3.3深化對數據分析的認識
任何統計研究都離不開數據分析。因為這是得到統計研究結論的必要環節。雖然統計分析的形式隨時代的推移而變化著,但是“從數據中提取一切信息”或者“歸納和揭示”作為統計分析的目的卻一直沒有改變。對統計數據分析的原因有以下三個方面:一是基于同樣的數據會得出不同、甚至相反的分析結論;二是我們所面對的分析數據有時是缺損的或存在不真實性;三是我們所面對的分析數據有時則又是海量的,讓人無從下手。雖然統計數據分析已經經歷了描述性數據分析(DDA)、推斷性數據分析(IDA)和探索性數據分析(EDA)等階段,分析的方法技術已經有了質的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數據分析的認識,圍繞“準確解答特定問題并且從數據中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續開展數據分析方法技術的研究。
參考文獻:
[1] 陳福貴.統計思想雛議[J]北京統計, 2004,(05) .
[2] 龐有貴.統計工作及統計思想[J]科技情報開發與經濟, 2004,(03) .
[3] 范文正.幾種基本統計思想的現實意義[J]統計與決策, 2007,(08) .
【關鍵詞】統計學;統計思想;認識
1關于統計學
統計學是一門實質性的社會科學,既研究社會生活的客觀規律,也研究統計方法。統計學是繼承和發展基礎統計的理論成果,堅持統計學的社會科學性質,使統計理論研究更接近統計工作實際,在國家和社會得到廣泛發展。
2 統計學中的幾種統計思想
2.1 統計思想的形成
統計思想不是天然形成的,需要經歷統計觀念、統計意識、統計理念等階段。統計思想是根據人類社會需求的變化而開展各種統計實踐、統計理論研究與概括,才能逐步形成系統的統計思想。
2.2 比較常用的幾種統計思想
所謂統計思想,就是統計實際工作、統計學理論及應用研究中必須遵循的基本理念和指導思想。統計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想。現分述如下:
2.2.1 均值思想
均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統計學理論,是統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。
2.2.2 變異思想
統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
2.2.3 估計思想
估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。
2.2.4 相關思想
事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。
2.2.5 擬合思想
擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模式和基于此而預示的可能性”。
2.2.6 檢驗思想
統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。
2.3 統計思想的特點
作為一門應用統計學,它從數理統計學派汲取新的營養,并且越來越廣泛的應用數學方法,聯系也越來越密切,但在統計思想的體現上與通用學派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現出:(1)統計思想強調方法性與應用性的統一;(2)統計思想強調科學性與藝術性的統一;(3)統計思想強調客觀性與主觀性的統一;(4)統計思想強調定性分析與定量分析的統一。
3 對統計思想的一些思考
3.1 要更正當前存在的一些不正確的思想認識
英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜越科學,在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如gnp、人口增長率等等,均是凱特勒及其弟子們的遺產。
3.2要不斷拓展統計思維方式
統計學是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數據信息(尤其是不完全甚至劣質的信息)去產生新的知識或去驗證一個假設,即以所掌握的數據信息為依據,歸納得出具有一般特征的結論。歸納推理是要在數據信息的基礎上透過偶然性去發現必然性。演繹推理是對統計認識能力的深化,尤其是在根據必然性去研究和認識偶然性方面,具有很大的作用。
3.3深化對數據分析的認識
任何統計研究都離不開數據分析。因為這是得到統計研究結論的必要環節。雖然統計分析的形式隨時代的推移而變化著,但是“從數據中提取一切信息”或者“歸納和揭示”作為統計分析的目的卻一直沒有改變。對統計數據分析的原因有以下三個方面:一是基于同樣的數據會得出不同、甚至相反的分析結論;二是我們所面對的分析數據有時是缺損的或存在不真實性;三是我們所面對的分析數據有時則又是海量的,讓人無從下手。雖然統計數據分析已經經歷了描述性數據分析(dda)、推斷性數據分析(ida)和探索性數據分析(eda)等階段,分析的方法技術已經有了質的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數據分析的認識,圍繞“準確解答特定問題并且從數據中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續開展數據分析方法技術的研究。
參考文獻:
[1] 陳福貴.統計思想雛議[j]北京統計, 2004,(05) .
[2] 龐有貴.統計工作及統計思想[j]科技情報開發與經濟, 2004,(03) .
關鍵詞:統計學;教育改革;大數據
一、引言
最早提出大數據時代到來的機構是全球知名的麥肯錫咨詢公司,該公司在一份研究報告中指出:“數據已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素,人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來”。
大數據是隨著互聯網技術的廣泛應用帶來的數據量和數據類型激增而衍生出來的一種現象,但大數據一詞不僅指規模大、種類多的數據集,還包括對這種數據集進行采集、處理與分析以提取有價值信息和直接創造價值的技術構架和技術過程。大數據的第一個特征是數據量巨大。截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。第二個特征是數據類型繁多、異構性突出,包括網絡日志、音頻、視頻、圖片、地理位置信息等等。第三個特征是數據價值密度較低,數據中存在大量重復性和無價值性信息或噪聲。如何通過強大的計算技術和統計分析等方法迅速完成數據的價值提純,是大數據時代亟待解決的難題。第四個特征是處理速度快、時效性要求高。這是大數據區分于傳統數據挖掘最顯著的特征。
目前,不同的學科領域對大數據概念有著不盡相同的解釋,但各種解釋中大致可以從兩個方面去理解。首先,大數據概念體現在數據量的巨大、種類的眾多及產生速度的飛快,同時產生的數據集極有可能包含著各種半結構化和非結構化數據;其次,大數據概念還體現在對數據進行處理的手段和流程方面,由于數據量的龐大和類型復雜,利用常規的統計軟件已經無法對當今的數據進行及時有效的存儲、分析及處理。因此,所謂的大數據并不是單純指數據流量的巨大,還指其結構的復雜和種類的多樣,在數據處理和分析上需要采用高端計算平臺或高級統計軟件,以及海量數據中存在著可挖掘的潛在的大量價值信息與知識。
近年來,隨著高速計算機的應用、信息技術的快速發展,特別是云計算技術的發展,使大數據的存儲和分析技術得到迅速發展,目前的核心技術有MapReduce、GFS、BigTable、Hadoop,以及數據可視化等。在數據搜集上,可方便地通過在線互聯網數據庫獲取二手數據或一手實時數據。在數據分析上,傳統統計學方法采取的是基于統計模型的樣本數據分析,而大數據分析技術則是通過高端計算平臺,對大數據中的信息進行挖掘。
統計學作為對數據進行處理和分析的科學,必然受到大數據的影響。在大數據時代,統計學教育必須與時俱進,跟上時展步伐。近年來,有不少文獻討論了大數據環境下我國統計學教育的改革問題(例如[1]-[5]),本文在分析大數據時代特征的前提下,進一步討論我國統計學教育的現狀與挑戰、統計學教育改革的內容、方法、借鑒和適應時代要求的變革問題。
二、統計學教育的現狀與挑戰
2013年,教育部對我國統計學專業設置進行一次新的調整,將原來的既可授予理學學位,也可授予經濟學學位的統計學專業劃分為統計學、應用統計學和經濟統計學三個本科專業[6]。根據教育部高等學校統計類專業教學指導委員會2013年11月公布的數據,當時全國有194所高校開設了統計學專業,156所高校開設了應用統計學專業,164所高校開設了經濟統計學專業[6]。目前,全國開設這三個統計學專業的高校個數和在校學生人數與2013年相比都有不少的增加。
面對大數據時代,我們目前的統計學教育無論在培養目標和教學內容上,還是在教育方式和人才培養模式上,都存在著亟待解決的挑戰性問題。例如,在專業培養目標和人才培養過程中,我們比較重視課程層面上的評價,比較輕視專業層面上的整體評價,缺乏對學生綜合能力的反饋機制。
關于教學內容,目前三個統計學專業在統計理論和應用統計兩個方面有不同的側重。統計理論主要包括:抽樣理論、實驗設計、估汁理論、假設險驗、決策理論、貝葉斯統計、半參數和非參數統計、序貫分析、多元統計分析、時間序列分析、小樣本理論和大樣本理論等。在數據分析中,現今的統計方法基本以結構化數據為主要處理對象,而對非結構化和半結構化數據的分析和工具涉及較少。因此,現今統計學課程及內容已不能滿足從事非結構型和半結構型的大數據研究和商業應用對人才培養的需要,必須進行必要的改革。
對于教育方式,鑒于大數據時代要求,統計分析人員需要具備較高的數學和現代統計學基礎,具有較高的軟件操作能力,掌握一定的大數據收集、整理、分析、處理和挖掘數據的技能。日本學者城田真琴認為:“數據科學家要有計算機科學專業背景,數學、統計方面的素養和使用數據挖掘軟件的技能,善于利用數據可視化的手法展現晦澀難懂的信息,而且具備相應的專業知識、眼界和視野,具有適應社會發展和創造價值的能力”。現今的統計學教育方式還不能很好適應大數據時代數據科學人才培養需要,必須進行必要及時的調整和變革。
對人才培養模式,大數據時代不僅要求培養具有數據處理和分析所需的基本素質與技能,更重視培養從海量數據中發現和挖掘價值信息、把握市場機遇、創造利潤的潛在能力。面對大數據時代的諸多挑戰,現代統計技術、數據挖掘方法、計算機信息技術、軟件工具和理念的日新月異,培養統計人才的教育模式也需要相應變化,統計學教育只有與時俱進,主動做出全面的調整和變革才能適應新時代知識進步和激烈人才市場競爭的需要,積極迎接大數據時代的挑戰。
大數據時代對統計學教師有更高的要求,統計學教師需要與時俱進,跟上時代步伐。隨著互聯網、物聯網、云計算等信息技術的發展,對數據的分析和處理的技術也隨之要求更高,統計學教師固有的知識體系已不能滿足培養現代統計人才的需要,必須進一步深化和更新原有的統計學理論知識,而且還需要學習掌握計算機技術、互聯網、數據庫和信息科學等有關知識和技術,同時還要熟悉處理非結構型和半結構型數據的知識和技能,以適應現代統計學教育對教師的知識結構和基本素質的要求。
大數據時代對統計專業的學生也提出了更高的要求,他們不僅需要掌握現代統計理論、統計方法和專業統計軟件,還要學會如何分析、處理來自互聯網或各種實際問題中的海量數據,如何利用統計軟件和互聯網技術進行數據操作,如何借助軟件技術和統計準則判斷數據質量,如何進行模型選擇和評價模型方法的有效性,如何準確清晰地呈現統計分析結果和結論,等等。
2014年11月,美國統計學會了統計學本科專業指導性教學綱要 [7],該教學綱要對統計學專業提出四個方面的要求:(1)具有扎實的數學和統計學基礎、強大的統計計算和編程能力,熟練使用統計軟件和數據庫;(2)分析來自現實問題的真實數據,真實數據是統計專業教育的重要組成部分;(3)掌握多樣化的統計模型方法;(4)具有通過語言、圖表和動畫等方式解釋數據分析結果的能力。美國是統計學教育和人才培養最先進的國家之一,該指導性教學綱要代表著美國統計學專業培養人才的基本要求和發展方向,對我國統計教育的改革具有重要的參考價值。以該指導性教學綱要為參考依據,對照我國目前的統計學本科專業教育,無論是在培養目標和課程設置方面,還是在教學內容和教學方法方面,都存在著亟待解決的挑戰性問題。
三、統計學教育的改革
大數據時代的統計學教育不僅是各種統計方法、數據挖掘方法和信息技術手段的延續或發展,更主要的是這些方法的集成應用和在實際數據分析中的真實體驗。過去,企業數據庫價格昂貴,在統計學教育的教學案例或實驗課教學中,很少采用真實和海量的數據庫資源,基本都是采用過時或虛擬的數據。今天,像百度大數據引擎這樣的數據庫的逐步對外開放,將有助于開展“線上大數據統計實驗”教學。為了適應大數據時代要求,有必要利用網絡資源以及各種數據處理軟件,搭建線上大數據分析實驗教學平臺,全面開展大數據統計實驗教學的改革。實際上,借助大數據分析平臺,本科階段的統計學教育就可以融人聯機分析和數據的可視化教學。其次,要時刻關注大數據分析理論的進展,及時將新理論新方法融入課堂教學內容。
需要指出的是,在大數據時代,經典統計理論和方法并沒有過時,但需要進行改進和進一步發展。這是因為,網上采集的巨型數據集往往存在大量的重復性和無價值數據信息,使得大數據價值密度降低。在對這些數據進行分析處理之前往往需要通過去噪、分層、截斷、聚類等方法的預處理,將其變成便于進行分析處理的小數據,繼而借助于經典統計方法進行分析和處理。因而在大數據時代仍然需要采用傳統統計學的小樣本理論和方法。所以,即便是在大數據時代,經典統計方法仍然是進行統計分析的基石,其核心地位不可動搖。所以,在大數據時代仍然要強化統計學的基本理論和方法,尤其是在長期發展和實踐應用中經過驗證的、成熟有效的經典和現代統計方法,在大數據時代仍然沒有過時,但需要結合大數據分析的需要對經典統計方法進行必要的發展和改進。
大數據科學需要統計學與數學、計算機等學科的結合。亞馬遜大數據科學家John Rauser 認為:“數據科學家是統計學家和計算機工程師的結合體”。為了滿足大數據時代的要求,統計學專業的課程設置需要進行必要的調整。應根據新時代人才培養的要求,增設與大數據前沿領域發展相關的課程,如計算機網絡和大數據相關的軟件應用,同時要加大實驗課和社會實踐課的比重,引導學生理解和掌握大數據概念、理論、技術和方法,培養其運用大數據的相關分析工具解決實際問題的能力。對于理論課程,除基本統計理論外,還應開設一些較為現代和深入的課程,如現代貝葉斯方法、神經網絡、數據挖掘、應用隨機過程論等。另外,還應開設與大數據分析相關的關聯規則、決策樹、機器學習、支持向量機等課程。
為了培養與時代適應的統計學人才,統計學專業教師應不斷更新自身的知識結構和價值觀念,改變認識數據、收集數據和分析數據的思維,主動學習和補充互聯網、現代數據分析技術、數據庫和數據挖掘技術,使自己的知識體系不斷更新和提升,跟上時展的步伐。
在大數據時代,要注意培養學生適應社會的能力。統計專業人才培養模式應以提高本專業學生數據分析方面的能力,開闊他們的視野,培養其適應社會的能力。應積極引導學生進入實訓場所動手操作和鍛煉,嘗試以企事業單位的財政、金融、保險、統計、咨詢和信息公司等部門為主構建專業性教育實踐基地。鼓勵學生到大數據相關的機構部門、產業園區和企業中去調查研究和實踐。此外,統計專業應積極同其他專業進行合作,聯合培養適應新時代要求的數據分析人才。鑒于大數據對數據分析人員在計算機技術、行業認知、業務知識、數據分析工具和方法的要求提高,統計學科應主動與計算機、經濟學、管理學等相關學科合作,培養學生的計算機能力、專業素質和業務修養。
“它山之石可以攻玉”,關于統計學專業的課程設置,可以參考和借鑒美國統計學會公布的統計學本科專業指導性教學綱要。根據該教學綱要,統計專業的課程設置應該涵蓋五個模塊[7]:(1)統計方法與統計理論。建立統計模型并對模型的輸出結果進行評價,熟悉統計推斷,能夠從數據分析中得出恰當的結論。(2)數據操作和統計計算。熟練使用一款專業統計軟件進行探索性數據分析,發現和清洗數據中的錯誤記錄,具有編程能力和算法思維,可以進行各種數據操作,還應掌握統計計算技術,能夠進行模擬研究。(3)數學基礎。熟練掌握微積分、線性代數、矩陣論、概率論和數理統計的基礎知識。(4)實踐訓練和表達能力。具有良好的表達和交流能力,善于通過圖示和動畫等聽眾易于理解的方式展示分析結論,并且具有團隊合作精神和項目領導能力。(5)特定領域的知識。掌握特定應用領域的知識,并用統計學特有的思維方法來分析和解決特定領域的實際問題。
大數據時代是以數據為中心的時代,統計學專業的教育改革必須適應這個時代的要求。統計數據分析中軟件應用能力至關重要。在眾多統計軟件中推薦使用R和SAS軟件,因為R是免費開源軟件,其統計建模、統計計算和可視化功能強大,更新迅速,是最新統計方法的主要平臺,非常有利于培養學生的編程能力和知識更新能力,而SAS軟件被很多公司用于數據管理和數據分析,在實際應用領域具有長期而深遠的影響,是數據分析不可或缺的專業統計軟件。當然,教學中也可以嘗試使用其他專業統計軟件,例如經濟統計專業學生也可使用SPSS軟件,但最好會使用SAS或R軟件。在加強軟件使用和編程能力的基礎上,應加強學生統計計算和統計模擬能力的培養。在大數據時代,強調統計計算的重要性是大勢所趨。統計模擬技術是伴隨著高速計算機和信息技術的快速發展而廣泛應用的現代技術,可用來解決傳統學科領域中無法解決的問題。例如,在計算技術飛速發展的今天,貝葉斯統計方法過去曾經面臨的計算瓶頸正在逐漸消失,基于馬爾科夫鏈蒙特卡洛(MCMC)技術的統計模擬方法在數據分析中的強大威力正在日益顯現[8]。
參考文獻:
[1] 劉春杰,大數據時代對當代統計學教育的挑戰,統計與決策,2015年,第8期。
[2] 孟生旺,袁衛,大數據時代的統計教育,統計研究,2015年,第32卷4期。
[3] 葛虹,韓偉,大數據時代統計教育變革的SWOT分析與發展策略,統計與決策,2015年,第4期。
[4] 張海波,黃世祥,統計學專業學生大數據分析能力的培養方式選擇,統計與決策,2014年,第24期。
[5] 李衛東,大數據對統計學科發展的影響,統計與決策,2014年,第13.期。
[6] 教育部高等學校統計類專業教學指導委員會.統計學專業教學單位.http:///category/信息公開/教學單位,2013-11-15.
【關鍵詞】數據分析;實踐;統計
中圖分類號:G635.5 文獻標識碼:A 文章編號:1671-0568(2015)36-0122-01
我國相關教學制度規定,在數學教學中,必須重視對學生空間觀念、數據分析觀念及推理觀念等的培養。數據能夠幫助學生正確判斷學習及生活中的相關問題,從而做出正確抉擇,數據現已充斥著整個社會,因此,現代公民必須重視對數據分析、數據收集及數據整理等能力及觀念的培養,從而提升自身決策的合理性與準確性,實現數據的有效傳輸與表達。
一、數據分析觀念內涵
數據分析觀念主要是指現實生活中人們在解決相應的問題時,需要對與問題相關的數據等進行調查研究,同時,通過對相關數據的分析理解其中的內涵,找到解決問題的方法。在數據分析過程中,同樣的數據有多種數據分析方法,這就需要相關人員根據相關問題的具體要求選擇合理的分析方法。數據分析是統計的核心要素,因此,數據分析內的相關要素及相關內涵主要包含以下幾個方面:
1. 具有數據相關意識
數據的應用充斥著人們的現實生活與學習,要合理、準確地解決現實問題需要有數據意識。在解決問題之前,需要對信息及數據進行收集,同時,學生根據數據提煉內部的相關信息及有效數據,幫助學生高效解決相關問題。
2. 選擇合理的數據搜集與分析方法
分析與整理相同數據具有多種分析方法,這就需要學生對相關問題進行分析從而選擇最合理的方法。例如,在對數據統計中的統計圖表進行繪制時,往往具有多種圖表表現形式,但是學生在進行相關統計圖表選擇時會選用最佳的統計圖表,如在對相關數據中的數量關系進行統計時,則可選用條形統計圖,若表現各數據在整體數據中所占比例時,則可選用扇形統計圖。
3. 通過數據分析體驗隨機特征
數據的隨機性主要是指在解決同一問題時,其收集到的數據可能存在差異性,另一方面是指足夠的數據中具有相關規律。例如,探究數學學習中關于學習知識點需要用多長時間時,就可以對數據進行統計。在統計過程中,會發現每天的知識點、學習時間具有差異性,但在多次試驗之后便可發現其中的相關規律。數據雖然具有隨機性,但在多次試驗驗證后其數據又具有相對穩定性。
二、在統計教學中培養學生數據分析觀念的途徑分析
1. 引導學生基于現實參與數據收集及分析活動
在統計學教學中,教師可以積極引導學生參與數據收集及分析活動,促進學生數據分析意識及分析觀念的形成。學生數據分析觀念的養成首先需要數據分析意識的養成,學生在遇到困難時,可產生利用數據解決問題的意識,因此,教師在具體教學中可依照實際生活設計具有現實意義的數學實際情境,這樣可以最大限度地激發學生完全投入到統計活動中,使學生通過實際情景對數據進行收集、整理、分析并做出解決問題的最終決策,通過在活動中的實際體會逐步促進自身數據分析觀念與分析思維模式的養成與提升。
2. 重視情感作用,激發學生的求知欲望
在統計教學中,學生良好的學習情緒以及強烈的求知欲對其學習進步以及智力開發具有非常重要的影響,在數據分析觀念的培養過程中,重視對學生情感的教育與引導可使學生盡快進入學習狀態,營造輕松、和諧的教學氛圍,將學生帶入教學情境中,不僅有利于教學工作的開展與教學任務的實現,同時還有利于良好師生關系的形成。
在“統計”課程教學之前,教師在課堂中可以進行情境創設。例如,周末組織班級學生外出郊游,要求學生思考郊游的地點及郊游活動應怎樣選擇。此時,學生因聽到有關游玩的話題比較興奮,便積極地展開討論,教師再對學生進行統計課程帶入教學,這樣,不僅使得課堂變得生動、活躍,使學生的積極性增強,為課程的展開創造了良好的環境,使教學內容更易開展。
3. 引導學生掌握數據收集、整理及分析等方法
在數學統計學教學中,常用的數據收集方法一般為直接獲取數據的方法,包括實驗、調查,等等,同時也包括資料翻閱等間接獲取方法。收集數據工作結束之后,需要對看似雜亂的數據進行整理、分類,在對數據進行描述時,常用的方式主要有計數、統計圖等,因此,需要學生認識條形統計圖、扇形統計圖及折線統計圖等統計方法,并運用以上方法對數據進行有效分類,同時還可運用自身語言知識解釋其含義,分析數據主要是指對數據進行簡繁分析并達到交流作用。數據分析過程是復雜的思維分析過程,在問題解決的過程中,教師應引導學生根據問題的具體情況選擇合理的分析方式,從而使學生在學習中不斷完善自身的想法并實現對數據分析方法的有效掌握。
例如,對班級學生身高進行分析與相關問題探討:某小學某班級中學生的身高在134~160cm之間,學生根據班級身高記錄單對班級中學生的身高進行分析統計,從而得出學生中最低身高為134cm,最高身高為160cm,若要選擇參與跳高的運動員時,學生可以通過數據進行探討,并對學生的身高按照從高到低的順序進行排列后選出多名身高最高的學生,之后再對整理數據的作用進行相應分析。
4. 引導學生重視數據隨機性,使學生全面認識數據
教師在對學生進行數據分析觀念的培養中,需要選擇適當的問題對學生進行數據隨機性體驗。例如,在對學校校門口一天之內各個時段的人流量統計活動中,教師可引導學生選用合適的方式進行人流量的統計與記錄,同時在開展該活動中,學生還應考慮數據的有效性及數據所需時間,等等,引導學生在所監測的不同數據中找尋相應規律,最終順利解決問題。
在數學統計教學中,學生數據分析觀念的培養,是統計學與概率學教學的開展基礎,同時也是數學問題解決的有效觀念之一。在對學生進行數據分析觀念的培養中,教師應重視對學生具體實踐教學的開展及數據統計方法的教授,使學生選用最合理的數據整理、分析等方法,從而促使學生數據分析統計思維的養成,實現數學教學的最終目標。
參考文獻:
[1] 范明明.中小學生數據分析能力的培養研究[D].武漢:華中師范大學,2014.
一、大數據及其意義
大部分傳統的統計方法只適合分析單個計算機存儲的數據。而目前大數據的環境包括以下要素。1.流數據:數據快速地不斷涌來,現有存儲設備和計算能力難以應付這種數據流(比如歐洲高能粒子對撞機所產生的數據,每秒鐘可以達到500TB)。2.磁盤存儲限制:數據已不能完全存儲在內存中,需要硬盤存儲。3.分布存儲狀態:數據分布存儲在多個計算機中。4.多線條狀態:數據存儲在一個計算機中,多個處理器共享內存。大數據的發展就是對數據產生的機制進行探索,將所產生的數據轉變為人們所需要的知識,進而對相關政策的制定產生影響。這個過程是一個漫長的過程。一個小孩子隨著年齡的增長可能會掌握更多的單詞,但是根據一個孩子的年齡確定他掌握的單詞多少則并不科學。進一步來說,大數據有記錄保存自然與社會現狀的功能。現在大家收集著海量數據,盡管他們還不清楚如何分析大量的數據,但是他們相信需要保存現今社會經濟高速發展的過程,期待著今后能夠分析和解釋這段歷史。還有些人將百歲老人的血液和其他各種生物的標本等存放在冰箱里,他們認為當今的技術還不足以測試和分析這些資源,期待今后更先進的測試技術能夠做到。大數據就如同自然和社會的血液那樣記錄著社會的現狀和發展過程。17世紀望遠鏡以及顯微鏡的發明使人類看到了以前從來沒有看到過的宇宙空間和微生物,擴大了人類對自然的基本認識。大數據就像“望眼鏡”和“顯微鏡”那樣,使得人們能夠通過數據來觀察和分析自然、經濟、社會的現象。借助于互聯網數據,可以及時了解疾病的疫情、科學的動態、社會的動態。谷歌借助頻繁檢索的詞條能及時判斷流感從哪傳播,哪些人可能已經感染了流感。大數據將形成自然和人文社會的歷史長河,不但能用于探索當代的科學問題,將來也可以用于研究人們食用轉基因食品對子孫后代的影響等追蹤研究問題,為未來留下當前的歷史資料。
二、大數據帶來的變革
時代的進步有賴于大數據的發展,大數據的發展給時代變革增加了更多的不確定性。就當前研究來看,數據的搜集很大程度上依靠所研究問題的出現來推動其向前發展。不過在不久的將來,隨著大數據時代的到來,人們對于問題的研究將會由“數據”來驅動。例如,如果我們想去某地旅行或出差,會首先查詢目的地的交通情況、天氣情況以及住宿情況等信息,但是將來我們可以根據所查詢的數據信息來決定所要去的目的地。在古希臘時代,當時的哲學家無所不知,號稱百科全書,到了文藝復興時代,隨著學科的不斷細化,不同學科出現了各自的專家。隨著大數據時代的到來,大百科全書式的人物將有可能再次出現,而不同領域的專家的權威性將被逐步消弱,隨著大數據的不斷發展,很有可能會逐漸將學科專家消亡掉。例如,隨著計算機專家和統計學家對數據的搜集越來越多并且處理能力不斷增強,他們將逐步成為生命科學方面的專家。再比如,如果我們掌握了足夠數量的相關專業書籍和日文譯本,就算我們對日文一無所知,我們也可以采取有效的方法將所需要的中文翻譯成為日文,因為我們有很多非常可靠的翻譯軟件,如谷歌翻譯軟件等。大數據已經在各個領域和學科得到了應用,例如醫療領域,大數據可以指導人們健康飲食,適時進行身體檢查,并且確定檢查項目,幫助醫生對患者進行疾病診斷等。
三、大數據時代統計學專業教學現狀
隨著科技的不斷發展和進步,人們獲取信息和數據的途徑也發生了很大的變化,電子商務的發展和各種多媒體信息技術的飛速發展和應用,給傳統的統計學應用和教學帶來了機遇的同時也帶來了非常大的挑戰。一方面,由于各種信息和數據的不斷涌入,人們在被動搜集著各種數據。統計學的教學也需要不斷探索新的模式。另一方面,人們在被動接受數據的同時也在主動搜集數據信息,不同學科有不同的數據需要。例如經濟學領域的專家每天都在搜集各自的調查數據和觀察數據,而自然科學領域的專家學者則不僅搜集宏觀天文數據,還在搜集微觀基因數據。不同的人們搜集數據的方法也各不相同,有的在實驗室通過試驗進行數據搜集,有的人則通過網絡進行數據搜集和研究。對于當前大數據給統計學帶來的挑戰,美國科學院“大數據分析委員會”給出了分析,他們認為這些挑戰在于對不同格式和結構的數據的處理方面、對于數據來源的追蹤方面、對于共享數據的安全性問題和完整性問題方面、對于樣本異質性和偏倚性處理方面、在對問題進行處理時的決策和分析方面以及對分布式和并行式在開發時的算法方面的問題等。國內相關部門也對這一問題進行了研討,最早一次是2012年5月在香山召開的“大數據科學與工程”會議,第二次是在2013年5月召開的對于大數據原理以及發展前景的探討會,并同時制定了相關的科研計劃。但關于大數據背景下統計學專業教學的探索還非常稀缺。
四、統計學專業課程改革
針對以上所述大數據時代的特點和變革意義以及目前統計學專業教學的現狀,本文進行了相應的初步探索。
(一)改革的總體思路
將現有的統計學頂級雜志或著名文獻中的成熟的大數據分析方法逐步凝練,形成教學內容;將使用R軟件中的函數包實現這些大數據分析方法。
(二)改革的具體內容
1.在《數據挖掘原理與方法》課程中引入大數據分析方法及其R語言的代碼實現。2.在《非參數統計》課程中引入多元非參數統計方法(諸如多元符號、多元秩、多元符號秩等)、非參數回歸模型、半參數回歸模型及其R語言的代碼實現。3.在《回歸分析》課程中引入回歸樹、boosting回歸、bagging回歸、隨機森林回歸等用來處理大數據的回歸方法、高維回歸變量選擇方法(比如LASSO回歸、動態LASSO回歸等)及其R語言的代碼實現。4.在《多元統計分析》課程中引入高維統計分析方法及其R語言的代碼實現。5.在工科《概率論與數理統計》課程中引入R語言的代碼實現。
(三)改革的主要創新點