時間:2023-08-10 16:50:42
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了七篇數據分析論文范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
數據挖掘是在數據庫中進行知識發現的重要方法,是從大量的表面數據中提取隱藏在其中的知識的過程。近年來,該技術發展迅速,已應用到各個領域。本文主要介紹固話漏話用戶數據挖掘和分析。
2數據挖掘技術應用于電信用戶數據研究
2.1固網用戶數據的組成和結構
對于企業來說,大量的用戶數據不僅有利于客戶關系管理(CRM),同時也是獲得用戶知識的源泉。從用戶知識發現的過程中可以看到,用戶數據的質量會對知識發現的結果產生直接的影響,所以用戶數據準備也是一項很重要的步驟。從商業系統中提取出高質量的用戶數據就成為一項最主要的工作。固網企業的用戶數據包括用戶基本信息、用戶賬單信息以及客服信息。數據倉庫就是根據這種方式來組織的。
2.2知識發現的方法和過程
用戶知識發現概括如下:根據提出的商業目標,分析大量的用戶數據,找出隱藏的和未知的規律或者豐富已知的規律,進而提出模型;最后要將數據挖掘和分析的結果轉化成有商業意義的方法,然后采取進一步的行動。用戶知識發現必須遵循以下幾個步驟:商業理解,數據理解,數據準備,分類模型,評估應用。
2.3數據挖掘建立用戶分類模型
近年來,“以客戶為中心”的電信市場開始強調為不同用戶提供個性化服務,其前提條件就是用戶分類。這也說明了過去的消費行為也預示了未來的消費傾向。
(1)商業理解
對用戶的理解不僅是理解電信市場的開始,也是理解客戶關系管理的開始。在電信企業中對用戶的理解包括:用戶種類,不同類中用戶的本質屬性區別,用戶偏好,不同類別之間的用戶如何通信等。
(2)用戶數據準備
對用戶分類的研究主要是從用戶屬性中得到用戶特征和行為習慣。主要數據來源于用戶賬單信息,同時也需要從商業系統中得到一些用戶的基本屬性信息。
(3)用戶分類模型
本文使用聚類分析對用戶進行細分以建立分類模型。聚類分析是把大量數據點的集合根據最大化類內相似性、最小化類間相似性的原則進行聚類或分組,使得每個類中的數據之間最大限度地相似、而不同類中的數據之間最大限度地不同。
3固網漏話用戶數據分析
3.1關于固網漏話用戶數據分析的商業理解
通過各種渠道調查,對固網漏話用戶數據分析的目標可以概括為以下幾點:
(1)對用戶通話次數、時間段等分析,找出特征,以此來尋找目標用戶;
(2)對用戶開通漏話保護業務前后的ARPU值分析比較,分析收益的對比;
(3)對目標用戶數據分析,從用戶分類的角度來管理,設計針對性的服務,提升用戶滿意度。
3.2系統用戶數據準備
數據準備的過程:明確目標;制定計劃;分析變量的獲取;數據收集和獲取;數據集成。根據當前客戶關系管理基本狀況和數據挖掘的目的,涉及到的人口屬性變量有:性別、年齡、住址、用戶職業、婚否、學歷、薪資等。用戶分類結束之后,再使用描述變量來進行分析說明。本文選用某市電信公司運營支持系統和經營分析系統的數據,從中選取了基本客戶基本信息表、客戶詳細話表、賬單及繳費信息表、產品信息表、業務使用清單等原始數據。數據挖掘工具選擇SPSSClementine。在使用該工具進行挖掘之前,需要對數據進行清洗:
(1)刪掉不滿足要求的數據:選擇普通的用戶;選擇狀態正常的用戶;選擇入網時間較長的用戶,使數據有完整的用戶周期;
(2)去掉異常數據:比如用于測試的號碼;
(3)去掉極端值:不具備普遍性的極值容易產生噪聲。
3.3固網漏話用戶數據分析結果
考慮到不同分類建立的有效性和簡便性,以及固話用戶和數據源的特點,本文采用常見的K-means算法,其高可靠性、高精準性以及低復雜度使其成為主流的聚類算法。本文選用SPSSClementine作為數據挖掘工具進行K-means聚類分析。獲取原始數據并進行預處理之后,選擇參與聚類的細分變量,輸入簇的個數k,選擇k=7,然后點擊“聚類”按鈕,使用K-means算法對固網漏話用戶數據進行聚類。經過正常值選擇、極值處理等一系列的數據清洗工作,最后用于研究的記錄有251284條。
3.4分析結果和解釋
93%的遇忙話務都出現在8∶00~18∶00的工作時段,這說明該時段遇忙話務較多,話務量流失嚴重,特別需要遇忙話務的解決方法。而這一時間段遇忙話務量最多的就是政企用戶,這些話務量流失對政企用戶將造成巨大的損失:30000政企用戶一個月遇忙話務損失達到260萬次,本網超過120萬次,每個月預計損失20萬;以電信中等發達省份為例:符合條件的政企高端用戶約為60萬;每年度損失的潛在業務收入為50000萬。經過分析,得到該市各地區已開通和未開通漏話保護業務的用戶分布,如圖4所示。C區屬于政務新區,未開通漏話業務的用戶較多,而F區屬于工業園區,企業較多,很多用戶已開通漏話保護業務,但是還有大量用戶未開通該業務,所以C區和F區應該作為該業務的重點推廣地區。綜上分析,固網漏話業務是一個非常有潛力的業務,解決漏話問題是提高用戶滿意度和忠誠度的重要途徑。根據上文的分析,在8∶00~18∶00時間段,用戶遇忙話務量非常多,在這段時間內,企業需要更多的漏話接入服務器,而在其他時間段可以減少接入服務器以節約成本。而在不同的地區,用戶數量和精準用戶的數量也不同,應該選擇精準用戶較為集中的地區優先推廣漏話保護業務。由于精準高端用戶帶來的收益遠遠超過普通用戶,所以要對經過篩選的精準用戶采取針對性措施,比如在C區和F區大力宣傳,以各種形式讓精準客戶看到該業務帶來的收益,還可以電話推廣為精準用戶提供信息。
4結論
1.1數據采集
數據的采集是指利用傳感器、社交網絡以及移動互聯網等方式獲得的各種類型的結構化、半結構化以及非結構化的海量數據,這是一切數據分析的基礎。數據的采集需要解決分布式高速高可靠數據的采集、高速數據全映像等數據收集技術。還要設計質量評估模型,開發數據質量技術。而數據采集一般分為大數據智能感知層:主要包括數據傳感體系、網絡通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統,實現對海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。
1.2數據預處理
數據采集的過程本身就有會有很多數據庫,但如果想達到有效分析海量數據的目的,就必將這些來自前端的數據導入到一個集中的大型分布式數據庫,或者分布式存儲集群,而且在導入基礎上做一些簡單的辨析、抽取、清洗等操作。
①抽取:因為我們通過各種途徑獲取的數據可能存在多種結構和類型,而數據抽取過程可以有效地將這些復雜的數據轉換為單一的結構或者便于處理的類型。以達到快速分析處理的目的。
②清洗:對于海量數據而言,數據所處的價值層次不一樣,就必然存在由于價值低而導致開發成本偏大的數據,還有與數據分析毫無關系的數據,而另一些數據則是完全錯誤的干擾項,所以對數據通過過濾“去噪”從而提取出有效數據是十分重要的步驟。
1.3數據的存儲與管理
當我們采集數據完成后,就需要將其存儲起來統一管理,主要途徑就是建立相應的數據庫,進行統一管理和調用。在此基礎上,需要解決大數據的可存儲、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。還需開發可靠的分布式文件系統(DFS)、能效優化的存儲、計算融入存儲、數據的去冗余及高效低成本的大數據存儲技術;以及分布式非關系型大數據管理與處理技術、異構數據的數據融合技術、數據組織技術、研究大數據建模技術、索引、移動、備份、復制、可視化技術。
1.4數據的統計分析
一般情況下,統計與分析主要就是利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop。統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的占用。
1.5數據分析與挖掘
所謂數據挖掘是指從數據庫中的大量不完全的、有噪聲的、模糊的、隨機的實際應用數據中,揭示出隱含的、先前未知的并有潛在價值的信息的過程。與前面統計和分析過程不同的是,數據挖掘一般不會有預先設計好的主題,主要是在現有數據上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型的算法有用于聚類的K-means、用于統計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用于挖掘的算法很復雜,并且計算涉及的數據量和計算量都很大,常用數據挖掘算法都以單線程為主。
2數據分析的8個層次
2.1標準化報告(StandardReports)
標準化報告作為數據分析的第一個層次,要求相對較低,主要是借助相應的統計工具對數據進行歸納總結,得出包含主要參數指標的標準化報告。類似于一個銷售企業每月或者每季度的財務報表。
2.2即席查詢(AdHocReports)
用戶可以通過自己的需求,靈活地選擇查詢條件,系統就能夠根據用戶的需求選擇生成相應的統計報表。即席查詢與普通應用查詢最大的不同是普通的應用查詢是定制開發的,而即席查詢所有的查詢條件都是用戶自己定義的。在面向高層的數據分析軟件中,用戶隨意添加想要查詢的指標按鈕再加上相應的限制條件,就可以立即生成可視化的統計結果,不僅一目了然,而且沒有任何操作難度。
2.3多維分析(QueryDrilldown)
多維分析是指對具有多個維度和指標所組成的數據模型進行的可視化分析手段的統稱,常用的分析方式包括:下鉆、上卷、切片(切塊)、旋轉等各種分析操作。以便剖析數據,使分析者、決策者能從多個角度多個側面觀察數據,從而深入了解包含在數據中的信息和內涵。上卷是在數據立方體中執行聚集操作,通過在維級別中上升或通過消除某個或某些維來觀察更概括的數據。上卷的另外一種情況是通過消除一個或者多個維來觀察更加概括的數據。下鉆是在維級別中下降或者通過引入某個或者某些維來更細致地觀察數據。切片是在給定的數據立方體一個維上進行的選擇操作,切片的結果是得到了一個二維的平面數據(切塊是在給定的數據立方體的兩個或者多個維上進行選擇操作,而切塊的結果是得到了一個子立方塊)。轉軸相對比較簡單,就是改變維的方向。
2.4儀表盤與模擬分析(Alerts)
儀表盤用于監控一些關鍵指標。模擬分析是由操作者動態地加以調節的控件(如滑動塊、可調旋鈕、選擇框等),來控制管理決策模型行為某些參數。當操作者通過控制面板對模型中的參數值或變量值進行調節時,圖形中的曲線、柱形組或分析指標等要素就會發生相應的運動,而這種運動正好反映了該參數的變化對模型行為的影響,如果這種變動引起了模型中最優解或其他關鍵數字的變化,能夠隨時將關于這種變化的結論正確地顯示出來。
2.5統計分析(StatisticallyAnalysis)
我們知道概率論是數理統計的基礎,數理統計是在其基礎上研究隨機變量,并應用概率論的知識做出合理的估計、推斷與預測。概率論中討論的各種分布在數理統計中作為統計模型來分析處理帶有隨機誤差的數據。典型的數理統計方法有參數估計、假設檢驗和回歸分析。而統計分析主要是對用戶所關注的問題進行推斷、預測和控制的分析方法。具體可以分為以下三方面:
①描述統計:主要是集中趨勢、離散程度、分布形狀等,統計圖(方圖、箱線圖、散點圖等);
②數據的分類匯總;
③基礎統計分析:方差分析、時間序列分析、相關和回歸分析、(主成分)因子分析等統計分析方法。
2.6預測(Forecasting)
在統計分析和數據挖掘領域,對未來的預測已經有了很多數學模型以及解決具體問題的相關算法。其核心思想便是從歷史數據中找出數據的發展模式,然后以這些模式為支點,就可以對未來進行預測。
2.7預測模型(PredictiveModeling)
隨著數據分析學家對數據挖掘技術的不斷探索,出現了很多預測模型以及與之相對應的算法,但是很難確定某個模型是最精確的,因為不同的領域,不同的條件,對應的預測模型是不一樣的,所以沒有統一化的最優模型,只存在有選擇性的最優模型。下面介紹幾種典型的預測模型。
①回歸模型:回歸模型可以分為一元線性回歸模型和多元線性回歸模型。一元線性回歸模型可表示為yt=b0+b1xt+ut,該式表示變量yt和xt之間的真實關系。其中yt稱作被解釋變量(或相依變量、因變量),xt稱作解釋變量(或獨立變量、自變量),ut稱作隨機誤差項,b0稱作常數項(截距項),b1稱作回歸系數。b0+b1xt是非隨機部分,ut是隨機部分。而在很多情況下,回歸模型必包含兩個或更多自變量才能夠適應地描述經濟現象各相關量之間的聯系,這就是多元線性回歸模型需要解決的問題,其一般形式為:Y=a+b1X1+b2X2+…+bmXm,式中X1、X2、…、Xm是這個多元回歸問題的m個自變量,b1、b2、…、bm是回歸方程對應于各自變量的系數,又稱偏回歸系數。
②貝葉斯網絡:貝葉斯網絡是基于概率推理的數學模型,而概率推理是通過一些產量的信息來獲取其他概率信息的過程。貝葉斯網絡會建立一個有向無環圖和一個概率表集合,有向無環圖中的每一個節點便是一個隨機變量,而有向邊表示隨機變量間的條件依賴,條件概率表中的每一個元素對應有向無環圖中唯一的節點,存儲此節點對其所有直接前驅節點的條件概率。貝葉斯網絡是為了解決不定性與不完整性問題而提出的,在多個領域中獲得廣泛應用。
③基于時間序列分析的指數平滑模型在時間序列分析中指數平滑模型是最靈活和準確的方法,在經濟領域也被證明是最有效的預測模型。在不同的時間序列下,指數平滑模型可以分為簡單指數平滑法、帶有趨勢調整的指數平滑法、帶有阻尼趨勢的指數平滑法、簡單季節指數平滑法、帶有趨勢和季節調整的指數平滑法五種不復雜度的模型。
2.8最優化
(Optimization)因為優化問題往往可以帶來巨額的收益,通過一系列可行的優化,可以使收益得到顯著提高。所謂最優化就是從有限或者無限種可行的方案中選取最優的方案。如果可以通過簡單的評判,就可以確定最優方案那是最好的。但是事實不會那么簡單,所以優化技術已經發展出了一系列的理論來解決實際問題。其常用的優化技術為:
①線性規劃:當目標函數與約束函數都是線性函數時,就是一個線性規劃問題。而當同時滿足約束函數和目標函數時,則可以認為是最優解。
②整數規劃:要求決策變量取整數值的數學規劃。
③多目標規劃:指衡量一個決策優劣的標準不止一個,也就是有多目標函數。
④動態規劃:將一個復雜的問題劃分為多個階段,逐段求解,最終求出全局最優解。
3用Excel實現簡單的數據分析
①對于企業而言最重要的是利潤,所以管理者必須要從這張表中得到最關鍵也最容易得到的銷量和銷售額以及與其相關的一些數據,通常是用最基本的數理統計結果來直觀地反映該企業在某個期間的盈利情況。
②其次,我們必須要做進一步的分析。已經對整體的情況有了一定的把握,所以就可以朝著不同的方向去挖掘一些有價值的信息,為企業高層做決策提供有力的依據。對產品銷售而言,客戶結構能夠有效地反映客戶的地域分布,企業可以根據客戶的來源,在未開辟客戶的地域去尋找新的目標客戶群。而銷量結構可以直觀地反映企業最大銷量來自哪個地區,對銷量較小的地區可以加大宣傳力度或者增加銷售網點來保持各地區銷售均衡。還可以及時地調整銷售方式來擴大市場份額,而對于銷量最小的地區考慮開辟新的市場。
統計了各地區的銷售總額和平均銷售額以及兩者的對比關系。由此可以得出地區平均購買力大小,以及各地區總銷售額大小。借助圖表描述,管理者可以對企業在某段期間內的銷售狀況有一個大概的把握,只有掌握了這些的信息,才能更細化地去研究具體的影響因素。劃分等級,對于經常性大量購買的客戶必須要以最優惠的價格和最好的服務讓其滿意,以形成一個穩定的大客戶群。而對于那些少量購買的客戶,也要制定出相應合適的方案來留住客戶。所以,分析銷售額的分布情況,可以掌握客戶的購買力度而且還能及時做一些留住大客戶的舉措。
4用R語言實現數據多層次分析
R語言是一種自由軟件編程語言與操作環境,是一套完整的數據處理、計算和制圖軟件系統,它是一種用來進行數據探索、統計分析和作圖的解釋型語言。它可以提供一些集成的統計工具,但更大量的是它提供各種數學計算、統計計算的函數,從而使使用者能靈活機動地進行數據分析,甚至創造出符合需要的新的統計計算方法。而在使用R語言進行數據分析處理時,當我們遇到很大的原始數據,但用來建模的數據較小,則可以先在數據庫中進行整理,然后通過R與數據庫的接口提取數據,數據庫適合存放和整理比較規整的數據,和R中的數據框有良好的對應關系,這也是R中絕大多數統計模型的標準數據結構。數據庫中大部分的運算都不需要消耗很大的內存。
5結語
江門世貿廣場項目位于江門市東華路與迎賓路交匯處東南側,上部結構是鋼筋混凝土框架,剪力墻結構,設兩層地下室,基礎是預制鋼筋混凝土預應力管樁基礎。基坑平面呈扇形,面積約為16980m2,周長約為650m,場地已挖土,移土整平,高程約為3.9~4.9m。按規劃要求,場地高程開挖前平整為2.8~3.3m,基坑底高程為-3.85m,基坑開挖深度為6.35~7.15m。基坑的西南方向,地表下方埋設有一條重要管線,在對基坑監測的同時需對管線的沉降和位移進行監測;基坑的東南方為一古廟,需監測其在基坑施工過程中的整體沉降量。
2基坑變形監測設計與實施
基坑的主要監測項目由支護結構樁頂位移、深層位移、支護結構應力、地下水位等項目組成。
2.1布設基準點
布設基準點的目的是在長期觀測過程中提供穩定的起算數據。(1)位移基準點應布設在遠離施工現場、結實穩定的地方。水平位移監測基準點3個,工作基點3個,編號為J1~J6;(2)沉降基準點的布設位置應選在遠離施工現場且穩定的水泥路上。布設了3個水準基準點,編號為G1~G3。
2.2布設監測點
監測點的布設按施工設計圖要求,以能反映變形為宜。基坑監測點在支護結構樁后每隔20m左右布設一點,監測點采用埋設觀測墩的形式。沉降、位移觀測點采用兩點合一布設,即WY1-WY20,共20個。周邊建筑物沉降變形點布設在能反映建筑物沉降與傾斜的位置,如建筑物的四角、大轉角處、建筑物裂縫和沉降縫兩側。同時要求變形點埋設在建筑物的豎向結構上,標志采用“L”型鋼筋,共8個(M1-M8),周邊管線監測點布設4個(GX3-GX6)。水位監測點在基坑周邊布設5個(SW1-SW5),測點用地質鉆鉆孔,孔深為10m。錨索應力觀測點,按要求布設錨索應力計12個,編號為MS1、MS2…MS12。支護結構測斜觀測管按相關要求,布設測斜觀測管18個,編號為CX1、CX2、…CX18。
2.3監測方法
沉降監測使用天寶DINI03電子水準儀和配套條碼銦鋼水準尺進行觀測。施測是以基準點G1為起閉點,觀測所有的沉降點組成閉合水準路線。采用“后、前、前、后”的觀測順序對沉降點進行觀測。位移觀測使用徠卡TS30全站儀。在基準點J1上設站,檢查J2、J4的方向和距離,檢查結果滿足規范要求后,以多測回測角法觀測每個監測點,并進行平差計算其坐標,然后計算出監測坐標在基坑邊橫向上的位移。深部位移使用測斜儀進行監測。監測從孔底開始,每0.5m為一個測段,自下而上沿導管全長每一個測段固定位置測讀一次。地下水位使用電測水位計進行監測。
3監測成果與分析
從2012年4月至2013年6月的14個月內進行了周邊建筑物沉降觀測,支護結構沉降、位移監測,管線沉降、位移監測,地下水位監測,錨索拉力監測及深部位移監測。本文主要對建筑物沉降、支護結構樁頂位移、地下管線及深層位移的監測結果進行分析。
3.1建筑物沉降監測
建筑物監測是指對基坑周邊的華豐古廟進行沉降觀測,華豐古廟周圍共有8個沉降監測點,進行了沉降觀測38期,監測成果見表1,典型監測點的沉降過程線。
3.2支護結構樁監測對基坑的支護結構樁共布設了20個監測點,進行了沉降監測37期,水平位移監測29期,監測成果見表2(對于水平位移,+號表示向基坑方向對于支護結構有兩個方向的形變,結合點位布設圖,對所有監測點進行分析發現:垂直方向上,支護結構向下沉降;水平方向上,整體有一個向東南方向位移的趨勢,即:基坑西北側的監測點向基坑方向位移,東南側的監測點則背向基坑方向位移。垂直方向和水平方向的累計變形量都比較小,且呈現出相似的形變過程,即前期變形波動較大,后期逐漸趨于平穩,且變形最大值小于預警值,故認為支護結構比較牢固,形變量都在比較安全的范圍內。
3.3地下管線監測
地下管線沉降量都比較大,沉降最小的GX6也有32.8mm,超過了預警值,最大的已達到120.1mm,遠遠超出了預警值。在發現沉降量較大之后,施工方采取了加固措施,后期管線沉降趨于穩定。基坑施工對管線水平方向的位移也有一定影響,變形量較大的GX5位移量已超過預警值。施工初期管線沉降量增加較大的原因為:基坑開挖破壞了基坑土體原有的應力平衡,引起臨近路面下沉,導致地下管線豎向移動,伴隨基坑開挖深度增加,管線的沉降量逐漸達到極限值,加之施工方采取了相應的加固措施,使基坑施工中后期管線的沉降趨于穩定。
3.4深部位移監測
各監測點的深部位移整體變形均較小,都低于預警值。深部位移主要有三種比較典型的變化情況:孔頂部和底部位移較小,中間位移較大;孔底部位移較小,頂部向背離基坑方向偏移;孔底部位移較小,頂部向基坑方向位移。CX9號測斜孔第30期(時間2013-1-10)在0~4.5m深處突然出現了一個較大的偏移,分析推測可能是由于鄰近監測孔旁正在施工,施工過程造成了對表層土體的擠壓,因而引起了土體表層整體的較大位移。在隨后的幾期觀測中,該測斜孔位移趨于穩定。深部位移監測結果顯示,最大位移一般出現在孔頂部或6.5~8.5m處,最大位移量都在安全可控的范圍之內。
4結論
因此,我們認為案例研究作為一種重要研究策略的意義和潛在科學貢獻在國內已經廣為接受,不容質疑。國內案例研究者也普遍對案例研究的規范有了_定了解。佐證之一就是過去五屆案例論壇的論文質量的大幅提升和學術影響的不斷擴大。在基本解決了案例研究的認可和初步規范問題之后的此時,我們需要更多關注的是,案例研究是否提出了有趣的研究問題?數據分析過程是否足夠嚴謹?是否做出了應有的理論貢獻?目前答案還并不十分肯定。
這些問題的答案在國外管理學界則相對比較肯定。構建理論和檢驗理論被認為是實證研究論文廣生理論貢獻的兩條根本途徑(ColquittandZapata-Phelan,2007)。國際頂尖管理學期刊之一AcademyofManagementJournal(AMJ)在1963~2007年近50年間發表的論文中,理論檢驗型和理論構建型的論文數目都在逐年增長(ColquittandZapata-Phelan,2007)。理論構建型研究通常指案例研究、扎根理論、民族志等歸納式研究,也包括假說演繹式的實證論文。理論構建型論文雖然一直少于理論檢驗型論文,但差距越來越縮小,到2007年,兩者的數量幾乎接近。這一結論有力地證明了高水平國際期刊以及學者對包括案例研究在內的定性研究的重視和支持然而,近5年來本土案例研究在哪些具體方面取得了明顯進步?哪些方面還有待提高?為此,在對本屆案例論壇回顧之后,本文對近五屆論壇報告的研究型案例論文進行比較分析,并針對目前存在的若干薄弱環節給出改進步驟。
二、論壇的主要觀點和概況
本屆論壇邀請了美國阿拉巴馬大學JeffreyA.Martin教授等專家,為與會者帶來了精彩的學術報告。Martin教授具有豐富的案例研究經驗,在攻讀博士學位期間師從KathleenEisenhardt教授,曾和StephenBarley和RobertSutton等著名案例研究專家一起工作過。他為論壇做了兩場主題報告,其要點主要包括以下幾個方面。
首先,Martin教授從一般定性研究入手,介紹了定性研究的幾種類型,特別強調定性數據的研究、歸納研究、比較案例研究、民族志、扎根理論等雖屬于不同類別的定性研究方法,但相互之間有重疊。在實際運用中,研究者常常組合運用這幾種研究類型,但如何組合,并沒有一個公認的"模板"。這并不是說各種定性研究方法可以隨便地堆砌在_起,而是需要"協調"地結合在一起,以便得出更有意義的真理。Martin進一步指出對定性研究而言:⑴分析層次可以是個體、團隊和組織;(2)樣本規模可以是_個、幾個或者許多個;⑶數據收集可以通過民族志、文檔或者面對面訪談;⑷數據分析的手段可以是歸納法、演繹法或者兩者相結合,可以用定性數據分析,也可以用定量的統計方法;(5)最后的理論模型可以是過程模型,也可以是因素模型,或者兩者的結合。事實上,案例論壇的稿件中也有一些是基于定性數據的研究但并非案例研究。Martin教授重點介紹了多案例比較研究,作為定性研究的—個主要類型。他以自己的研究為例,說明了從選擇研究問題、研究設計、數據收集和分析,到最后寫作和發表的全過程。
值得注意的是,在數據收集方面,Martin教授認為,訪談時要使被訪者專注于敘述他們自己的所作所為,或親眼看到的其他人的行為。也就是說,應該防止讓他們去描述那些他們實際上并沒有參與的事情,例如在他們沒有參加的會議上發生了什么。此外,通常要避免提問"為什么"這樣的問題,因為找出事件背后的原因不是被訪者的任務,而是研究者自己的工作(分析數據、解釋關系,從數據中推導)。此外,數據收集需要花費大量的時間和精力,因此每次的數據收集工作應能轉化為幾篇論文。
在數據分析方面,Martin教授認為,所收集數據/證據的力度來源于跨案例之間的一致性,這就是所謂的復制邏輯。從相似的案例中找出相同的模式,能保證作者不會因為某個鮮活的特例而心猿意馬。
Martin教授特別強調了尋找能指導案例研究的理論的必要性。他認為幾乎沒人能夠宣稱某個研究沒有現存理論依據,文獻中總能找到一些相關理論,可在某種程度上應用到數據分析中。因此,研究者應該去探尋現有文獻的缺陷,而不能說沒有相關文獻。這樣做有兩重意義。首先,這能給讀者——我們的最初評審人個框架來理解我們的研究貢獻;這也能幫助研究者更好地專注于自己想要做的貢獻。如果沒有聚焦,那么研究者就容易在自己的工作可能產生的眾多貢獻中搖擺不定,導致最終沒有完整地建立基于其中任何一個發現的理論。
新加坡國立大學的潘善琳(ShanLingPAN)教授做了題為"將企業實踐提煉為學術論文:結構化、實用化、情景化(SPS)案例研究方法"的專題報告。丹麥哥本哈根商學院的李平(PeterPingLi)教授分享了其倡導的陰陽案例研究方法。他認為案例研究是開展本土化研究所必需的重要研究方法之一,當某個學術研究領域內存在差異較大的理論觀點,特別是理論觀點相互沖突時,陰陽案例研究法非常適合研究人員創建整合式的新理論。
在案例教學方法模塊,廈門大學的沈藝峰教授剖析了案例教學的本質。復旦大學的包季鳴教授提出案例教學要體現全球化背景下的中國特色、體現培養目標的要求、體現學員的現實需求,通過即時性、進行性、追蹤性案例來達到案例教學的效果。臺灣大學管理學院的李吉仁教授對案例教學的定位和現狀進行了深入的分析。香港浸會大學MichaelYoung教授和中歐國際工商學院付莘研究員分享了教學案例寫作和課堂使用的經驗和教訓。
本屆案例論壇共收到來自海內外94所院校的123篇稿件。經過程序委員會的初篩和評審專家的"雙向匿名評審",最終收錄論文集65篇,其中研究型案例45篇,理論構建研究論文13篇,教學型案例7篇。分論壇報告研究型案例23篇(實際錄取率為26%);理論構建研究8篇;教學型案例7篇。論壇程序委員會的大部分成員以雙向匿名方式經過兩輪投票排序,評選出9篇最佳論文(其中6篇研究型案例、3篇教學型案例)。
因篇幅關系,本文僅簡要介紹6篇獲獎研究型論文。其中周江華等(2011)通過多案例研究(7家企業)深入剖析了我國山寨手機行業如何通過技術創新與商業模式創新在BoP(BottomofPyramid,金字塔底層)市場開展破壞性創新的過程。于天遠和吳能全(2011)以珠三角地區的三家民營高科技企業為樣本,結合使用了深度訪談和問卷調查等方法,構建了"組織文化變革模型”闡釋了"政商關系的非人格化水平"與組織文化變革歷程的關系。王世權等(2011)針對理論上關于母子公司關系網絡作用于子公司創業的內在機理尚未理清的事實,對海信集團及其主要的13家子公司的發展進行了深入剖析,構建了相關的理論模型。于春玲等(2011)以上海家化、云南白藥和晨光文具為研究對象,歸納出了中國情境下成功品牌延伸的影響因素及其相互關系。鄭曉明等(2011)基于雙元能力的理論視角,以海底撈公司發展歷程為案例研究對象,系統研究了促進企業服務敏捷性形成的特征、過程和原因。王歡和湯谷良(2011)通過案例研究發掘了雙匯成功實施MBO的一系列要素,通過雙匯MBO"路徑創新"的典型案例驗證和補充了原有的MBO理論框架。
三、近5年案例研究論文規范性分析
這里,我們采用內容分析法,運用毛基業和張霞(2008)借鑒Dub6和Par6(2003)的方法所歸納的案例研究規范性指標,來評估近五屆論壇報告的研究型案例論文的質量。這套指標便于"使得案例研究整個過程的每個步驟都在嚴格的控制下進行,盡可能避免研究人員的隨意性和主觀性。這些嚴格的程序和標準是我們進行案例研究時的參照,也可以用來評價一項案例研究是否達到了規范化要求〃(毛基業、張霞,2008,p.118)。
從數據分析結果來看,5年來論壇的研究型案例在各項規范性指標上幾乎逐年提高。進步最為明顯的方面包括明確的研究問題、說明相關理論、基于團隊的研究、采用多種收集方法、引用原始證據。而有些方面相對仍然不足,特別是數據收集程序、數據分析過程,以及與現有理論的比較。考慮到有些規范性指標是籠統的評價,為獲知更多的細節信息,以本屆論壇報告的論文為樣本,我們有如下進一步的發現。
研究問題方面。研究問題可以具體說明研究者試圖想要知道或理解什么(Maxwell,2005),此外還起到兩個重要的作用:幫助研究者聚焦研究和指導實施研究(MilesandHuberman,1994)。可喜的是本屆論壇報告的案例中只有個別的沒有清楚表述其研究問題;但也有個別論文,雖然提出了研究問題,但過于發散。研究問題所引致的研究必須是真正可以實施的,也必須是讀者讀完研究論文之后能夠得到解答的問題(Maxwell,2005)。從這個意義上講,每個案例研究都應該回答一個或若干具體研究問題,而這些問題最好在引言中就明確告訴讀者。
理論基礎方面。案例論壇_貫強調理論在案例研究中的重要性(毛基業、李曉燕,2010)。我們看到本屆論壇報告的每篇案例都對相關理論進行了回顧,但也發現一些研究在指出缺乏對某現象的研究之后,所回顧的理論僅是走過場,沒有指出現
有理論能夠解釋哪些方面、缺口在哪里、為什么現有理論沒有對該現象給出滿意的解釋?案例研究的研究問題可以是理論驅動型,也可以是現象驅動型(EisenhardtandGraebner,2007)。對于那些由現象驅動的研究問題來說,研究者必須強調此現象的重要性和現有理論的貧乏(EisenhardtandGraeb-ner,2007)。
理論抽樣方面。數據收集的第一個步驟是確定數據來源,即案例對象的選擇。案例的選擇要符合理論抽樣(GlaserandStrauss,1967),而非統計抽樣。有些研究在確定研究對象時不太考慮案例與研究問題的匹配性,而是有選擇知名企業的傾向。
本屆論壇中案例對象更加多樣化、有趣和獨特,但是多數作者卻沒有清楚交代選擇該案例的理由,即沒有說明理論抽樣過程。
數據分析方面。樣本論文中多數作者都會交代自己的數據分析方法,但有些只是簡單交代了一下步驟。即使有些作者宣稱自己采用了扎根理論中的二步編碼法(StraussandCorbin,1998),或者是采用從經典案例研究文獻中歸納出的其他數據分析方法,但讀者看到的只是機械的模仿,而沒有看到諸如以下信息:理論如何指導了作者的數據分析,數據分析過程中產生了哪些中間構念和最終構念(甚至要給出數量),構念與構念之間的關系是如何確立的。
與現有理論比較方面。案例研究的終極目標是要構建新的理論,理論構建的一個特征是將涌現的概念、理論或假說同現有文獻進行比較(Eisenhardt,1989)。樣本論文中有很多盡管理論回顧很到位、案例數據也很豐富、數據分析也很嚴謹,但最后_步,只是匆匆做個總結便以此結束,以至于讀者無從知曉此案例研究到底產生了什么樣的理論貢獻,例如對哪些現有理論進行了修正或情境化。
關鍵詞:信用卡;信用卡數據;信用卡業務;數據分析
近年來,很多銀行為促進信用卡業務發展投入了人財物力。截至目前,信用卡業務覆蓋了全國各地,發卡數量急劇擴張,設備裝機數量形成相當的規模,產生了大量數據。這些數據有著重要作用,可以用來進行客戶關系的管理,進行風險管理,分析收益,進行績效評估,為銀行更好的發展業務提供有效的科學數據支持。通過數據分析,銀行能夠對客戶進行分類,針對不同群體的客戶實施不同的服務策略,為銀行卡的營銷提供準確的數據信息。
1. 信用卡研究內容及風險類型
本課題主要從信用卡數據庫設計和總體技術兩個方面入手,以數據倉庫以及數據集市形成理論基礎,通過企業目前具備的信息系統的發展現狀,用實際開發的項目與開發成果做指導,闡述了我國某大型銀行在引用卡數據分析集市中在設計方面的價值實現。
隨身攜帶大量現金不僅不安全也十分麻煩,因此銀行設立了一項信用卡業務,這也是一種信貸服務。信用卡通常是一張小小的塑料卡片,長、寬、厚都有固定的尺寸,小巧輕便,銀行或是發放信用卡的企業會根據持卡人的信譽與財富狀況派發此卡,利用信用卡可以在消費的時候免除現金,等到結賬的時候再一起還錢。除了一些和金融卡相關的信用卡,大部分的信用卡都與借記卡與提款卡有區別,其最顯著的特點就是不會直接扣除客戶賬戶的資金【1】。
2. 信用卡數據分析系統
銀行的信用卡管理信息系統,以數據倉庫為基礎,結合銀行的業務需求,通過對當前存在的業務數據的分析,將主要的消費群體特征,如性別、年齡、學歷等呈現給管理人員,主要潛在的風險人特征呈現給管理人員。本設計按照軟件工程的原理、對信用卡數據分析系統的系統需求,系統分析,系統設計,數據庫設計以及系統測試作了詳細的闡述,同時介紹了數據庫和asp和網頁設計基本知識,如何在實現網頁于數據庫的連接,如何存取數據等。本系統的主要功能模塊包括:用戶管理模塊、效益分析模塊、風險管理模塊。其中風險管理模塊提供了圖形報表功能,為系統使用者提供了更為直觀的數據信息,使用戶能夠輕松地使用系統【2】。
2.1信用卡數據來源的多元化
目前辦理和使用信用卡已經十分頻繁,國內的信用卡業務的信息管理包括了進件、客戶收單、客戶服務及催收等多個子系統,將這些系統與外部數據相連就可以具備諸如個人征信等功能。然而,各個子系統之間并沒有形成內在聯系,就連格式與編碼都明顯不同,數據分析的難度很大【3】。因此對數據進行規范和統一迫在眉睫。
2.2 信用卡數據的關聯和整理
客戶的年齡、性別、收入狀況、授信額度等構成了客戶的基本信息,這些信息之間的關聯性會影響到客戶的消費狀態,反之也一樣,客戶的消費也會影響授信額度。所以,子系統之間是有緊密的數據聯系的。比如,風控部門時不時檢查一下客戶的消費狀態,分析將會產生的消費行為,從各個系統的數據關聯、整合起來獲得客戶的全面資料,反饋到市場部,以致決策者做出積極的決策。
2.3 信用卡數據量龐大
當今,越來越多的人使用信用卡,隨之而來的則是客戶數量、交易額度、授權記錄等的陡然增加,這時候就需要用到針對個人賬戶、客戶、交易的大批量數據操作的信用卡分析了。本課題利用我國一個大型國有銀行作為調查對象,發現,這一銀行的信用卡用戶有一千八百萬,交易額每天能達到八十萬,還有一些積分、通訊等業務,況且還有預留數據分析的時間,因此數據分析效率問題就凸顯出來。
3. 信用卡數據分析平臺
怎樣在許多數據源中,建立一個實用、高效的數據分析平臺系統是現在國內信用卡行業最想解決也是最難解決的一項研究。
數據分析平臺是以應用于報表類和數據挖掘類兩種數據分析
為目的,分析企業如今的信息數據系統以及業務發展的需要,研究數據分析平臺的規劃特征,這樣就可以實現一個設計完善的數據倉庫及數據分析集市和生產環境的信息分析集市。
4. 信用卡數據架構的設計和實現
信用卡數據以信用卡數據分析的獨特特點,建立一個實用、高效、現代化的靈活的信用卡分析集市,而且也在銀行中實踐驗證成功,這一次的驗證也是這一銀行首次有了信用卡數據分析集市。相對于傳統的信用卡管理方式來說,有以下幾個方面的優點:
1、通過對信用卡相關的6大信息系統源數據的關聯和整合,極大豐富而又全面了許多數據源,其中有進件、催收、交易、電話服務、收單以及積分等多個系統,也實現了整體化的數據分析整合。
2、為了讓信用卡的數據可以融合edw,讓企業信息保持一致與完整,需要針對edw的數據模型進行擴充,尤其是要新增4個主題域信用卡相關實體。因此,改造原架構,變更為系統更易于擴充整合新的源系統―企業數據倉庫―數據分析集市這三方面的數據源系統,如此也就能讓信用卡的數據分析平臺得到更為全面的數據支持,從而降低數據分析的成本。
3、數據結構需要面向數據分析優化設計。為實現在海量數據(l0tb)級別的成功運行,必須要以分析信用卡的可能風險、財務會計、服務渠道與市場狀況等為先決條件,要實現信用卡可以靈活報表、多層次統計與挖掘數據,讓匯總層數據的設計更加出色,才能使其有充分擴展的可能性。
而基礎層、匯總層、應用層3大層次構成了從數據源到應用數據流向的數據分析集市系統。其中,企業數據倉庫整合來自各個源系統的數據主要用到其基礎層來存儲細節和歷史數據。而數據集市,支持應用層與數據挖掘一同到匯總層。這因為如此,使多方面靈活分析報表中更多的用到應用層。星形模型與規劃、反規劃漸漸匯總形成三層次的結構特點。而不同的數據粒度需要各個層次在內部對主題域及實體進行合理的規劃,這樣才能滿足多層次需求。
5. 結語
迄今,發達國家的信用卡業數據分析手段多樣且先進,數據來源全面而豐富,同時也存在不少問題,尤其是在美國的金融機構中,因為欠缺一體的制度,就無法形成統一、方便、高效率的信息分析系統,也沒有可供進行分析的數據庫、受到普遍認可的共同指標以及可以共享信息的平臺等。一般會形成各部門、小組及個人之間互不干涉,數據庫的來源地、衡量標準各不相同,研究報告時有重復缺乏全面,有時更是互相矛盾。這些都是我國目前信用卡數據分析常見的問題,這也是今后需要避免和解決的問題。
參考文獻:
[1] 穆欣欣 . 中美銀行信用卡業務之比較分析 [期刊論文] -經濟師2011(7)
近半個世紀以來,科學技術迅猛發展,新知識、新成果不斷涌現,數字化特點凸顯。根據2002年度美國國家科學基金會資助的研討會報告,目前我們收集的數據需求呈指數增長,而數據分析的需求呈二次增長,但統計的專業人才呈線性增長并且目前統計學的教育遠遠落后于實際需求。邵啟滿教授“給當今畢業生的建議,就兩個字:統計”。我們當前的數理統計課程的教育還處于“非常狹窄的計算機時代前的統計學”,嚴重滯后于不斷發展中的現代統計學。大部分的研究生教科書內容仍然是從統計量到點估計,繼而假設檢驗、回歸分析和方差分析等基礎知識的呈現及統計方法的推導。課程的教學大綱中也以理論推導為重點,注重統計方法的理論基礎和演繹證明,而對于實際應用較多的現代統計方法缺乏介紹,忽視與各種統計軟件的結合。因此,我國工科研究生畢業論文實驗數據處理手段較為低級,對異常數據缺乏理性說明。我們的研究生往往在學完數理統計課程后,雖然掌握了基本的統計方法和推導,但進入科研工作碰到實際數據時,對數據的收集、處理和分析仍然一籌莫展。這也是促使我們教學理念轉換的主要原因,研究生數理統計課程應以現代統計應用為中心,不僅要求學生理解和領會統計思想,還應正確使用統計方法,根據計算結果作出正確的推斷,給出合理的解釋。
2教學變革的嘗試
由于課程的實用性和重要性,學生普遍對數理統計課程比較感興趣。如何調動學生的主觀能動性,變“被動灌輸”為“主動探索”,在有限的課時內學習較多的統計知識呢?我們教學變革主要采取如下措施。
2.1教學內容的調整為了避免重復學習,我們對原來本科時已經學習的統計量與抽樣分布、參數估計這部分內容只簡單復習,溫故知新,不再細講。而對目前生物醫學工程中應用較普及的方差分析、回歸分析,我們補充了生物醫學方面的實例,運用軟件進行統計分析,并對運行結果詳細講解。對于教材未介紹的非參數檢驗和實驗設計部分,補充幾種常見的統計方法。對于較復雜的多元統計和現代統計學部分,我們引入PBL教學模式,通過分組、問題探究、成果匯報、反思和完善幾個步驟,完成學習內容。
2.2教學方式的改進在課程的教學中,我們盡量做到深入淺出,回避復雜的推導、運算和證明,強調對統計思想的理解以及統計方法的運用,同時注重和統計軟件的結合。統計從某種意義上說是與數據打交道的科學,沒有實際數據的統計分析,不利于學生對統計方法的理解和應用。教學中如果仍然當成數學課程,注重統計理論中定理和公式的推導演算,而缺乏實際的數據分析訓練,學生就無法對統計的廣泛應用性及重要性有深刻的體會,也不利于保持和提高他們的學習興趣。我們補充了生物醫學方面的實例,通過數據分析,提高他們對統計方法的實際應用能力,也為后續PBL教學的順利開展做準備。大部分學生在本科階段已學習Matlab軟件,而且工科學生計算機應用能力較強,因此我們要求學生自學一門統計軟件(如SPSS、R等)或使用Mat-lab,對所有的實例在軟件中實現數據分析。軟件輸出的是數值或圖表,并沒有詳細的解釋、分析和結論,學生必須結合數據背景知識,應用所學統計方法,進行分析推斷,最后給出結論和合理的解釋。
2.3考核方案的變革注重平時考核,淡化期末考試。考試不是最終目的,只是促進學習而已。因此,成績是對學生學習情況的全面評價,不僅包括教材知識點的掌握情況,還有自主學習和實際應用的能力。我們將PBL案例分析的評價和期末考試的成績各設置為50%的比例,鼓勵學生自主學習,提高實際數據分析的能力。
3結合PBL教學模式
統計學的飛速發展要求研究生掌握必備的統計基礎知識外,能夠進行知識的自我更新,具有不斷學習現代統計新知識的能力。PBL教學模式在提高學生分析問題、解決問題的能力,培養學生成為自主學習者、終身學習者等方面已被廣泛認同。雖然生物醫學工程專業研究生基礎知識比較扎實,但統計學的發展以及軟件的學習交叉,要想學好這門課程并不輕松。在研究生教班開展PBL教學的有利條件是:①教班人數較少,分組進行問題探索可以實現。②學生對數理統計課程比較感興趣,積極性較高。③現代統計學和計算機科學緊密聯系,但醫學工程學生計算機應用能力較強,在統計軟件的學習和編程方面具有優勢。④教研組在數模競賽培訓和本科畢業設計中積累了一些素材,可以將內容完善成PBL問題。我們引入PBL教學模式,進行了初步探索。
3.1前期準備推薦一些統計應用的網站和書籍。簡單介紹前沿的方法和知識,補充回歸、相關、時間序列分析以及實驗設計等內容,對于隨機模擬、MC-MC方法也舉例說明。教師將原先積累了一些實例設計成若干問題,讓學生進行選題,組成學習小組(每組5-8人),確定分工。我們將多元統計分析和傳染病預測的案例編寫成4個問題,提前半個月交給學生,等他們分組確定后,分別給予一定指導。
3.2問題探究小組成員分工合作,查找文獻、學習算法,圍繞選定的問題進行準備。通過交流和討論,將各自學到的知識進行整合,進而運用這些知識重新分析上一階段提出的問題,思考并提出解決方案。最后,對問題形成一個附有詳細統計算法和計算結果的論文報告交給教師。
3.3成果展示和匯報各組將問題的解決方案和結果做成PPT,在課堂上進行匯報。其他小組可以提問和質疑,開展課堂討論。教師預先閱讀各小組的論文報告,引導學生的課堂討論,針對學生模糊不清的問題進行講解,強調重點和難點,對每個小組的報告給予建設性意見和評價。
信息時代,數據儼然已成為一種重要的生產要素,如同資本、勞動力和原材料等其他要素一樣,而且作為一種普遍需求,它也不再局限于某些特殊行業的應用。各行各業的公司都在收集并利用大量的數據分析結果,盡可能的降低成本,提高產品質量、提高生產效率以及創造新的產品。大數據無處不在
“大數據開啟了一次重大的時代轉型。就像望遠鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測微生物一樣,大數據正在改變我們的生活以及理解世界的方法,成為新發明和新服務的源泉,而更多的改變正蓄勢待發……”互聯網專家維克托·邁爾一舍恩伯格在《大數據時代》一書中這樣描述大數據。在這個時代大數據無處不在。Gartner公司的分析師聲稱信息量每年正以最少59%速度在遞增。IDC最新的數字宇宙(DigitalUniverse)研究估計,到2020年世界上的數據存儲總額將達到35 ZB(zettabytes)(lzettabyte等于一萬億GB字節)。
信息爆炸讓數據像空氣那樣無處不在。和朋友一起吃飯,對新上桌的美味進行拍照,上傳到自己SNS賬號與更多的人分享。這個過程在產生大數據;在淘寶上購物,選擇中意的物品,填寫送貨地址,點擊確定,進入付款頁面,選擇付款銀行付款,這個過程也在產生大數據。工廠機器的GPS數據、維修記錄等也是大數據,產品銷售記錄、客戶行為習慣資料等也是大數據;礦山、氣象等資料也是大數據;平安城市計劃中的物聯網更是大數據。
大數據來自無所不在的IT設施,人人成為了數據制造者:短信、微博、照片、錄像、可穿戴設備產生的信息都是數據;數據來自無數自動化傳感器、自動記錄設施,生產監測、環境監測、交通監測、安防監測等等;來自自動流程記錄:刷卡機、收款機、ETC、互聯網點擊、電話撥號等設施以及各種辦事流程登記等。大量自動或人工產生的數據通過互聯網聚集到特定地點,如電信運營商、互聯網運營商、政府、銀行、商場、企業、交通樞紐等機構,形成了大數據之海。總之,你信或不信,大數據就在我們身邊。
數據分析才是關鍵所在
擁有大數據并不是我們的目的,我們的目的是從這些數據中了解真實信息,使數據能夠真正在管理、決策、監測、評價,以及人們的生活中產生價值。大數據分析上可影響國家政治,沒有大數據分析奧巴馬就不會贏得美國總統大選;下可改變我們的日常生活,就連追女孩子都可以使用大數據分析的方法來制定策略。
“面對海量數據,誰能更好地處理、分析數據,誰就能真正搶得大數據時代的先機。”這幾乎是業界所有人的共識。對海量數據的分析已經成為了企業、政府非常重要且迫切的需求。在數據分析方面的能力將決定企業市場份額的得失、政府決策能力的高低。大數據分析讓IT有機會增加價值,增進業務部門間的關系,增加收入和提高利潤。
大數據分析對醫療行業的發展非常重要。醫療行業早就遇到了海量數據和非結構化數據的挑戰,大數據分析技術的發展讓這些數據的價值得以充分發揮,其中,基因組學是大數據在醫療行業的經典應用。以云計算為基礎的大數據分析技術不僅加速了基因序列分析的速度,也讓其成本不斷減低。
經濟的快速發展促使城市機動車輛大幅度增加,傳統的交通系統已難以滿足當前復雜的交通需求,交通堵塞成為城市的通病。隨著交通信息化與交通規劃的融合程度越來越高,大數據發揮的功能和信息獲取渠道都將更加廣泛。中國城市交通研究中心吳洪洋博士表示,公交刷卡數據挖掘、出租車軌跡挖掘、手機數據挖掘、社會化網絡數據挖掘將成為未來大數據應用的主要方向。
大數據分析技術加速制造業從傳統的以生產為核心向客戶需求為核心轉型。在大數據分析技術的驅動下,一些制造業的企業開始轉向與訂單用戶或者最終消費客戶群進行直接的互動。通過更透明、更可用的數據,企業可以釋放更多蘊含在數據中的價值。實時、有效的數據可以更好的幫助企業提高產品品質、降低生產成本。企業領導者也可根據真實可靠的數據制訂正確戰略經營決策,實現企業效益最大化。
破解密碼——Hadoop
數據的非結構化已經成為企業的重大挑戰。由于這些數據的結構問題及大數據類型的復雜關聯,導致無法應用現有的傳統技巧進行大數據分析。這為企業帶來了新的任務,需要開發一套全新方法,不僅能夠處理傳統數據,而且可以便捷地分析和應用這些新興數據。Hadoop恰恰可以滿足大數據分析這種需求。
Hadoop已成為公認的新一代大數據處理平臺。Hadoop是一個能夠對大量數據進行分布式處理的軟件框架。它以谷歌的MapReduce及谷歌文件系統技術研究論文為基礎。Hadoop充當著眾多“大數據”分析工具的底層技術,旨在對由web訪問、服務器日志及其它各類數據流所產生的海量數據進行篩選,在分布式環境下提供海量數據的處理能力。
Hadoop是以一種可靠、高效、可伸縮的方式進行處理的。它以計算元素和存儲會失敗為前提,維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。Hadoop以并行的方式工作,通過并行處理加快處理速度,能夠處理PB級數據。此外,Hadoop依賴于社區服務器,所以它又具有低成本的優點。
目前,幾乎所有的主流廠商都提供了基于Hadoop的大數據分析工具。如IBM、EMc、英特爾、甲骨文等都紛紛投入到Hadoop懷抱。
IBM很早就開始在實驗室嘗試使用Hadoop,但是,直到2012年才推出了首款大數據分析產品:IBM InFoSphereBigInsights。該產品既可以分析數據庫中的傳統結構化數據,也可以分析例如文本、視頻、音頻、圖像、社交媒體、點擊流、日志文件、天氣數據等非結構化數據,幫助決策者根據數據迅速采取行動。
EMC基于Hadodp的發行版PivotalHDs可以讓數據團隊和分析團隊在該平臺上無縫共享信息、協作分析。其最大的優勢是能夠與Greenplum數據庫進行整合,而不僅僅是在Hadoop中運行SQL這么簡單。
英特爾推出的Hadoop發行版不但改寫了Hadoop框架的核心功能,強化對處理器指令集的支持來提高效能,可直接支持Xeon進階運算加密指令集AES-NI.并在數據儲存到HBase的過程。用芯片原生的加密功能保護,這是英特爾進軍大數據的殺手锏軟件。