首頁 > 精品范文 > 數(shù)據(jù)分析設(shè)計
時間:2023-05-24 17:22:44
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來了七篇數(shù)據(jù)分析設(shè)計范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創(chuàng)作。
關(guān)鍵詞:習(xí)題設(shè)計;發(fā)展 ;數(shù)據(jù)分析觀念
【中圖分類號】G 【文獻標識碼】B 【文章編號】1008-1216(2016)12C-0029-02
簡單的數(shù)據(jù)統(tǒng)計重在讓學(xué)生經(jīng)歷數(shù)據(jù)的收集、整理和分析過程,掌握一些簡單的數(shù)據(jù)處理技能,感受數(shù)據(jù)蘊含著的信息,培養(yǎng)初步的數(shù)據(jù)分析觀念。在課堂教學(xué)中,這一核心知識受到教師的足夠重視,然而我們的課堂時間有限,僅僅依靠教材提供的有限的統(tǒng)計活動還不足以發(fā)展學(xué)生的數(shù)據(jù)分析觀念。如果能夠依托統(tǒng)計教學(xué)的核心,靈活設(shè)計習(xí)題,從不同側(cè)重點進行有針對性的訓(xùn)練,有意識地讓學(xué)生運用數(shù)據(jù)分析解決問題,將能發(fā)展學(xué)生的數(shù)據(jù)分析觀念,使習(xí)題成為教材的有益補充。
一、豐富統(tǒng)計素材,主動收集整理數(shù)據(jù)
培養(yǎng)數(shù)據(jù)分析觀念的首要方面是引導(dǎo)學(xué)生有意識地從數(shù)據(jù)的角度思考有關(guān)問題,就是遇到有關(guān)問題時能夠想到通過設(shè)計簡單的數(shù)據(jù)收集計劃收集所需數(shù)據(jù),解決所求問題,從而體會到數(shù)據(jù)是有用的,數(shù)據(jù)中蘊含著我們想要的信息。教師在進行練習(xí)設(shè)計時,要考慮不同年齡學(xué)生生活經(jīng)驗和認知水平的差異,賦予習(xí)題鮮活的背景,激勵學(xué)生主動收集整理數(shù)據(jù)。
在學(xué)習(xí)了簡單的統(tǒng)計圖表之后,我設(shè)計如下統(tǒng)計練習(xí):
夏天到了,吃冰激凌成為很多孩子的愛好,學(xué)校門前的張老板想通過一個調(diào)查來了解哪種口味的冰激凌在我們學(xué)校最流行。
(1)小組討論:要完成這項任務(wù),你們需要做哪些工作?請在下面的表格中,圈出需要的選項。
1 確定調(diào)查時間,設(shè)計調(diào)查用的統(tǒng)計表。
2 以小組為單位,每班隨機抽取15名學(xué)生,對他們最喜歡的冰激凌進行調(diào)查統(tǒng)計。
3 以小組為單位,對我校學(xué)生的年齡進行調(diào)查統(tǒng)計。
4 匯總統(tǒng)計表,繪制條形統(tǒng)計圖。
(2)小組合理分工,展開調(diào)查統(tǒng)計。
(3)根據(jù)分析結(jié)果給張老板提出一些建議。對愛吃冰激凌的同學(xué)又會提出什么建議?
吃冰激凌是孩子們的最愛,與學(xué)生的生活密切相關(guān),很容易引起他們的共鳴。學(xué)生意識到要想幫張老板解決這一問題,調(diào)查收集數(shù)據(jù)是必需的,有用的,激發(fā)學(xué)生熱情投身學(xué)習(xí)活動。真實的統(tǒng)計數(shù)據(jù),會幫助張老板解決現(xiàn)實的問題。而對愛吃冰激凌的同學(xué)提建議,又有意識地對學(xué)生進行健康常識教育。由扶到放的習(xí)題設(shè)計,幫助學(xué)生逐步提高開展實際調(diào)查的能力。
二、精心設(shè)計問題提高分析數(shù)據(jù)信息能力
從不同角度分析數(shù)據(jù),以便從數(shù)據(jù)中獲得盡可能多的信息,并發(fā)現(xiàn)蘊含其中的一些規(guī)律,是數(shù)據(jù)分析觀念的基本內(nèi)涵之一。練習(xí)中通過精心設(shè)計問題串,引導(dǎo)學(xué)生從不同角度理解和分析數(shù)據(jù)信息,感受數(shù)據(jù)分析方法的多樣性,并為發(fā)現(xiàn)和提出更有意義的問題提供機會。
小明家每兩個月交一次水費,每次用水的噸數(shù)如下表:
月份 1~2月 3~4月 5~6月 7~8月 9~10月 11~12月
用水量(噸) 8 5 6 16 7 6
根據(jù)上表回答以下問題:
(1)從上表中知道,用水量最多的是哪兩個月份?最少呢?分別占全年總用水量的百分之幾?
(2)全年平均每個月用水多少噸?
(3)根據(jù)生活常識,你能解釋一下為什么7~8月份的用水量最多嗎?
(4)如果想說明7~8月份的用水量比全年的1/4還多,選( )統(tǒng)計圖表示最容易使人明白。
本題中前兩題從一組數(shù)據(jù)的極值入手,大致了解數(shù)據(jù)的分布范圍,對于家庭用水量有個初步了解。然后通過計算解決其中一個月份與全年之間的關(guān)系,并通過平均數(shù)分析用水情況,對于出現(xiàn)的極端情況,嘗試利用生活常識進行解釋,使學(xué)生體會極端數(shù)據(jù)出現(xiàn)的原因,最后通過選擇統(tǒng)計圖,加深對各種統(tǒng)計圖的特征的把握,進一步增強學(xué)生根據(jù)解決問題需要靈活選擇統(tǒng)計圖分析數(shù)據(jù)的能力。
三、連貫使用數(shù)據(jù)提高收集整理數(shù)據(jù)意識
對于同樣的數(shù)據(jù),由于背景和目標不同可以有多種分析的方法,需要根據(jù)問題背景選擇合適的方法。每年學(xué)校都會組織學(xué)生進行體檢,我將學(xué)生的身高情況及時收集,保存。在解決“ 鐵道部門規(guī)定,兒童身高在120厘米以下乘火車免票,120~150厘米之間享受半價。我們班有多少人乘火車可以享受免票?有多少人需要購買全價票?”這一習(xí)題時,我組織學(xué)生討論并形成一些可行的收集學(xué)生身高的方法,將最近學(xué)生體檢的身高數(shù)據(jù)及時呈現(xiàn)在大屏幕上,學(xué)生感到非常驚訝,感到老師真是個有心人,根據(jù)提供的數(shù)據(jù)學(xué)生很快列表整理信息,順利解決問題,老師這種收集和整理重要數(shù)據(jù)的習(xí)慣,使學(xué)生也受到潛移默化的影響。這時,我進一步追問,看到這些身高的數(shù)據(jù),它們還能幫助我們解決什么問題。學(xué)生想到可以了解自己身高在班級處于什么情況,學(xué)校可以根據(jù)身高給我們定做課桌椅,可以定做校服……這時我又呈現(xiàn),定做校服時大號、中號、小號和特號相關(guān)的身高要求,然后讓學(xué)生根據(jù)需要重新對剛才的數(shù)據(jù)進行分組整理。通過變換問題情境,使學(xué)生體驗到同一數(shù)據(jù)由于要解決的問題不同,整理、分析的方法往往會不同。
到了五年級學(xué)習(xí)了折線統(tǒng)計圖,我再一次將學(xué)生身高情況呈現(xiàn)給學(xué)生,不同的是這次我將每個同學(xué)1~5年級的身高情況都呈現(xiàn)出來,學(xué)生感到非常興奮,“你能將自己這5年的身高情況繪制成折線統(tǒng)計圖嗎?”,學(xué)生繪制非常用心,在組內(nèi)交流近5年身高增長情況時更是積極主動,分析得頭頭是道。這時我又引導(dǎo)學(xué)生根據(jù)自己身高增長情況對六年級的身高進行預(yù)測,并學(xué)習(xí)老師,做一個“數(shù)據(jù)收藏家”,記住自己的身高,到時看看自己預(yù)測得準不準。
等到六年級復(fù)習(xí)時,我再次呈現(xiàn),學(xué)生將六年來的身高增長情況繪制完整,并檢驗自己的預(yù)測,同時對自己15歲時的身高情況再次進行預(yù)測,此時,給學(xué)生增加了我市近年來男、女生平均身高增長統(tǒng)計圖,發(fā)現(xiàn)男女生13~15歲身高增長的一些規(guī)律,很多同學(xué)又調(diào)整了預(yù)測。同樣的身高數(shù)據(jù)由于解決的問題不同,分析方法大不相同,對數(shù)據(jù)進行橫向及縱向的比較,會使我們的判斷和預(yù)測更準一些。
四、巧設(shè)矛盾沖突促進動手實驗?zāi)芰μ嵘?/p>
游戲是激發(fā)學(xué)生主動參與統(tǒng)計活動的很好方式,在游戲?qū)嶒灮顒又型ㄟ^數(shù)據(jù)體會概率事件的隨機性,在教學(xué)可能性時,我設(shè)計這樣一題:
小明和小軍兩人玩游戲,袋子里放有2個和1個,每次任意從中摸出兩個圖形,摸完后放回,如果摸到的兩個圖形能拼成平行四邊形為小明贏,如果能拼成小房子圖形,則是小軍贏。你認為這樣的游戲公平嗎?同桌的同學(xué)玩一玩,看看拼成哪種圖形的人贏的次數(shù)多?想想為什么?
游戲中的三個圖形中有兩個是相同的,任意從中摸兩個,結(jié)果只有2種情況,學(xué)生很容易認為游戲是公平的,實際上兩種情況出現(xiàn)的可能性大小不同,極易引發(fā)學(xué)生爭辯,促使學(xué)生主動通過實驗活動求證結(jié)論。動手實驗正是學(xué)生體會隨機現(xiàn)象的最佳路徑,通過學(xué)生的實驗,認識到游戲的設(shè)計是不公平的,與原有猜測產(chǎn)生沖突,學(xué)生急于一探究竟,發(fā)現(xiàn)小軍贏的可能性會大一些。當然,游戲試驗中,也會出現(xiàn)拼成平行四邊形的次數(shù)等于或超過小軍的現(xiàn)象,這一非常規(guī)情形的出現(xiàn)也是體會隨機現(xiàn)象的重要資源,使學(xué)生深刻體會小軍贏的可能性大一些,游戲是不公平的,但是小軍不會一定贏,更有利于學(xué)生感悟隨機現(xiàn)象的特點。
五、適度綜合運用,全面感受分析數(shù)據(jù)的意義
統(tǒng)計與概率的內(nèi)容和其他數(shù)學(xué)領(lǐng)域的內(nèi)容有著緊密的聯(lián)系。這部分課程的教學(xué),應(yīng)為發(fā)展和運用比、分數(shù)、百分數(shù)、度量、圖像等概念提供活動背景,為培養(yǎng)學(xué)生綜合運用知識解決問題能力提供機會。
王阿姨在汽車銷售公司上班,工資由基本工資和銷售獎金組成,即每銷售1輛汽車給予一定數(shù)量的獎金。下表顯示王阿姨今年3~6月份銷售汽車的輛數(shù)與工資情況:
銷售汽車輛數(shù) 8 10 11 12
月工資(元) 3000 3300 3450 3600
根據(jù)上表提供的信息你能算出王阿姨的基本工資是多少,每銷售1輛汽車的獎金是多少元嗎?
本題緊密聯(lián)系社會生活實際問題,學(xué)生需要在認真理解題意的基礎(chǔ)上,借助計算分析題中的數(shù)量關(guān)系,發(fā)現(xiàn)不同信息之間的聯(lián)系,從而得出正確的計算方法,提升學(xué)生數(shù)據(jù)分析能力,在綜合解決問題的過程中全面感受分析數(shù)據(jù)的意義。
關(guān)鍵詞:數(shù)據(jù)分析;數(shù)據(jù)挖掘;大數(shù)據(jù);云計算
0引言
商業(yè)銀行作為經(jīng)營信用、貨幣的企業(yè),面向的客戶是幾乎全方位的,同時銀行業(yè)的競爭也是異常殘酷的[1]。從網(wǎng)點、ATM、POS、網(wǎng)銀、手機銀行乃至其他網(wǎng)絡(luò)信息等各類渠道數(shù)據(jù)信息中,挖掘、分析出有效的數(shù)據(jù),可以增加營銷效率、加快產(chǎn)品創(chuàng)新,快人一步擴大業(yè)務(wù)發(fā)展空間和市場份額[2]。大數(shù)據(jù)可以使商業(yè)銀行決策由經(jīng)驗依賴到數(shù)據(jù)依賴的轉(zhuǎn)變,實時、深入地把握業(yè)務(wù)和市場動態(tài),從而更加科學(xué)、有效地決策,讓商業(yè)銀行能夠穩(wěn)健、可持續(xù)發(fā)展[3]。大數(shù)據(jù)的挖掘、分析可以有效地提高商業(yè)銀行精細化管理水平,在風(fēng)險控制、成本核算、資本管理、績效考核等各個方面發(fā)揮出巨大作用,讓經(jīng)營管理能力大幅提升,更理性、更高效、更精確[4]。
1大數(shù)據(jù)技術(shù)
1.1HadoopMapReduce技術(shù)
Hadoop是一種分布式系統(tǒng)的平臺,通過它可以很輕松地搭建一個高效、高質(zhì)量的分布系統(tǒng)[5]。Hadoop的最核心的設(shè)計思想:MapReduce是Hadoop的核心組件之一,Hadoop主要包括2部分:一是分布式文件系統(tǒng)HDFS,HDFS為海量的數(shù)據(jù)提供了存儲;二是分布式計算框MapReduce,為海量的數(shù)據(jù)提供了計算。MapReduce是大規(guī)模數(shù)據(jù)計算的利器,Map和Reduce是它的主要思想,Map負責(zé)將數(shù)據(jù)打散,Reduce負責(zé)對數(shù)據(jù)進行聚集。Hadoop采用并行工作模式,同時維護多個工作數(shù)據(jù)副本,確保失敗的節(jié)點能夠重新分布處理,具有可靠、高效、可伸縮、低成本的優(yōu)點。
1.2NOSQL數(shù)據(jù)庫技術(shù)
NOSQL(NotOnlySQL)數(shù)據(jù)庫是指非關(guān)系數(shù)據(jù)庫。這是相對于傳統(tǒng)關(guān)系數(shù)據(jù)庫提出的概念,隨著Web2.0網(wǎng)站的興起,數(shù)據(jù)量越來越大,傳統(tǒng)關(guān)系型數(shù)據(jù)在處理大數(shù)據(jù)、實時讀寫以及多表聯(lián)查已經(jīng)越來越力不從心,而NOSQL以鍵值對存儲,機構(gòu)不固定,每個元組可以根據(jù)需要增加、減少鍵值對,減少了時間和空間的開銷,同時NOSQL可以處理大數(shù)據(jù),能夠良好地運行在廉價的PC服務(wù)器機器上,便于擴展[7]。
1.3內(nèi)存分析技術(shù)
內(nèi)存分析(In-memoryAnalytics)技術(shù)是在內(nèi)存中直接獲取分析數(shù)據(jù)。隨著64位操作系統(tǒng)的普及,系統(tǒng)可用內(nèi)存大幅度提升,同時由于工藝不斷成熟,內(nèi)存容量不斷,價格不斷下降。由于內(nèi)存容量暴增,人們開始直接將數(shù)據(jù)預(yù)讀到內(nèi)存中,對內(nèi)存中的數(shù)據(jù)進行分析加工,而不用如傳統(tǒng)的那樣將數(shù)據(jù)反復(fù)不斷地讀入內(nèi)存、寫入磁盤,從而極大地提升了數(shù)據(jù)分析效率。
2商業(yè)銀行數(shù)據(jù)應(yīng)用現(xiàn)狀
目前,商業(yè)銀行對于大數(shù)據(jù)的挖掘還處于起步階段,沒有一個在設(shè)計之初就目標明確的定位于大數(shù)據(jù)挖掘、分析的系統(tǒng)[8]?,F(xiàn)有的幾個與數(shù)據(jù)挖掘相關(guān)的管理信息系統(tǒng)有PCRM系統(tǒng)(個人優(yōu)質(zhì)客戶系統(tǒng))、RPTS系統(tǒng)(綜合報表系統(tǒng))、GDP系統(tǒng)(基礎(chǔ)數(shù)據(jù)平臺系統(tǒng))等,這些系統(tǒng)在設(shè)計之初就具有先天的局限性,它們僅僅是針對某個或者某幾個業(yè)務(wù)部門的應(yīng)用開發(fā)的,遠遠還談不上大數(shù)據(jù)分析。同時這些系統(tǒng)由于沒有統(tǒng)一的規(guī)劃設(shè)計,物理架構(gòu)大致相同,一些重要數(shù)據(jù),如定期、活期主檔及明細表全部重復(fù)加工,造成人力、財力的浪費,效率較低[9]。在上面提到的幾個管理信息系統(tǒng)中,GDP系統(tǒng)是相對比較典型的應(yīng)用,現(xiàn)在對GDP系統(tǒng)物理架構(gòu)和邏輯架構(gòu)進行分析。如圖1所示的GDP物理架構(gòu)圖,采用成熟的3層B/S架構(gòu),2臺乃至多臺PC服務(wù)器部署WEB前置服務(wù),做表示層;由1臺小型機部署應(yīng)用服務(wù)程序,做邏輯層;1臺小型機上運行數(shù)據(jù)庫系統(tǒng),做數(shù)據(jù)訪問層。數(shù)據(jù)庫由控制庫和日終庫組成,其中控制庫使用SYBASEASE庫,將不同的處理任務(wù)劃分成一個個的作業(yè)鏈,作業(yè)鏈中包含不同的作業(yè),通過對作業(yè)和作業(yè)鏈調(diào)度次序進行控制;日終庫采用SYBASEIQ庫,對日終數(shù)據(jù)進行高效處理??刂茙炫c日終庫可在同一臺小型機上。2臺PC服務(wù)器使用IBMWebSphere部署高可用集群,提供WEB服務(wù),包含作業(yè)調(diào)度服務(wù)和前臺展示。
3構(gòu)建商業(yè)銀行數(shù)據(jù)分析
系統(tǒng)模型商業(yè)銀行作為傳統(tǒng)金融企業(yè),與新興的互聯(lián)網(wǎng)企業(yè)不同之處在于:行內(nèi)的數(shù)據(jù)中含有許多機密、隱私的信息,同時無論媒體還是客戶都關(guān)心銀行數(shù)據(jù)的安全性。在數(shù)據(jù)挖掘、分析包括使用的時候,效率與安全的選擇需要慎重考量。為了避免資源的浪費,本文在設(shè)計模型前,必須對現(xiàn)有數(shù)據(jù)進行詳盡分析,剔除重復(fù)、無效的數(shù)據(jù),將有效數(shù)據(jù)進行分類。商業(yè)銀行數(shù)據(jù)應(yīng)用中大致可以分為2種類型:一類是高可靠數(shù)據(jù),以數(shù)據(jù)的準確性為主,需要提供給統(tǒng)計部門、核算部門及監(jiān)管部門,對于這類數(shù)據(jù)我們必須在使用前進行數(shù)據(jù)清洗、篩選后,才能夠真正使用;另一類則不需要很精確,只需要一個大致數(shù)量級或者一個大的方向,主要供決策層、管理經(jīng)營層及產(chǎn)品研發(fā)、營銷等部門使用,對于這類數(shù)據(jù)其實才是真正符合現(xiàn)今大數(shù)據(jù)的概念,無需對數(shù)據(jù)進行清洗,可以直接進行挖掘。針對側(cè)重于安全可靠和快速高效這2種不同的需求,以及結(jié)合商業(yè)銀行現(xiàn)有技術(shù)發(fā)展,本文設(shè)計出下面2種模型。
3.1高可靠模型
基于商業(yè)銀行對數(shù)據(jù)的精度要求較高,在設(shè)計模型時首先考慮的是數(shù)據(jù)的完整性和安全性,其次才考慮效率等其他的問題。因此,本文對現(xiàn)有成熟和完備的商業(yè)銀行GDP系統(tǒng)3層架構(gòu)和業(yè)務(wù)定位深入分析的基礎(chǔ)上,進行了一些改進,克服現(xiàn)有GDP系統(tǒng)3層結(jié)構(gòu)的不足。
3.2高效率模型
對于商業(yè)銀行精度要求不高,但是非常具有時效性和海量的數(shù)據(jù),不需要考慮數(shù)據(jù)的完整性、安全性。為此,本文使用一些互聯(lián)網(wǎng)的新技術(shù)以及開源的軟件,拋棄原有3層架構(gòu),引入大數(shù)據(jù)挖掘新技術(shù),實現(xiàn)大數(shù)據(jù)的挖掘需求。
4數(shù)據(jù)分析
當將海量的數(shù)據(jù)挖掘出來后,怎樣使用這些數(shù)據(jù)?投入這么多人力、物力當然是希望它能帶來更多的收益,怎樣將數(shù)據(jù)變成收益?這就需要對數(shù)據(jù)進行分析,結(jié)合自身以及行業(yè)的現(xiàn)狀進行分析。在傳統(tǒng)的數(shù)據(jù)中,以少量的數(shù)據(jù)為依據(jù),以數(shù)據(jù)的準確性為目標進行的統(tǒng)計工作,其實這樣的統(tǒng)計是有偏差和片面的。而大數(shù)據(jù)則以海量數(shù)據(jù)為依托,強調(diào)數(shù)據(jù)的完整性、綜合性和復(fù)雜性,通過答題輪廓,捕捉發(fā)展脈絡(luò),確定未來發(fā)展方向。從決策層出發(fā),大數(shù)據(jù)可以為我們更快地找出未來銀行的發(fā)展方向,最大限度地避免在決策方向上出現(xiàn)偏差。一直以來商業(yè)銀行的決策是由個人或小團隊進行的,但是在這些決策中往往有很多依靠過往的經(jīng)驗、主管判斷的,這就帶來決策缺少扎實的依據(jù),很多決策適合一些地方,但在另外一些地方卻未必很適合。特別是現(xiàn)在科技發(fā)展日新月異,對傳統(tǒng)銀行業(yè)帶來了巨大的沖擊,原來的很多經(jīng)驗不但不能帶來幫助,甚至?xí)萍s決策層的思維,決策遠遠滿足不了前瞻性、有效性和針對性的要求。
而大數(shù)據(jù)的分析則可以更準確、更快捷地幫助決策層把握脈絡(luò),從而做出具有前瞻性、及時的、精準的決策。從管理執(zhí)行層來看,通過大數(shù)據(jù)的分析可以更快捷地推出精品產(chǎn)品,更有效地營銷客戶,更高效的使用行內(nèi)各種資源,提高管理能力,創(chuàng)造更多利潤。通過大數(shù)據(jù)的分析,管理層能夠分析出哪些產(chǎn)品受哪些客戶的喜好,分析各類客戶都有什么需求,可以根據(jù)這些有針對性地開發(fā)一些受客戶歡迎的產(chǎn)品??梢詫σ恍└哔|(zhì)量的VIP客戶進行分析,對他們的資金利用進行跟蹤,盡量將資金鏈鎖定在行內(nèi),利用資金空閑時段進行中間業(yè)務(wù)的營銷,可以對這些客戶在貸款的利率上進行一定幅度的優(yōu)惠等等??梢詫鶎有?、網(wǎng)點人員效率進行分析、優(yōu)化,對行內(nèi)的電子設(shè)備,如ATM、POS機等進行分析,在使用量龐大的地方可以加大投放,收回一些效率低下的設(shè)備等等。從監(jiān)管層來看,通過大數(shù)據(jù)的分析可以更加直觀、有效地對商業(yè)銀行的合規(guī)經(jīng)營做出監(jiān)管??梢詮拇髷?shù)據(jù)中對各地的經(jīng)營、營銷費用、采購招標等需要進行監(jiān)管的地方進行分析,一旦發(fā)現(xiàn)某個地方有異常情況,就可以進行重點關(guān)注、重點監(jiān)管,而不是像以前那樣無差別的監(jiān)管,或者靠經(jīng)驗去進行監(jiān)管,從而能夠更快、更有效地進行監(jiān)管,提前去發(fā)現(xiàn)問題,制止問題事件的擴大,為商業(yè)銀行減少損失,更有效保障商業(yè)銀行的利益。
5結(jié)語
大數(shù)據(jù)在商業(yè)銀行決策、生產(chǎn)運行和經(jīng)營管理中越來越重要,構(gòu)建商業(yè)銀行自身的大數(shù)據(jù)挖掘、分析系統(tǒng)已經(jīng)迫在眉睫了,如何構(gòu)建大數(shù)據(jù)分析系統(tǒng)、利用分析系統(tǒng)實現(xiàn)數(shù)據(jù)到價值、利潤的轉(zhuǎn)化,這需要不斷的研究。本文通過深入分析商業(yè)銀行的數(shù)據(jù)分析現(xiàn)狀,總結(jié)其數(shù)據(jù)分析的優(yōu)、缺點。并針對側(cè)重于安全可靠和快速高效2種不同需求,以及結(jié)合商業(yè)銀行現(xiàn)有技術(shù)發(fā)展,設(shè)計了商業(yè)銀行數(shù)據(jù)分析系統(tǒng),使商業(yè)銀行從珍貴數(shù)據(jù)中分析、挖掘?qū)ζ鋺?zhàn)略發(fā)展和業(yè)務(wù)經(jīng)營有巨大推動作用的信息。
參考文獻:
[1]薛良飛.云計算在新型信息化系統(tǒng)中的綜合研究[D].濟南:山東大學(xué),2013.
[2]李斌,黃治國,彭星.利率市場化會降低城市商業(yè)銀行投融資水平嗎?——基于中國24家城市商業(yè)銀行數(shù)據(jù)的實證研究[J].中南財經(jīng)政法大學(xué)學(xué)報,2015(1):40-47.
[3]方先明,蘇曉珺,孫利.我國商業(yè)銀行競爭力水平研究——基于2010—2012年16家上市商業(yè)銀行數(shù)據(jù)的分析[J].中央財經(jīng)大學(xué)學(xué)報,2014(3):31-38.
[4]劉曉茜.云計算數(shù)據(jù)中心結(jié)構(gòu)及其調(diào)度機制研究[D].北京:中國科學(xué)技術(shù)大學(xué),2011.[5]陸嘉恒.Hadoop實戰(zhàn)[M].北京:機械工業(yè)出版社,2012.
[6]張世明,徐和祥,錢冬明,等.云架構(gòu)模式下“網(wǎng)絡(luò)學(xué)習(xí)空間人人通”體系探析[J].華東師范大學(xué)學(xué)報(自然科學(xué)版),2014(2):30-39.
[7]江務(wù)學(xué),張璟,王志明.云計算及其架構(gòu)模式[J].遼寧工程技術(shù)大學(xué)學(xué)報(自然科學(xué)版),2011(4):575-579.
[8]韓浩.大數(shù)據(jù)技術(shù)在商業(yè)銀行中的運用探討[M].蘇州:蘇州大學(xué),2014.
供電服務(wù)是供電企業(yè)的一項重要綜合管理指標。在供電服務(wù)管理實踐活動中,可以發(fā)現(xiàn)供電服務(wù)與營銷業(yè)務(wù)管控、電網(wǎng)運行、設(shè)備運維、供電能力、電建施工、員工素質(zhì)、工作標準、管理者思維等諸多因素有關(guān),如何將供電服務(wù)管理中存在著的諸多變化和離散因素,運用系統(tǒng)的科學(xué)的方法進行分析,尋求管理上的精細化和實現(xiàn)風(fēng)險最小化,是各級供電企業(yè)所面臨的最迫切最現(xiàn)實的亟待解決的問題,最終實現(xiàn)客戶服務(wù)智能化、優(yōu)質(zhì)高效。
【關(guān)鍵詞】互聯(lián)網(wǎng)+ 大數(shù)據(jù)分析 供電服務(wù) 管控系統(tǒng) 設(shè)計與應(yīng)用
目前,供電公司系統(tǒng)中存在著龐大的數(shù)據(jù)分析工作,利用數(shù)據(jù)分析結(jié)果進行有效的診斷分析,以更好地指導(dǎo)營銷服務(wù),提升客戶服務(wù)功能,是供電公司必選的最佳途徑和手段,開發(fā)《基于互聯(lián)網(wǎng)+大數(shù)據(jù)分析模式創(chuàng)建供電服務(wù)管控系統(tǒng)》( The design and application of electricity system managing which is basing on ten huge data analysis ),其核心依托設(shè)計是創(chuàng)建大數(shù)據(jù)分析模式的供電服務(wù)管控應(yīng)用系統(tǒng),融合拓展開發(fā)《開放式用電信息服務(wù)平臺的應(yīng)用系統(tǒng)》{《開放式用電信息服務(wù)平臺》(The Opening Electricity Service Platform――簡稱:OEEP系統(tǒng))}是基于互聯(lián)網(wǎng)模式、計算機通信技術(shù)、GIS地理信息系統(tǒng)、用電信息服務(wù)的開放式面向客戶端的信息平臺,通過開發(fā)利用計算機、手機智能式服務(wù)系統(tǒng),在確保電網(wǎng)和營銷管理系統(tǒng)的安全前提下,鏈接供電生產(chǎn)系統(tǒng)、營銷服務(wù)系統(tǒng)與客戶端服務(wù)大數(shù)據(jù)系統(tǒng)信息共享,實現(xiàn)互聯(lián)網(wǎng)+多媒體的一體化開放式管控系統(tǒng)和公共服務(wù)平臺。
1 供電服務(wù)管控系統(tǒng)設(shè)計思路
1.1 供電服務(wù)管控應(yīng)用系統(tǒng)設(shè)計
(1)建立與營銷系統(tǒng)完整鏈接的營銷服務(wù)主系統(tǒng),基礎(chǔ)數(shù)據(jù)來源和依賴于營銷系統(tǒng)數(shù)據(jù),分類建立不同功能模塊,設(shè)定客觀的量化指標,加入賽馬博弈競賽評分功能,客觀真實的反映出各層級供電單位供電服務(wù)業(yè)績,通過營銷服務(wù)在線管控系統(tǒng)實現(xiàn)綜合評價。
(2)搭建供電服務(wù)應(yīng)用系統(tǒng),實時實現(xiàn)首端與末端、縱向與橫向、分級管控的全方位管控和應(yīng)用,開發(fā)手機客戶端APP下載到每個員工手機上,達到供電服務(wù)全天候、全過程的在線操作。
(3)主要實現(xiàn)功能:供電服務(wù)法規(guī)及政策、信息公開及、工單受理與流轉(zhuǎn)、服務(wù)指標體系、競賽積分系統(tǒng)、工作動態(tài)與經(jīng)驗推介、綜合評價與獎懲。
(4)供電服務(wù)管控系統(tǒng)設(shè)計上,重點突出系統(tǒng)工程管理思維,力求規(guī)范化、標準化和可操作化,建立相應(yīng)人性化管理的信息保障機制,對供電服務(wù)提升將會起到很好促進作用。
1.2 開放式用電信息服務(wù)平臺
(1)依托互聯(lián)網(wǎng)和計算機軟件技術(shù),建立GIS地理和供電設(shè)備集成系統(tǒng),實現(xiàn)模糊查詢實時鏈接。
(2)采用互聯(lián)網(wǎng)+模式,將95598客戶服務(wù)系統(tǒng)和營銷服務(wù)系統(tǒng)嵌入,經(jīng)過數(shù)據(jù)研判分析,建立開放式的客戶端即時使用和交換界面。
(3)建設(shè)依托計算機通信系統(tǒng)拓展的電力多樣化、智能化的服務(wù),通過多媒體系統(tǒng)、掌上APP、微信等客戶端系統(tǒng),實時與金融、氣象、交通等其他資訊系統(tǒng)融合的通訊交換功效。
(4)借助電力系統(tǒng)的調(diào)度D5000系統(tǒng)、生產(chǎn)PMS系統(tǒng)、營銷MIS系統(tǒng)、用電信息采集系統(tǒng)等以及拓展的營配調(diào)貫通系統(tǒng),實現(xiàn)全方位全天候的停電信息實時、設(shè)備故障查詢、客戶報修服務(wù)系統(tǒng)合一功能。
2 系統(tǒng)功能性設(shè)計界面
2.1 大數(shù)據(jù)系統(tǒng)性分析
(1)應(yīng)用數(shù)理統(tǒng)計學(xué)原理和解析法開展供電服務(wù)大數(shù)據(jù)分析、篩選、研判操作,通過數(shù)據(jù)分析結(jié)論,以系統(tǒng)的管理理念、科學(xué)的管理方法揭示業(yè)務(wù)管控、運行過程、管理現(xiàn)象內(nèi)在規(guī)律性問題,拓展供電服務(wù)領(lǐng)域措施和更大的提升空間。
(2)對供電服務(wù)管理的歸類統(tǒng)計和分析,可以達到過程清晰,由整體、局部到個性離散元素之間邏輯關(guān)系和關(guān)聯(lián)鏈接實現(xiàn)了閉環(huán),便于發(fā)現(xiàn)問題,從而改進供電服務(wù)管理的統(tǒng)計方法和分析思路。
(3)在供電服務(wù)管理中,能把影響供電服務(wù)指標變化的因素,以及諸多因素影響的程度,進行量化和篩選出來,有效的解決了投訴事件分析的盲目性和無序性,增強了投訴事件分析和管理流程的針對性、目的性和規(guī)律性,提高了精細化管理水平和工作效率。
(4)把營銷服務(wù)活動過程中,具有規(guī)律性和關(guān)聯(lián)性的諸多離散因素及物理現(xiàn)象,以及過程化的實踐控制流程,建立數(shù)據(jù)分析的邏輯鏈接,進行分類歸納和運算分析,展現(xiàn)不同的管控對象所需要的應(yīng)用界面、過程管控以及個性需求。
2.2 客戶信息服務(wù)平臺
(1)基于互聯(lián)網(wǎng)+模式與計算機網(wǎng)絡(luò)通信規(guī)約,將GIS地理系統(tǒng)為基本內(nèi)核,實時進行導(dǎo)航鏈接,運用多媒體功能界面,在計算機終端和手機端加載運行。
(2)建立一個個不同數(shù)據(jù)結(jié)構(gòu)的模型,設(shè)計若干程序模塊和接口,實現(xiàn)內(nèi)置固化和跟蹤嵌入的方式,實時數(shù)據(jù)鏈接相關(guān)功能模塊,在不同的支撐界面進行靈活交互。
(3)鑒于信息安全管控要求,在確保電力網(wǎng)物理隔離和邏輯隔離滿足安全運行的情況下,在設(shè)計入口時設(shè)置唯一身份驗證和電子鑰匙,有條件的開放調(diào)度、生產(chǎn)和營銷系統(tǒng)數(shù)據(jù)接口,防止發(fā)生數(shù)據(jù)破壞和病毒侵害。
2.3 系統(tǒng)設(shè)計構(gòu)架圖
如圖1、2、3所示。
3 系統(tǒng)功能及性價比
3.1 實現(xiàn)功能
(1)該系統(tǒng)實現(xiàn)跨專業(yè)海量的信息資源共享,系統(tǒng)公共管理和專業(yè)個性的管理,實現(xiàn)專業(yè)融合、互動和協(xié)同,可滿足各級供電公司和不同管理層級的人員管理需求。
(2)該系統(tǒng)可實現(xiàn)實時的在線研判、指揮和分析,實現(xiàn)各層級供電服務(wù)在線實時跟蹤管控,提升了工作時效性、針對性和真實性。
(3)開放式的用電信息服務(wù)突破傳統(tǒng)服務(wù)技術(shù)瓶頸,建立了客戶與供公司自由、方便、快捷的服務(wù)通道,對客戶訴求和業(yè)務(wù)辦理實現(xiàn)在時間和空間上的即時響應(yīng)和一對一服務(wù)。
(4)該系統(tǒng)開發(fā)使用可實現(xiàn)供電公司各種系統(tǒng)資源的縱橫協(xié)同和拓展延伸,實現(xiàn)內(nèi)部資源有效應(yīng)用,最大限度的發(fā)揮各系統(tǒng)管理效益和經(jīng)濟效益,資源高效利用提升了企業(yè)資產(chǎn)良性運行成效。
(5)該系統(tǒng)應(yīng)用可提高工作效率,減輕和降低了人員繁重和重復(fù)的工作量,解放了一線人員勞動資源。
3.2 性價比分析
3.2.1 軟硬件投資
一次性投資該系統(tǒng)的開發(fā)費用較低,基本上是用于已有的各類系統(tǒng)的接口技術(shù)處理,實現(xiàn)諸多系統(tǒng)和平臺之間的鏈接,該系統(tǒng)軟件運維成本較低,除了已有的各類系統(tǒng)自身的運維費用外,該系統(tǒng)只需解決接口費用即可。
主系統(tǒng)需配置較高標準的新設(shè)備,各級工作站現(xiàn)按照統(tǒng)一標準配置計算機和交換機等設(shè)備,即可滿足使用。建議各級供電服務(wù)指揮中心建設(shè)不同規(guī)格的大屏幕監(jiān)控工作室。
3.2.2 應(yīng)用效益分析
(1)該系統(tǒng)開發(fā)后,實現(xiàn)了全省供電系統(tǒng)技術(shù)服務(wù)資源的整合高效利用,精細了管控過程和環(huán)節(jié),評價客觀真實,公司的管理效益十分顯著。
【關(guān)鍵詞】智慧倉儲 物聯(lián)網(wǎng) 大數(shù)據(jù)平臺
大型供應(yīng)鏈管理服務(wù)商通常具備多條成熟的運輸線路以及遍布全國的貨物倉庫,企業(yè)日益擴大的交易規(guī)模和業(yè)務(wù)范圍,各地倉儲和物流運輸每日可采集豐富的交易、物流、倉儲、供應(yīng)商等數(shù)據(jù),單一的企業(yè)ERP系統(tǒng)只能完成資源管理,對于海量數(shù)據(jù)的分析和企業(yè)更高要求的數(shù)據(jù)分析能力有限,于是,企業(yè)智慧倉儲大數(shù)據(jù)平臺應(yīng)運而生。
本文提出的智慧倉儲運營支撐平臺,運用了先進的RFID技術(shù)、視頻分析技術(shù)及大數(shù)據(jù)分析技術(shù),不僅解決了分散在各處的倉庫智慧化管理,還可將倉庫和物流各類運營及管理基礎(chǔ)數(shù)據(jù)同步上傳至大數(shù)據(jù)平臺,實現(xiàn)倉庫運營和管理信息資源的整合與共享,并依托各類基礎(chǔ)信息庫,為企業(yè)管理者提供智能決策支持。
1 智慧倉儲運營支撐平臺
智慧倉儲運營支撐平臺是一個功能完備的基礎(chǔ)平臺,系統(tǒng)架構(gòu)如下圖所示,分五層結(jié)構(gòu):感知層、傳輸層、數(shù)據(jù)層、服務(wù)層和應(yīng)用層。
1.1 感知層
包括RFID讀寫器、激光雷達、視頻終端、門禁對講、溫濕度傳感器和警報器。
1.2 傳輸層
采用有線局域網(wǎng)或WIFI無線通信方式與支撐平臺連接并傳輸數(shù)據(jù)。
1.3 數(shù)據(jù)層
包括設(shè)備信息庫、業(yè)務(wù)信息庫、監(jiān)控信息庫和人員信息庫。
1.4 服務(wù)層
包括RFID中間件、ESB總線和第三方接口等模塊,為整個系統(tǒng)的運行提供服務(wù)支撐。
1.5 應(yīng)用層
包括倉庫的業(yè)務(wù)管理、安防管理、人員管理、報表分析和系統(tǒng)管理等功能。
通過智慧倉儲運營支撐平臺可實現(xiàn)對貨物入庫、出庫、移庫、盤點等基本業(yè)務(wù)的智能化處理,其中,視頻分析技術(shù)還可實現(xiàn)倉儲的安防管理、人員管理等功能,不僅實現(xiàn)了對倉庫的智能化管理,還能夠收集物流和倉儲的各個生產(chǎn)過程和任務(wù)執(zhí)行中產(chǎn)生的運營數(shù)據(jù),作為大數(shù)據(jù)分析平臺數(shù)據(jù)源的重要組成部分,為企業(yè)實現(xiàn)智能分析提供了基礎(chǔ)。
2 智慧倉儲大數(shù)據(jù)應(yīng)用
智慧倉儲運營支撐平臺將各地的倉儲運營數(shù)據(jù)統(tǒng)一上傳至企業(yè)大數(shù)據(jù)平臺,進行分類和對分散及重復(fù)數(shù)據(jù)進行篩選、匯總、抽取、挖掘、分析形成物流與倉儲有價值的大數(shù)據(jù),便可應(yīng)用于企業(yè)管控和管理全過程的協(xié)調(diào)、管理、協(xié)同、決策。大數(shù)據(jù)平臺架構(gòu)如下圖所示,分為數(shù)據(jù)源、大數(shù)據(jù)獲取、大數(shù)據(jù)處理、大數(shù)據(jù)服務(wù)四層。
數(shù)據(jù)源層主要實現(xiàn)采集前端各類感知設(shè)備以及各倉儲運營平臺數(shù)據(jù)。
大數(shù)據(jù)獲取層實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)的導(dǎo)入導(dǎo)出。
大數(shù)據(jù)處理層實現(xiàn)數(shù)據(jù)的分布式存儲和并行計算,并統(tǒng)一提供資源的調(diào)度服務(wù)、訪問服務(wù)、管理監(jiān)控服務(wù)和權(quán)限控制服務(wù)等。
大數(shù)據(jù)應(yīng)用層實現(xiàn)物流運輸調(diào)度、儲位管理、可追溯管理、精準營銷等各類智慧化應(yīng)用。
2.1 運輸調(diào)度
通過大數(shù)據(jù)優(yōu)化任務(wù)發(fā)運計劃,使運輸任務(wù)最大程度地銜接起來,達到整個運輸網(wǎng)絡(luò)任務(wù)協(xié)調(diào)排程,合理組織運輸工作和車輛調(diào)配,提高運輸調(diào)度水平。
2.2 儲位管理
通過對產(chǎn)品的進出貨數(shù)據(jù)進行分析、整理、分類,深度挖掘不同類別之間的相關(guān)關(guān)系,再配合波次作業(yè)手段,優(yōu)化揀貨單,提高倉儲工作效率。
2.3 可追溯管理
借助大數(shù)據(jù)平臺智能分析及智慧倉儲前端采集信息,建立產(chǎn)品檔案,全面直觀地展示品牌形象,借助供應(yīng)鏈系統(tǒng)與電子商務(wù)交易平臺,實時監(jiān)督產(chǎn)品生產(chǎn)、交易和運輸全過程。
2.4 精準營銷
通過收集各個電子商務(wù)平臺上同類產(chǎn)品的銷售價格、數(shù)量、潛力,以及老客戶的個人資料、交易行為、忠誠度等信息,同時深度挖掘潛在客戶,制定一些優(yōu)惠政策,激發(fā)購買的積極性,定向推送產(chǎn)品信息,實現(xiàn)精準營銷。
3 結(jié)束語
基于大數(shù)據(jù)分析的智慧倉儲運營支撐平臺,適用于擁有多個分散倉庫的大型企業(yè),不僅使倉庫管理者能夠及時掌握倉庫運行情況,更將大數(shù)據(jù)技術(shù)應(yīng)用到物流領(lǐng)域,對于建設(shè)智能倉儲體系,優(yōu)化物流運作流程,提升物流倉儲的自動化、智能化水平有著積極的推進作用。
參考文獻
[1]肖建輝.淺談倉儲管理[J].物流工程與管理,2010,32(06):130-132.
[2]張仁彬,李玉民.基于物聯(lián)網(wǎng)技術(shù)倉儲管理系統(tǒng)研究[J].物流科技,2011(06):35-38.
[3]宮夏屹,李伯虎,柴旭東,等.大數(shù)據(jù)平臺技術(shù)綜述[J].系統(tǒng)仿真學(xué)報,2014, 26(03):489-496.
關(guān)鍵詞:大數(shù)據(jù) 交易平臺 數(shù)據(jù)資源 數(shù)據(jù)分析服務(wù) 融合
1.引言
目前發(fā)展大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)上升為國家戰(zhàn)略,大數(shù)據(jù)的價值也得到了社會的廣泛認可。眾多研究[1-5]表明,大數(shù)據(jù)不僅為政府治理開辟了新思路,還是企業(yè)創(chuàng)新的重要源泉和高??蒲械闹匾?。大數(shù)據(jù)交易平臺是整個大數(shù)據(jù)產(chǎn)業(yè)的基礎(chǔ)與核心,它使得數(shù)據(jù)資源可以在不同組織之間流動,從而讓單個組織能夠獲得更多、更全面的數(shù)據(jù)。這樣不僅提高了數(shù)據(jù)資源的利用效率,更重要的是,當一個組織擁有的數(shù)據(jù)資源不斷豐富和立體化,有助于其通過數(shù)據(jù)分析發(fā)現(xiàn)更多的潛在規(guī)律,從而對內(nèi)提高自身的效率,對外促進整個社會的不斷進步。
在現(xiàn)有的大數(shù)據(jù)交易平臺上,數(shù)據(jù)供應(yīng)方和需求方各自供需信息,交易雙方瀏覽這些信息,如果發(fā)現(xiàn)合適的交易對象,則進行大數(shù)據(jù)資源的買賣,交易平臺只作為信息中介存在。這類大數(shù)據(jù)交易的本質(zhì),其實是單獨的大數(shù)據(jù)資源交易,現(xiàn)有平臺可以統(tǒng)稱為第一代大數(shù)據(jù)交易平臺。第一代大數(shù)據(jù)交易平臺在供需平衡、數(shù)據(jù)定價和時效性三個方面都存在較大的不足。本文針對這些不足進行改進,設(shè)計了一種全新的第二代大數(shù)據(jù)交易平臺,命名為:融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺,該平臺將數(shù)據(jù)資源交易與數(shù)據(jù)分析服務(wù)進行深度融合,實現(xiàn)了數(shù)據(jù)與服務(wù)的一體化交易。本研究不僅為當下正在建設(shè)的各類大數(shù)據(jù)交易平臺提供有益的借鑒,也豐富了大數(shù)據(jù)交易的基礎(chǔ)理論體系。
2.相關(guān)研究
目前大數(shù)據(jù)交易的相關(guān)研究中,比較有代表性的有:
(1)大數(shù)據(jù)的財產(chǎn)屬性和所有權(quán)。王玉林等[6]對大數(shù)據(jù)的財產(chǎn)屬性展開研究,認為大數(shù)據(jù)的法律屬性會直接影響大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,而大數(shù)據(jù)交易實踐本身就反映出大數(shù)據(jù)具有財產(chǎn)屬性。但大數(shù)據(jù)與傳統(tǒng)的財產(chǎn)權(quán)客體存在較大不同,它符合信息財產(chǎn)的特征,是信息財產(chǎn)權(quán)的客體,應(yīng)受到相關(guān)法律的保護。齊愛民等[7]從宏觀的角度分析了國家對于其主權(quán)范圍內(nèi)數(shù)據(jù)的所有權(quán),剖析了個人擁有的數(shù)據(jù)權(quán)以及數(shù)據(jù)的財產(chǎn)權(quán)。
(2)大數(shù)據(jù)的定價問題。劉朝陽[8]對大數(shù)據(jù)的定價問題展開研究,首先分析了大數(shù)據(jù)的基本特征、價值特征等定價基礎(chǔ)。接著討論了效用價格論、成本價格論等定價模式。最后分析了大數(shù)據(jù)的定價策略,并對大數(shù)據(jù)定價的雙向不確定問題進行了詳細論述。劉洪玉等[9]認為在大數(shù)據(jù)交易過程中,由于缺乏足夠的歷史參考,其數(shù)據(jù)資源的交易價格很難確定,因此提出一種基于競標機制的魯賓斯坦模型,用于大數(shù)據(jù)交易雙方進行討價還價,以求達成一個交易的均衡價格。翟麗麗等[10]從資產(chǎn)的期權(quán)價值角度來評估大數(shù)據(jù)資源的價值,并指出數(shù)據(jù)在不斷變化和更新,加上數(shù)據(jù)的非獨占性等情況的出現(xiàn),數(shù)據(jù)資產(chǎn)的價值可能會下降,最后綜合這些因素構(gòu)建了一個評估模型來計算數(shù)據(jù)資產(chǎn)的價值。
(3)大數(shù)據(jù)交易的安全與隱私保護。史宇航[11]認為非法的數(shù)據(jù)交易會對個人數(shù)據(jù)等高價值信息的安全造成影響,對非法數(shù)據(jù)交易的購買方和協(xié)助方都應(yīng)進行處罰。提出應(yīng)先明確數(shù)據(jù)的法律屬性,再以數(shù)據(jù)交易所為平臺進行交易,并對數(shù)據(jù)交易所的法律地位進行了分析。殷建立等[12]為應(yīng)對大數(shù)據(jù)時代數(shù)據(jù)采集、交易等過程中的安全問題,綜合考慮技術(shù)、政策和管理平臺等方面的因素,構(gòu)建了一種個人數(shù)據(jù)溯源管理體系,該體系可在數(shù)據(jù)應(yīng)用時實現(xiàn)個人數(shù)據(jù)的追蹤溯源,從而保護其個人隱私。王忠[13]認為大數(shù)據(jù)環(huán)境下強大的數(shù)據(jù)需求會導(dǎo)致個人數(shù)據(jù)的非法交易,為應(yīng)對這種情況,應(yīng)該建立個人數(shù)據(jù)交易許可機制,通過發(fā)放交易許可證、拍賣授予等措施實現(xiàn)隱私保護。
(4)大數(shù)據(jù)交易的發(fā)展現(xiàn)狀與問題。楊琪等[14]認為我國的大數(shù)據(jù)交易還處于行業(yè)發(fā)展的早期,大量數(shù)據(jù)源未被激活,原因是大數(shù)據(jù)產(chǎn)業(yè)價值鏈的各個專業(yè)環(huán)節(jié)發(fā)展滯后,并且對數(shù)據(jù)交易中的安全問題和隱私泄露等有較大的擔(dān)憂。應(yīng)該對數(shù)據(jù)產(chǎn)品進行改造,使其更商品化,并且通過政府開放公共數(shù)據(jù)等措施逐漸消除數(shù)據(jù)流通中的安全顧慮。唐斯斯等[15]首先分析了我國大數(shù)據(jù)交易的發(fā)展特點、交易類型等現(xiàn)狀,接著指出目前大數(shù)據(jù)交易存在法律法規(guī)相對滯后、行業(yè)標準不完善、交易平臺定位不明確、數(shù)據(jù)質(zhì)量不高等問題,最后提出應(yīng)加快相關(guān)法律和標準建設(shè),并推動數(shù)據(jù)開放,加強交易方式的創(chuàng)新。
除了上述四個主要研究方向以外,李國杰等[16]從理論的角度分析了大數(shù)據(jù)研究在行業(yè)應(yīng)用和科學(xué)研究方面的重要作用,這從客觀上反映了大數(shù)據(jù)流通的必要性。涂永前等[17]認為大數(shù)據(jù)時代企業(yè)管理和運用數(shù)據(jù)資源的相關(guān)成本會成為企業(yè)的主要交易成本,這會改變企業(yè)的組織結(jié)構(gòu),并導(dǎo)致企業(yè)邊界的變化,企業(yè)會進行多方向的擴張,這為促進大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的相關(guān)法律的制定提供了理論支持??偟膩砜矗捎诖髷?shù)據(jù)交易本身屬于較新的領(lǐng)域,因此相關(guān)研究總體上較少,已有研究也大多集中在上述幾個研究方向上。實際上,大數(shù)據(jù)交易平臺是實現(xiàn)大數(shù)據(jù)交易的重要載體,是大數(shù)據(jù)資源流通轉(zhuǎn)換的主要節(jié)點,交易平臺本身需要隨著整個大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,不斷的改進和升級,而現(xiàn)有研究中恰恰缺少對大數(shù)據(jù)交易平臺本身進行創(chuàng)新的研究。由此,本文針對現(xiàn)有大數(shù)據(jù)交易平臺的不足,結(jié)合實際設(shè)計了一種全新的融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺,為實踐和科研提供借鑒和參考。
3.現(xiàn)有大數(shù)據(jù)交易平臺的不足
大數(shù)據(jù)本身作為一種新興事物,當把它作為一種商品進行交易時,其交易平臺的設(shè)計很自然會參照傳統(tǒng)的商品交易模式,即:交易雙方先供求信息,再經(jīng)過討價還價,達到一個均衡的價格則成交,賣方將大數(shù)據(jù)資源經(jīng)過脫敏處理后,交付給買方。目前無論是政府主導(dǎo)的大數(shù)據(jù)交易所,還是企業(yè)或者高校創(chuàng)建的大數(shù)據(jù)交易平臺,都是采用類似的交易模式,這也是第一代大數(shù)據(jù)交易平臺的突出特點。實際上大數(shù)據(jù)與傳統(tǒng)商品有很大的區(qū)別,照搬傳統(tǒng)商品的交易模式會出現(xiàn)很多問題。本文將從供需平衡、數(shù)據(jù)定價和時效性三個方面分析現(xiàn)有大數(shù)據(jù)交易平臺的不足。
3.1 數(shù)據(jù)供需的錯配
現(xiàn)有大數(shù)據(jù)交易平臺的第一點不足就是數(shù)據(jù)供需的錯配,即:供應(yīng)方提供的數(shù)據(jù)資源往往不是需求方所需要的,而需求方需要的數(shù)據(jù)在交易平臺上找不到,即使有相近的數(shù)據(jù)資源,也存在很大的數(shù)據(jù)缺失或冗余,買回去也無法使用。對數(shù)據(jù)供應(yīng)方來說,由于無法準確預(yù)知數(shù)據(jù)買方多樣性的需求,它只能從自身角度出發(fā),將可以公開的、并且自認為有價值的數(shù)據(jù)資源放到平臺上待售。對需求各異的買方來說,供應(yīng)方提供的標準數(shù)據(jù)很難與自己的應(yīng)用方向精準匹配,這也是目前大數(shù)據(jù)交易還不夠活躍的原因。當然,當供需雙方建立初步聯(lián)系以后,供應(yīng)方甚至可以為需求方個性化定制大數(shù)據(jù)資源,但即使這樣,供需錯配的問題仍然無法解決,原因就在于單個的數(shù)據(jù)供應(yīng)方無法提供多維的數(shù)據(jù)資源,只有多維的數(shù)據(jù)資源才具有較高的分析價值。
3.2 大數(shù)據(jù)資源定價困難
大數(shù)據(jù)資源定價困難是現(xiàn)有大數(shù)據(jù)交易平臺的第二點不足。大數(shù)據(jù)資源和普通商品不同,普通商品可以直接消費或者作為再加工的原材料,其價值都可以通過最終的消費品價格得到體現(xiàn)。而大數(shù)據(jù)本身的價值無法直接衡量,需求方購買它的目的是作為數(shù)據(jù)分析的信息源,但是否能發(fā)現(xiàn)潛在的規(guī)律還未可知。因此無法在購買前,準確判斷出待售數(shù)據(jù)資源的價值大小。此外,需求方在不確定某大數(shù)據(jù)資源是否能真正能給組織帶來收益情況下,很難給出一個較高的價格,這在客觀上會影響數(shù)據(jù)供應(yīng)方的交易積極性,加大了供需雙方達成交易的難度。
3.3 數(shù)據(jù)的時效性不強
現(xiàn)有大數(shù)據(jù)交易平臺的第三點不足,就是數(shù)據(jù)資源的時效性不強。目前很多大數(shù)據(jù)交易平臺上待售的數(shù)據(jù)資源都以歷史數(shù)據(jù)為主,這是因為數(shù)據(jù)資源在交易前需要經(jīng)歷脫敏處理,將涉及政府信息安全、企業(yè)商業(yè)機密和個人隱私等敏感信息進行變換和替代。此外,供應(yīng)方還需要對原始數(shù)據(jù)進行初步的清洗,整理成一定的數(shù)據(jù)格式集中存貯和交付,方便需求方進行數(shù)據(jù)分析。由于一般的數(shù)據(jù)供應(yīng)方并不具備對大數(shù)據(jù)進行實時脫敏和清洗的能力,只能將采集到的數(shù)據(jù)資源,經(jīng)過一段時間的離線處理后,再放到交易平臺上,所以只能供應(yīng)歷史數(shù)據(jù)。隨著社會節(jié)奏的不斷加快,歷史數(shù)據(jù)很可能并不能反映當下的真實情況,越來越多的數(shù)據(jù)分析都需要用到實時數(shù)據(jù)作為信息源,這是未來大數(shù)據(jù)交易必須克服的一個短板。
4.融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺設(shè)計
本文提出將數(shù)據(jù)分析服務(wù)融合到目前的大數(shù)據(jù)交易中,以此來克服現(xiàn)有交易平臺的不足,本節(jié)將首先對數(shù)據(jù)分析服務(wù)進行概念界定,再依次介紹平臺設(shè)計的總體思路和核心模塊的設(shè)計,具體如下。
4.1 數(shù)據(jù)分析服務(wù)的概念界定
數(shù)據(jù)分析是指運用各類數(shù)據(jù)處理模型和信息技術(shù)手段,對數(shù)據(jù)資源進行深度的挖掘,從而發(fā)現(xiàn)其中蘊含的規(guī)律,作為管理決策的依據(jù)。數(shù)據(jù)分析本身是一種能力,如果一個組織將其數(shù)據(jù)分析能力提供給其他組織或個人,并收取一定的費用,這就是數(shù)據(jù)分析服務(wù)。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)資源不僅體量巨大而且種類多,對數(shù)據(jù)分析能力的要求不斷提高。在這種情況下,只有少數(shù)組織具備獨立處理大數(shù)據(jù)的能力,其他的組織比如大量的中小企業(yè),都需要從組織外部尋求專業(yè)的數(shù)據(jù)分析服務(wù),來滿足自身的需要。因此,數(shù)據(jù)分析服務(wù)和大數(shù)據(jù)資源一樣存在巨大的市場需求。
4.2 平臺設(shè)計的總體思路
本文將提出的融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺,定位為第二代大數(shù)據(jù)交易平臺,它將大數(shù)據(jù)資源交易與數(shù)據(jù)分析服務(wù)兩者進行深度融合,在交易平臺上實現(xiàn)數(shù)據(jù)與服務(wù)的一體化交易。大數(shù)據(jù)交易平臺的角色也從原來的數(shù)據(jù)資源買賣的信息中介,轉(zhuǎn)變?yōu)榇髷?shù)據(jù)綜合服務(wù)商。在融合后的大數(shù)據(jù)交易平臺上,數(shù)據(jù)需求方不再提交數(shù)據(jù)資源的需求信息,而是直接提出自己的應(yīng)用方向和想要得到的結(jié)果,交易平臺再根據(jù)需求方的應(yīng)用方向,反向匹配數(shù)據(jù)資源和數(shù)據(jù)分析服務(wù)。這個匹配的過程不是單一的數(shù)據(jù)集或服務(wù)的查找,而是對全平臺的數(shù)據(jù)資源進行有效整合,形成高價值的多維數(shù)據(jù),再結(jié)合復(fù)合型的數(shù)據(jù)分析技術(shù),得到最終的分析結(jié)果,最后將分析結(jié)果與基礎(chǔ)數(shù)據(jù)一同交付給需求方。交付基礎(chǔ)數(shù)據(jù)的目的,一是方便需求方進行分析結(jié)果的對照,為決策提供更精準的參考。二是需求方可以根據(jù)基礎(chǔ)數(shù)據(jù)進行衍生挖掘,進一步提高數(shù)據(jù)的利用效率。平臺設(shè)計的總體思路繪制成圖1。
圖1 平臺設(shè)計的總體思路
4.3 核心模塊的設(shè)計
融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺共劃分為四大模塊,具體如圖2所示。
圖2 融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺的主要模塊
系統(tǒng)管理模塊具體又分為用戶管理、系統(tǒng)維護和安全管理。安全管理是系統(tǒng)管理模塊的重點,主要包含三個方面的功能:第一,負責(zé)整個交易平臺的系統(tǒng)安全,通過對交易平臺進行實時監(jiān)控,阻止外部的非法入侵行為,保障平臺的正常運行。第二,對數(shù)據(jù)供應(yīng)方提交的數(shù)據(jù)資源進行審核,如果發(fā)現(xiàn)是非法數(shù)據(jù),則阻止其交易,并及時將有關(guān)情況反饋給相關(guān)的政府監(jiān)管部門,由它們進行調(diào)查處理。第三,檢查所有數(shù)據(jù)是否經(jīng)過脫敏處理。如果發(fā)現(xiàn)部分數(shù)據(jù)存在未脫敏或者脫敏不合格的情況,交易平臺將負責(zé)對該數(shù)據(jù)資源進行脫敏處理,從而保護數(shù)據(jù)中的隱私不被泄露。
大數(shù)據(jù)資源池模塊、數(shù)據(jù)分析服務(wù)模塊和協(xié)同模塊是交易平臺的三大核心模塊,是數(shù)據(jù)與服務(wù)兩者融合并實現(xiàn)一體化交易的關(guān)鍵,本文接下來將對這三個核心模塊的功能進行詳細設(shè)計。
4.3.1 大數(shù)據(jù)資源池模塊
大數(shù)據(jù)資源池模塊主要包含三個方面的功能:數(shù)據(jù)資源格式的整理、數(shù)據(jù)的多維度整合、大數(shù)據(jù)資源的云存貯。具體如下。
(1)數(shù)據(jù)資源格式的整理。由于大數(shù)據(jù)交易平臺上的數(shù)據(jù)資源來自不同的數(shù)據(jù)供應(yīng)方,因此其數(shù)據(jù)資源的格式會有較大的差異。如果不經(jīng)過格式整理就直接進行數(shù)據(jù)分析,很可能會因部分數(shù)據(jù)無法準確讀取,而影響數(shù)據(jù)處理的效率,嚴重者還會導(dǎo)致數(shù)據(jù)分析中斷。數(shù)據(jù)資源格式整理的主要任務(wù)是將同一類型數(shù)據(jù)的格式進行統(tǒng)一,對部分缺失的數(shù)據(jù)屬性進行補充,對錯誤的數(shù)據(jù)格式進行修正。
(2)數(shù)據(jù)的多維度整合。在上文3.1中提到供需錯配的一個重要原因,就是單個數(shù)據(jù)供應(yīng)方無法提供高價值的多維數(shù)據(jù)。所謂多維數(shù)據(jù)是包含用戶或者行業(yè)多個背景和情境的大數(shù)據(jù)資源,這些多維數(shù)據(jù)使用戶或行業(yè)多個側(cè)面的信息產(chǎn)生了關(guān)聯(lián),有利于發(fā)現(xiàn)深層次的潛在規(guī)律。融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺應(yīng)該作為數(shù)據(jù)整合的主體,將單個數(shù)據(jù)供應(yīng)方提供的零散的數(shù)據(jù)資源,進行多維度的整合,當缺少某一個維度的數(shù)據(jù)時,再向相應(yīng)的數(shù)據(jù)供應(yīng)方進行定向的采集,最后得到相對完整的多維數(shù)據(jù),具有很高的分析價值。
(3)大數(shù)據(jù)資源的云存貯。大數(shù)據(jù)資源經(jīng)過格式整理和多維度整合以后,已經(jīng)可以作為數(shù)據(jù)分析服務(wù)的信息源。下一步就是將這些數(shù)據(jù)資源進行統(tǒng)一的云存貯,以便數(shù)據(jù)分析服務(wù)調(diào)用。以往部分大數(shù)據(jù)資源由于體量巨大或?qū)崟r更新的需要,無法上傳到交易平臺上,或者只提供部分調(diào)用接口。融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺通過建立云存貯中心,將整合后的多維數(shù)據(jù)進行統(tǒng)一存放和調(diào)用,有助于提高數(shù)據(jù)資源的存取效率。
4.3.2 數(shù)據(jù)分析服務(wù)模塊
數(shù)據(jù)分析服務(wù)模塊首先根據(jù)數(shù)據(jù)需求方的應(yīng)用方向,匹配出合適的多維數(shù)據(jù)資源,再選擇相應(yīng)的數(shù)據(jù)分析模型分配所需的計算能力,最后將得到的分析結(jié)果反饋給需求方。本文將數(shù)據(jù)分析服務(wù)劃分為三個大類:基礎(chǔ)性分析服務(wù)、高級分析服務(wù)、深度定制的分析服務(wù)。具體如下。
(1)基礎(chǔ)性分析服務(wù)。基礎(chǔ)性分析服務(wù)是指那些常規(guī)的數(shù)據(jù)統(tǒng)計,比如:總體中不同對象的占比分析,基于不同屬性的關(guān)聯(lián)分析或相關(guān)性分析等。這些分析服務(wù)耗時較短,分析技術(shù)較為簡單,只要數(shù)據(jù)資源本身完備,就可以迅速得到結(jié)果?;A(chǔ)性分析服務(wù)由大數(shù)據(jù)交易平臺本身來提供,可以面對不同的需求方,實現(xiàn)快速交付。
(2)高級分析服務(wù)。高級分析服務(wù)是指那些較為復(fù)雜的數(shù)據(jù)分析服務(wù),比如:精準的趨勢預(yù)測、全面的用戶興趣畫像、非結(jié)構(gòu)化的信息挖掘等。這些分析服務(wù)需要大量專業(yè)的數(shù)據(jù)處理技術(shù),比如:興趣建模、視頻分析,音頻分析、深度語義分析等,必須由大數(shù)據(jù)交易平臺對接第三方的數(shù)據(jù)分析服務(wù)商,由它們來提供高級分析服務(wù)。大數(shù)據(jù)交易平臺在同一數(shù)據(jù)分析領(lǐng)域,應(yīng)引入多家數(shù)據(jù)分析服務(wù)商,通過動態(tài)的競爭,來保證服務(wù)的質(zhì)量。
(3)深度定制的分析服務(wù)。大數(shù)據(jù)分析目前還處在快速發(fā)展階段,很多前瞻性的技術(shù)還在試驗當中,應(yīng)該說數(shù)據(jù)分析技術(shù)的發(fā)展相對于旺盛的現(xiàn)實需求來說是滯后的。當需要用的某一數(shù)據(jù)分析技術(shù),在目前的市場上還找不到現(xiàn)成的提供方時,就需要大數(shù)據(jù)交易平臺為其進行深度的定制,交易平臺通過多方位的研發(fā)能力評估,尋找合適的技術(shù)主體來進行專門的技術(shù)攻關(guān)。
4.3.3 協(xié)同模塊
協(xié)同模塊主要包含兩個方面的功能:數(shù)據(jù)分析服務(wù)之間的技術(shù)協(xié)同、交易各方的管理協(xié)同。具體如下。
(1)數(shù)據(jù)分析服務(wù)之間的技術(shù)協(xié)同。在面臨較為復(fù)雜的數(shù)據(jù)分析任務(wù)時,可能需要用到多個領(lǐng)域的數(shù)據(jù)分析技術(shù),這時單個的數(shù)據(jù)分析服務(wù)商可能無法獨立完成。因為不同的行業(yè)領(lǐng)域,都有其行業(yè)技術(shù)的獨特性,需要長時間的專業(yè)積累。在這種情況下,就需要多個數(shù)據(jù)分析服務(wù)商相互合作才能完成。數(shù)據(jù)分析服務(wù)之間的技術(shù)協(xié)同,就是通過一定的技術(shù)標準和操作規(guī)范,讓多個數(shù)據(jù)分析技術(shù)提供方,能夠在完成同一任務(wù)時,在技術(shù)上不沖突,能夠相互并行的完成對數(shù)據(jù)資源的處理,按時按質(zhì)的交付最終的分析結(jié)果。
(2)交易各方的管理協(xié)同。在融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺上,交易的參與者一共有四類,分別是數(shù)據(jù)資源的供應(yīng)方、數(shù)據(jù)分析服務(wù)商、需求方和交易平臺自身。數(shù)據(jù)需求方在提交自己的應(yīng)用方向和預(yù)期結(jié)果的同時,提交自己的交易預(yù)算。交易平臺根據(jù)需求方提交的應(yīng)用方向和預(yù)期結(jié)果,對數(shù)據(jù)資源和數(shù)據(jù)分析服務(wù)進行反向的選擇。如果數(shù)據(jù)分析任務(wù)中只用到了基礎(chǔ)性分析服務(wù),則整個交易為平臺方、需求方、數(shù)據(jù)資源供應(yīng)方的三方交易。如果某數(shù)據(jù)分析任務(wù),平臺自身無法完成,需要用到第三方的數(shù)據(jù)分析服務(wù)商,則整個交易包含了全部四類參與者,是一個四方交易。交易的基本原則是實現(xiàn)參與各方的利益共享。交易各方的具體利益分配如圖3所示。
圖3 交易各方的利益分配
需求方希望在獲得預(yù)期結(jié)果的同時,其支付的成本在可接受的范圍內(nèi)。交易平臺在對數(shù)據(jù)和服務(wù)進行反向匹配后,會出現(xiàn)兩種不同的情況:第一種情況是在原交易預(yù)算下,可以達到需求方預(yù)期的結(jié)果,則可成交。第二種情況是,原交易預(yù)算較低,在該預(yù)算下無法達到需求方要求的結(jié)果,這時交易平臺會和需求方溝通,提出新的報價,需求方經(jīng)過考慮后,與平臺進行討價還價,它們在價格上達成一致時才能完成交易。由于交易數(shù)據(jù)是整合后的多維數(shù)據(jù),因此原始數(shù)據(jù)資源供應(yīng)方的收益,由平臺從總交易價中支付,具體的支付方式可分為平臺一次性買斷或按次數(shù)支付。同一數(shù)據(jù)資源對于不同的需求者來說,其價值是不一樣的,融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺根據(jù)最終的一體化交易成交價,反向?qū)?shù)據(jù)資源進行定價,相對于現(xiàn)有的大數(shù)據(jù)交易平臺來說,是一種進步。交易平臺的深度參與,會使數(shù)據(jù)交易的頻率加快,原始數(shù)據(jù)資源供應(yīng)方會獲得更多的收益。數(shù)據(jù)分析服務(wù)商根據(jù)具體的數(shù)據(jù)分析任務(wù),直接參與由平臺發(fā)起的競價,達成交易后由平臺支付。交易平臺本身的收益則是需求方支付額減去其他各方收益的差價。
5.融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺的優(yōu)勢
本文3.1到3.3中指出現(xiàn)有大數(shù)據(jù)交易平臺存在數(shù)據(jù)供需錯配、大數(shù)據(jù)資源定價困難、數(shù)據(jù)的時效性不強三大不足。融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺作為改進后的第二代大數(shù)據(jù)交易平臺,可以很好地克服上述三點不足。除了這三個方面的優(yōu)勢以外,由于融合后可實現(xiàn)數(shù)據(jù)與服務(wù)的一體化交易,這將擴大交易對象的覆蓋范圍,提升交易的活力,具體如下。
5.1 直接面向應(yīng)用,從根本上避免了數(shù)據(jù)供需的錯配
在融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺上,需求方對交易平臺直接提出應(yīng)用方向和預(yù)期結(jié)果。交易平臺對全平臺的數(shù)據(jù)進行多維度整合,如果缺失某個維度的數(shù)據(jù),可以進行定向的采集和補充,最后形成高價值的多維數(shù)據(jù)。這些多維數(shù)據(jù)才是真正具有分析價值的數(shù)據(jù)資源,這是單個數(shù)據(jù)供應(yīng)方無法提供的。在得到多維數(shù)據(jù)后,結(jié)合平臺自身和第三方數(shù)據(jù)服務(wù)商的分析能力,得到最終的分析結(jié)果。交易平臺最后交付給需求方的是數(shù)據(jù)分析結(jié)果和基礎(chǔ)數(shù)據(jù),這種直接面向最終應(yīng)用的大數(shù)據(jù)交易方式,從根本上避免了數(shù)據(jù)供需的錯配。
5.2 融合后定價更有根據(jù)
在現(xiàn)有的大數(shù)據(jù)平臺上,數(shù)據(jù)需求方是將數(shù)據(jù)資源買回去以后自己分析,而在購買數(shù)據(jù)資源之前,不能預(yù)知數(shù)據(jù)分析效果的好壞,因此無法進行有效的價值判斷,這是定價困難的關(guān)鍵點。在融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺上,需求方不再直接對數(shù)據(jù)資源付費,而是對最終的數(shù)據(jù)分析結(jié)果付費,并且數(shù)據(jù)分析結(jié)果是根據(jù)需求方的要求反向定制的,是符合需求方利益的。需求方可以通過評估預(yù)期結(jié)果對自身的重要性或收益的改進程度,給出適當?shù)慕灰最A(yù)算。交易平臺以該預(yù)算為參照,對數(shù)據(jù)和服務(wù)進行選擇,若出現(xiàn)原預(yù)算約束下無法實現(xiàn)預(yù)期結(jié)果的情況,交易平臺再與需求方進行溝通,雙方討價還價后達成交易。這樣相對于現(xiàn)有的大數(shù)據(jù)交易平臺來說,融合后定價更有依據(jù)。
5.3 融合后可提供實時數(shù)據(jù)
在融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺上,數(shù)據(jù)資源采用云存貯的模式,由平臺進行統(tǒng)一管理,這提高了數(shù)據(jù)資源的安全性。在數(shù)據(jù)安全有保障的前提下,由交易平臺出面和數(shù)據(jù)資源供應(yīng)方進行實時數(shù)據(jù)的對接,將實時數(shù)據(jù)納入大數(shù)據(jù)資源池中。對于單個的數(shù)據(jù)資源供應(yīng)方來說,實時的數(shù)據(jù)脫敏難度太大。但大數(shù)據(jù)交易平臺不一樣,它可以利用規(guī)模優(yōu)勢,組建強大的計算能力,對大數(shù)據(jù)資源進行實時的脫敏和清洗,極大地提高了數(shù)據(jù)資源的時效性。
5.4 融合后將擴大交易對象的覆蓋范圍,提升交易的活力
融合后可實現(xiàn)數(shù)據(jù)和服務(wù)的一體化交易,讓很多自身不具備數(shù)據(jù)分析能力的組織和個人,也能方便地利用大數(shù)據(jù),特別是大量的中小企業(yè),這將大大增加交易對象的覆蓋范圍。
交易對象的增多會促進交易頻率的增長,從而為數(shù)據(jù)資源供應(yīng)方帶來更多的收益,這樣會提升它們參與交易的積極性,鼓勵它們供應(yīng)更多的數(shù)據(jù)資源,從而提升交易的活力,整個大數(shù)據(jù)交易行業(yè)就形成了正向循環(huán)的良好發(fā)展態(tài)勢。
6結(jié)語
本文對大數(shù)據(jù)交易平臺本身進行了改進與創(chuàng)新,設(shè)計了一種全新的第二代大數(shù)據(jù)交易平臺,即:融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺。該交易平臺可以直接面向需求方的應(yīng)用方向,實現(xiàn)數(shù)據(jù)和服務(wù)的一體化交易,不僅從根本上避免了數(shù)據(jù)供需的錯配,還使大數(shù)據(jù)交易的定價更有依據(jù),平臺的深度參也讓提供實時數(shù)據(jù)成為可能,這些將從整體上提升大數(shù)據(jù)交易的效率。融合后數(shù)據(jù)和服務(wù)的一體化交易降低了大數(shù)據(jù)應(yīng)用的技術(shù)門檻,鼓勵更多組織和個人參與,增加了交易活力。未來筆者將繼續(xù)關(guān)注大數(shù)據(jù)交易平臺的創(chuàng)新研究,為實際應(yīng)用和學(xué)術(shù)科研提供更多有益的參考。
參考文獻
[1]趙強,單煒.大數(shù)據(jù)政府創(chuàng)新:基于數(shù)據(jù)流的公共價值創(chuàng)造[J].中國科技論壇,2014(12):23-27.
[2]徐繼華,馮啟娜,陳貞汝.智慧政府:大數(shù)據(jù)治國時代的來臨[M].北京:中信出版社,2014.
[3]李文蓮,夏健明.基于“大數(shù)據(jù)”的商業(yè)模式創(chuàng)新[J].中國工業(yè)經(jīng)濟,2013(5):83-95.
[4]侯錫林,李天柱,馬佳,等.大數(shù)據(jù)環(huán)境下企業(yè)創(chuàng)新機會研究[J].科技進步與對策,2014,31(24):82-86.
[5]張峰,張迪.論大數(shù)據(jù)時代科研方法新特征及其影響[J].科學(xué)學(xué)研究,2016,34(2):166-170,202.
[6]王玉林,高富平.大數(shù)據(jù)的財產(chǎn)屬性研究[J]。圖書與情報,2016(1):29-35,43.
[7]齊愛民,盤佳.數(shù)據(jù)權(quán)、數(shù)據(jù)主權(quán)的確立與大數(shù)據(jù)保護的基本原則[J].蘇州大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2015(1):64-70.
[8]劉朝陽.大數(shù)據(jù)定價問題分析[J].圖書情報知識,2016(1):57-64.
[9]劉洪玉,張曉玉,侯錫林.基于討價還價博弈模型的大數(shù)據(jù)交易價格研究[J].中國冶金教育,2015(6):86-91.
[10]翟麗麗,王佳妮,何曉燕.移動云計算聯(lián)盟企業(yè)數(shù)據(jù)資產(chǎn)評估方法研究[J].價格理論與實踐,2016(2):153-156.
[11]史宇航.個人數(shù)據(jù)交易的法律規(guī)制[J].情報理論與實踐,2016,39(5):34-39.
[12]殷建立,王忠.大數(shù)據(jù)環(huán)境下個人數(shù)據(jù)溯源管理體系研究[J].情報科學(xué),2016,34(2):139-143.
[13]王忠.大數(shù)據(jù)時代個人數(shù)據(jù)交易許可機制研究[J].理論月刊,2015(6):131-135.
[14]楊琪,龔南寧 .我國大數(shù)據(jù)交易的主要問題及建議[J].大數(shù)據(jù),2015(2):38-48.
· 為什么要做數(shù)據(jù)分析?
· 數(shù)據(jù)分析的目的是什么?
· 數(shù)據(jù)分析的一般過程是怎樣的?
· 有哪些數(shù)據(jù)分析方法?
· 在服務(wù)性行業(yè)里,數(shù)據(jù)分析方法有哪些需要特別注意的地方?
· 在國內(nèi)最容易犯哪些數(shù)據(jù)分析的錯誤?
因筆者能力和精力有限,文章中存在錯誤或沒有詳盡之處,還望各位讀者見諒并懇請及時指正,大家相互學(xué)習(xí)。
(一)數(shù)據(jù)分析的核心作用
根據(jù)國際標準的定義,“數(shù)據(jù)分析是有組織、有目的地收集并分析數(shù)據(jù),通過將數(shù)據(jù)信息化、可視化,使之成為信息的過程,其目的在于把隱藏在看似雜亂無章的數(shù)據(jù)背后的信息集中和提煉出來,從而總結(jié)研究對象的內(nèi)在規(guī)律。”在實際工作中,數(shù)據(jù)分析能夠幫助管理者進行判斷和決策,以便采取適當策略與行動。
這里需引起關(guān)注的是任何沒有目的或結(jié)果的分析報告都是“忽悠”,都僅僅是沒有靈魂的軀殼!我們經(jīng)??吹絿鴥?nèi)的同事們忙于各種所謂的“數(shù)據(jù)分析報告”,堆砌了大量的圖表和文字,顯得“專業(yè)”、“美觀”,但認真研讀后卻發(fā)現(xiàn)缺乏最關(guān)鍵的“分析”過程,更別說什么分析結(jié)果了。顯然大家只是把對事實的原始描述當成了數(shù)據(jù)分析,而實際上描述原始事實只是數(shù)據(jù)分析過程的一項內(nèi)容而非全部。數(shù)據(jù)分析不能僅有報表沒有分析,因為“有報表不等于有分析,有分析不代表有效執(zhí)行”,報表只是數(shù)據(jù)的展現(xiàn)形式;數(shù)據(jù)分析也不能僅有分析沒有結(jié)論,沒有結(jié)論的分析無疑“差了一口氣”,對實際業(yè)務(wù)工作無法產(chǎn)生價值,唯有通過分析得出結(jié)論并提出解決方案才能體現(xiàn)數(shù)據(jù)分析協(xié)助管理者輔助決策的核心作用。因此數(shù)據(jù)分析來源于業(yè)務(wù),也必須反饋到業(yè)務(wù)中去,沒有前者就不存在數(shù)據(jù)分析的基礎(chǔ),沒有后者也就沒有數(shù)據(jù)分析的價值了。
(二)數(shù)據(jù)分析的分類
最常見也是最標準的數(shù)據(jù)分析可分為三大類:描述性數(shù)據(jù)分析、探索性數(shù)據(jù)分析以及驗證性數(shù)據(jù)分析。
所謂描述性分析是對一組數(shù)據(jù)的各種特征進行分析,以便于描述測量樣本的各種特征及其所代表的總體特征。這種分析要對調(diào)查總體所有變量的有關(guān)數(shù)據(jù)做統(tǒng)計性描述,主要包括數(shù)據(jù)的頻數(shù)分析、數(shù)據(jù)的集中趨勢分析、數(shù)據(jù)離散程度分析、數(shù)據(jù)的分布以及一些基本的統(tǒng)計圖形,比如上個月的平均通話時長是多少,員工離職率是多少等等。
探索性數(shù)據(jù)分析是指對已有數(shù)據(jù)(特別是調(diào)查或觀察得來的原始數(shù)據(jù))在盡量少的先驗假定下進行探索,通過作圖、制表、方程擬合、計算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法,側(cè)重于在數(shù)據(jù)之中發(fā)現(xiàn)新的特征,比如呼叫中心的一次解決率和哪些因素相關(guān)?他們背后的驅(qū)動因素又有哪些?哪些因素是“因”、哪些又是“果”等等。
而驗證性分析是依據(jù)一定的理論對潛在變量與觀察變量間關(guān)系做出合理的假設(shè),并對這種假設(shè)進行統(tǒng)計檢驗的現(xiàn)代統(tǒng)計方法,側(cè)重于驗證已有假設(shè)的真?zhèn)涡?。驗證性分析是在對研究問題有所了解的基礎(chǔ)上進行的,這種了解可建立在理論研究、實驗研究或兩者結(jié)合的基礎(chǔ)上,比如從調(diào)研的結(jié)果來看本月的客戶滿意度比上個月高出2%,是否真是如此;男性客戶的滿意度是否高于女性客戶等等。
(三)數(shù)據(jù)分析的一般過程
通常來講完整的數(shù)據(jù)分析過程可分為以下幾步:明確數(shù)據(jù)分析的目的、采集并處理數(shù)據(jù)、分析及展現(xiàn)數(shù)據(jù)、撰寫分析報告。
現(xiàn)實情況中人們往往在做數(shù)據(jù)分析時陷入一大堆雜亂無章的數(shù)據(jù)中而忘記了分析數(shù)據(jù)的目的,數(shù)據(jù)分析第一步就是要明確數(shù)據(jù)分析的目的,然后根據(jù)目的選擇需要分析的數(shù)據(jù),明確數(shù)據(jù)分析的產(chǎn)出物,做到有的放矢、一擊即中!
其次,在做數(shù)據(jù)分析時要根據(jù)特定需求采集數(shù)據(jù),有目的地采集數(shù)據(jù)是確保數(shù)據(jù)分析過程有效的基礎(chǔ),采集后的數(shù)據(jù)(包括數(shù)值的和非數(shù)值的)要對其進行整理、分析、計算、編輯等一系列的加工和處理,即數(shù)據(jù)處理,數(shù)據(jù)處理的目的是從大量的、可能是難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對于某些特定人群來說是有價值、有意義的數(shù)據(jù)。
接著是對處理完畢的數(shù)據(jù)進行分析和展現(xiàn),分析數(shù)據(jù)是將收集的數(shù)據(jù)通過加工、整理和分析、使其轉(zhuǎn)化為信息,數(shù)據(jù)展現(xiàn)的方式有兩類:列表方式、圖形方式。
最后,整個數(shù)據(jù)分析過程要以“分析報告”的形式呈現(xiàn)出來,分析報告應(yīng)充分展現(xiàn)數(shù)據(jù)分析的起因、過程、結(jié)果及相關(guān)建議,需要有分析框架、明確的結(jié)論以及解決方案。數(shù)據(jù)分析報告一定要有明確的結(jié)論,沒有明確結(jié)論的分析稱不上分析,同時也失去了報告的意義,因為整個數(shù)據(jù)分析過程就是為尋找或者求證一個結(jié)論才進行的。最后,分析報告要有建議或解決方案,以供管理者在決策時作參考。
(四)客戶中心常用的數(shù)據(jù)分析工具及簡介1 Excel
Excel是微軟辦公套裝軟件的一個重要組成部分,它可以進行各種數(shù)據(jù)的處理、統(tǒng)計分析和輔助決策操作,廣泛地應(yīng)用于管理、統(tǒng)計財經(jīng)、金融等眾多領(lǐng)域。Excel提供了強大的數(shù)據(jù)分析處理功能,利用它們可以實現(xiàn)對數(shù)據(jù)的排序、分類匯總、篩選及數(shù)據(jù)透視等操作。
2 SPC
SPC(Statistical Process Control)即統(tǒng)計過程控制,是一種借助數(shù)理統(tǒng)計方法的過程控制工具。實施SPC的過程一般分為兩大步驟:首先用SPC工具對過程進行分析,如繪制分析用控制圖等;根據(jù)分析結(jié)果采取必要措施:可能需要消除過程中的系統(tǒng)性因素,也可能需要管理層的介入來減小過程的隨機波動以滿足過程能力的需求。第二步則是用控制圖對過程進行監(jiān)控。
3 SAS
SAS是用于決策支持的大型集成信息系統(tǒng),但該軟件系統(tǒng)最早的功能限于統(tǒng)計分析,時至今日,統(tǒng)計分析功能仍是它的重要組成部分和核心功能。在數(shù)據(jù)處理和統(tǒng)計分析領(lǐng)域,SAS系統(tǒng)被譽為國際上的標準軟件系統(tǒng),SAS提供多個統(tǒng)計過程,用戶可以通過對數(shù)據(jù)集的一連串加工實現(xiàn)更為復(fù)雜的統(tǒng)計分析,此外 SAS還提供了各類概率分析函數(shù)、分位數(shù)函數(shù)、樣本統(tǒng)計函數(shù)和隨機數(shù)生成函數(shù),使用戶能方便地實現(xiàn)特殊統(tǒng)計要求。
4 JMP
JMP是SAS(全球最大的統(tǒng)計學(xué)軟件公司)推出的一種交互式可視化統(tǒng)計發(fā)現(xiàn)軟件系列,包括JMP,JMP Pro,JMP Clinical,JMP Genomics,SAS Simulation Studio for JMP等強大的產(chǎn)品線,主要用于實現(xiàn)統(tǒng)計分析。其算法源于SAS,特別強調(diào)以統(tǒng)計方法的實際應(yīng)用為導(dǎo)向,交互性、可視化能力強,使用方便。JMP的應(yīng)用非常廣泛,業(yè)務(wù)領(lǐng)域包括探索性數(shù)據(jù)分析、六西格瑪及持續(xù)改善(可視化六西格瑪、質(zhì)量管理、流程優(yōu)化)、試驗設(shè)計、統(tǒng)計分析與建模、交互式數(shù)據(jù)挖掘、分析程序開發(fā)等。 SPSS(Statistical Product and Service Solutions)“統(tǒng)計產(chǎn)品與服務(wù)解決方案”軟件,是世界上最早的統(tǒng)計分析軟件,基本功能包括數(shù)據(jù)管理、統(tǒng)計分析、圖表分析、輸出管理等等。SPSS統(tǒng)計分析過程包括描述性統(tǒng)計、均值比較、一般線性模型、相關(guān)分析、回歸分析、對數(shù)線性模型、聚類分析、數(shù)據(jù)簡化、生存分析、時間序列分析、多重響應(yīng)等幾大類,每類中又分好幾個統(tǒng)計過程,比如回歸分析中又分線性回歸分析、曲線估計、Logistic回歸、Probit回歸、加權(quán)估計、兩階段最小二乘法、非線性回歸等多個統(tǒng)計過程,而且每個過程中又允許用戶選擇不同的方法及參數(shù),SPSS也有專門的繪圖系統(tǒng),可以根據(jù)數(shù)據(jù)繪制各種圖形。
6 Minitab
Minitab軟件是為質(zhì)量改善、教育和研究應(yīng)用領(lǐng)域提供統(tǒng)計軟件和服務(wù)的先導(dǎo),是全球領(lǐng)先的質(zhì)量管理和六西格瑪實施軟件工具,具有無可比擬的強大功能和簡易的可視化操作,對一般的數(shù)據(jù)分析和圖形處理都可以應(yīng)付自如。
【關(guān)鍵詞】 大數(shù)據(jù) HDFS MapReduce CIMS
一、研究背景
工業(yè)化和計算機技術(shù)的發(fā)展,使制造系統(tǒng)每天產(chǎn)生的數(shù)據(jù)量不斷增加,整個制造業(yè)產(chǎn)生的數(shù)據(jù)量遠高于其他行業(yè)[1]。面對日益復(fù)雜的制造業(yè)生產(chǎn)系統(tǒng),通過保存其運行過程中的中間數(shù)據(jù),并對數(shù)據(jù)進行研究,能夠解決當前的系統(tǒng)建模手段無法解決的問題。傳統(tǒng)的數(shù)據(jù)分析方案一般先將數(shù)據(jù)保存到關(guān)系型數(shù)據(jù)庫中,然后借助聯(lián)機分析、處理等手段為決策提供支持[2]。
當面對制造業(yè)的海量數(shù)據(jù)時,可能會有如下缺陷[3]:
(1)數(shù)據(jù)來自不同地區(qū)的工作站、傳感器等,而且數(shù)據(jù)格式不統(tǒng)一,既有結(jié)構(gòu)化數(shù)據(jù),也有非結(jié)構(gòu)化數(shù)據(jù),不利于處理;
(2)聯(lián)機分析處理過程中會有大量的數(shù)據(jù)移動操作,當數(shù)據(jù)量達到PB級時,大量數(shù)據(jù)移動造成的開銷變得難以接受。
因此,有必要研究并實現(xiàn)一個能夠合并存儲異構(gòu)數(shù)據(jù)、并且可以完成基于大數(shù)據(jù)的CIMS數(shù)據(jù)分析處理的平臺。本文將Hadoop大數(shù)據(jù)技術(shù)引入到CIMS海量工業(yè)數(shù)據(jù)的監(jiān)測和分析中。
二、研究現(xiàn)狀
范劍青[4]闡述了大數(shù)據(jù)獨有的特點,說明大數(shù)據(jù)提供的海量數(shù)據(jù)給統(tǒng)計、處理以及統(tǒng)計估算和檢驗帶來的問題。Jiang 等人[5]對電子商務(wù)網(wǎng)站的大量商品數(shù)據(jù)進行分析處理,提出了基于Hadoop的協(xié)同過濾算法。
Duke能源公司模擬大數(shù)據(jù)解決方案,使維護專家遠程觀看設(shè)備和記錄異常指數(shù),甚至可以及時采取糾正操作,但還不能真正實現(xiàn)大數(shù)據(jù)分析和處理平臺。通用電氣(GE)于2013年推出其大數(shù)據(jù)分析平臺,用以將云平臺中的工業(yè)機器產(chǎn)生的海量數(shù)據(jù)轉(zhuǎn)化為實時信息,此平臺可以認為是第一個能夠真正管理工業(yè)海量數(shù)據(jù)的平臺,但是難以處理來自多個數(shù)據(jù)源的數(shù)據(jù)。美國國家儀器公司和IBM聯(lián)手推出InfoSphereStreams大數(shù)據(jù)解決方案,能夠以很高的數(shù)據(jù)吞吐率分析來自多個數(shù)據(jù)源的信息,但其處理帶有一定的數(shù)據(jù)延時,實時性不佳。
為解決海量數(shù)據(jù)處理時的實時性問題,本文擬采用開源的Storm流處理技術(shù),并借助類SQL和Piglatin等過程化語言擴展,以實時監(jiān)控整個大數(shù)據(jù)平臺。
三、大數(shù)據(jù)技術(shù)在CIMS監(jiān)測與分析平臺中的設(shè)計
工業(yè)應(yīng)用數(shù)據(jù)在數(shù)據(jù)量上遠超普通應(yīng)用,其海量數(shù)據(jù)存儲的要求超過了傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的存儲能力。另外,工業(yè)應(yīng)用數(shù)據(jù)也由傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)擴展到結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)并存,對這些數(shù)據(jù)格式以及數(shù)據(jù)類型都存在不同的工業(yè)數(shù)據(jù)進行采集、分析和處理的方式有別于傳統(tǒng)方式,因此需要對監(jiān)測和分析平臺進行設(shè)計,從軟件結(jié)構(gòu)、通信方式以及數(shù)據(jù)存儲方式等各個方面進行分析。
3.1 CIMS海量數(shù)據(jù)監(jiān)測與分析平臺的設(shè)計
在將大數(shù)據(jù)技術(shù)應(yīng)用于CIMS海量數(shù)據(jù)的監(jiān)測與分析時,海量的工業(yè)數(shù)據(jù)不再存放在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,而是存放到HDFS分布式文件系統(tǒng)上。因此,軟件結(jié)構(gòu)設(shè)計要與Hadoop的HDFS文件系統(tǒng)相對應(yīng)。
3.1.1 軟件結(jié)構(gòu)
本文設(shè)計的CIMS海量工業(yè)數(shù)據(jù)監(jiān)測和分析平臺(以下簡稱“平臺”)采用Master-slave主從架構(gòu),Hadoop集群的NameNode節(jié)點作為監(jiān)測和分析平臺的管理節(jié)點,完成數(shù)據(jù)采集、數(shù)據(jù)分析等各功能的功能模塊是工作節(jié)點。管理節(jié)點管理整個集群的相關(guān)信息,并維護包括節(jié)點的主機名、IP地址等機器狀態(tài)。工作節(jié)點可以根據(jù)工業(yè)應(yīng)用的需求進行靈活的配置,也可以動態(tài)增加或減少。
平臺主要分為如下部分[6]:客戶端、消息中間件、數(shù)據(jù)查詢模塊、數(shù)據(jù)分析模塊、數(shù)據(jù)采集模塊以及Hadoop集群??蛻舳私邮沼脩粽埱?,向平臺發(fā)出任務(wù)請求;數(shù)據(jù)采集模塊、數(shù)據(jù)查詢模塊以及數(shù)據(jù)分析模塊是平臺的功能組件,分別提供工業(yè)大數(shù)據(jù)分析流程中的對應(yīng)功能[7]:數(shù)據(jù)采集模塊對外提供數(shù)據(jù)的訪問接口,其功能是從不同的數(shù)據(jù)源獲取數(shù)據(jù),并將這些數(shù)據(jù)存儲到Hadoop的HDFS文件系統(tǒng)上。
數(shù)據(jù)查詢模塊從HDFS文件系統(tǒng)中查詢數(shù)據(jù)的存儲索引,并返回給數(shù)據(jù)分析模塊;數(shù)據(jù)分析模塊中實現(xiàn)不同的數(shù)據(jù)分析配置方法,并交由MapReduce框架分布式地實現(xiàn)數(shù)據(jù)分析任務(wù)。
3.1.2 系統(tǒng)功能模塊
平臺中監(jiān)測和分析的數(shù)據(jù)一般都是離散數(shù)據(jù),所以選擇消息中間件作為通信管理模塊,消息中間件實現(xiàn)平臺中各個模塊間的通信。
以功能節(jié)點上線為例,由于管理節(jié)點存儲了所有節(jié)點的狀態(tài)信息,所以為保證整個集群信息的一致性,功能節(jié)點上線時需要先向管理節(jié)點注冊其信息,管理節(jié)點會向消息中間件訂閱“注冊”這一主題,消息中間件接收到訂閱請求后會創(chuàng)建相應(yīng)的隊列,并持續(xù)監(jiān)聽此隊列的消息情況。消息隊列中的消息是以文本格式存在的,本文的消息傳遞方式采用XML。平臺中的操作請求都會發(fā)送給任務(wù)管理模塊,由其解析后,再發(fā)送給相應(yīng)的功能模塊執(zhí)行。
數(shù)據(jù)采集模塊從基于HDFS文件系統(tǒng)的Hbase數(shù)據(jù)庫中獲取來自客戶端的數(shù)據(jù),由于工業(yè)數(shù)據(jù)的采集并發(fā)量可能比較大,因此要在采集端部署大量數(shù)據(jù)庫;除此之外,ETL工具負責(zé)將異構(gòu)數(shù)據(jù)源的數(shù)據(jù)抽取處理進行數(shù)據(jù)清洗。Hadoop上的數(shù)據(jù)分析模塊能夠完成多維分析,由于MapReduce的具備很強的并行處理能力,因此分析維度的增加并不會使數(shù)據(jù)分析的開銷顯著增加,這無疑是傳統(tǒng)的數(shù)據(jù)分析平臺所無可比擬的。
3.1.3 數(shù)據(jù)存儲方式
傳統(tǒng)的關(guān)系型數(shù)據(jù)庫不能很好的支持結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),HDFS分布式文件系統(tǒng)克服了這一缺陷,將非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)都以文件形式存放,實現(xiàn)了廉價而又可靠數(shù)據(jù)存儲。
工業(yè)數(shù)據(jù)可能來自多個不同的數(shù)據(jù)源,平臺借助中間件屏蔽了它們之間的異構(gòu)性,然后將這些原本異構(gòu)的數(shù)據(jù)存儲到HDFS文件系統(tǒng)中。這種異構(gòu)數(shù)據(jù)存儲方式不需要昂貴的存儲設(shè)備,廉價的服務(wù)器即可組成可靠的存儲集群;另外,存儲集群節(jié)點同時還是Hadoop集群的工作節(jié)點,提高了數(shù)據(jù)存儲節(jié)點的利用率[8]。
四、大數(shù)據(jù)技術(shù)在CIMS監(jiān)測與分析平臺的性能優(yōu)化
軟件工程思想中,不能只設(shè)計軟件的結(jié)構(gòu),同時要對軟件進行不斷優(yōu)化。平臺集中了多個數(shù)據(jù)來源的數(shù)據(jù),因此平臺間的數(shù)據(jù)傳遞吞吐量比較大;另外,平臺各個組件間的網(wǎng)絡(luò)依賴關(guān)系比較復(fù)雜,合理分配網(wǎng)絡(luò)資源對提升平臺性能有重要的影響。
系統(tǒng)動力學(xué)研究復(fù)雜系統(tǒng)的結(jié)構(gòu)、功能以及動態(tài)行為模式,可以利用系統(tǒng)動力學(xué)的相關(guān)原理和方法,對本文設(shè)計的平臺進行模擬仿真研究。
在進行實際的大數(shù)據(jù)平臺仿真分析時,為搭建Hadoop集群本文配置4臺服務(wù)器,其中一臺作為NameNode,其他服務(wù)器作為DataNode。具體的配置信息如表1所示:
系統(tǒng)動力學(xué)分析軟件系統(tǒng)的基本思路是把與系統(tǒng)相關(guān)的網(wǎng)絡(luò)變量轉(zhuǎn)換為因果圖及流圖,因果圖表征了變量間的相互影響關(guān)系,流圖說明了變量的反饋積累;然后利用DYNAMO方程描述變量間的關(guān)系。因果圖反應(yīng)了平臺中的反饋回路的正負極性,表示出系統(tǒng)元素間基本的相互影響關(guān)系。
基于以上分析,對本文設(shè)計的平臺進行系統(tǒng)動力學(xué)分析如下:由于平臺是一個非線性時變系統(tǒng),影響其性能的因素不僅包括管理節(jié)點、消息中間件、Hadoop集群等,還包含網(wǎng)絡(luò)帶寬、服務(wù)器配置等客觀因素。根據(jù)系統(tǒng)建模目的,可以知道系統(tǒng)邊界應(yīng)該包括如下因素:用戶請求數(shù)目、數(shù)據(jù)采集模塊采集到的輸入數(shù)據(jù)、消息中間件隊列中的消息數(shù)量、消息中間件路由消息的延遲、Hadoop集群的性能等。
平臺的系統(tǒng)邊界確定后,接下來需要分析系統(tǒng)邊界內(nèi)的元素間的影響關(guān)系,以及它們之間是否有因果關(guān)系。經(jīng)分析可知,用戶請求的增加會導(dǎo)致消息中間件隊列中的消息增加,而消息中間件路由消息的延遲降低會降低系統(tǒng)中消息傳遞的整體時延。
消息中間件的工作性能和系統(tǒng)各個模塊的工作時延組成正反饋回路,說明消息中間件和系統(tǒng)模塊是正相關(guān)的,所以平臺整體性能的提升依賴于消息中間件和系統(tǒng)模塊的合理資源配置。
消息中間件的各種配置參數(shù),比如響應(yīng)速度、吞吐量等參數(shù)對提升平臺的分析性能影響很大,在優(yōu)化消息中間件的各種參數(shù)后,比較本文設(shè)計的基于大數(shù)據(jù)的數(shù)據(jù)分析平臺和傳統(tǒng)的工業(yè)數(shù)據(jù)平臺的性能,在同時對PB級別的工業(yè)數(shù)據(jù)進行分析時,當CPU數(shù)目相同時,響應(yīng)速度的結(jié)果如表2所示:
對于不同的數(shù)據(jù)級別,兩種大數(shù)據(jù)平臺的處理效果如表3所示:
由結(jié)果可知,在處理相同的數(shù)據(jù)量時,在響應(yīng)速度的性能上,本文設(shè)計的工業(yè)數(shù)據(jù)分析平臺要優(yōu)于傳統(tǒng)的數(shù)據(jù)分析平臺。
當處理不同的數(shù)據(jù)量時,隨著數(shù)據(jù)量的增加,傳統(tǒng)的大數(shù)據(jù)處理平臺的處理時間也呈現(xiàn)顯著增加,而本文設(shè)計的大數(shù)據(jù)處理平臺處理時間是線性的,明顯優(yōu)于傳統(tǒng)大數(shù)據(jù)處理平臺。
五、總結(jié)與展望
本文首先介紹了Hadoop大數(shù)據(jù)技術(shù),分析了其HDFS文件系統(tǒng)和MapReduce計算框架;
接下來對基于大數(shù)據(jù)技術(shù)的CIMS海量工業(yè)數(shù)據(jù)監(jiān)測和分析平臺進行設(shè)計,從軟件結(jié)構(gòu)、通信方式以及數(shù)據(jù)存儲方式等各個方面進行了分析。最后利用系統(tǒng)動力學(xué)的原理,對影響平臺性能的因素進行了研究。
與Duke能源公司模擬的大數(shù)據(jù)解決方案相比,本文設(shè)計的平臺已經(jīng)能夠采集、分析并處理海量數(shù)據(jù),真正意義上在工業(yè)領(lǐng)域引入了大數(shù)據(jù)技術(shù);而且此平臺還能夠處理來自多個數(shù)據(jù)源的數(shù)據(jù),比通用電氣的大數(shù)據(jù)分析平臺具備一定的優(yōu)勢。
參 考 文 獻
[1] 韓燕波,趙卓峰.面向大規(guī)模感知數(shù)據(jù)的實時數(shù)據(jù)流處理方法及關(guān)鍵技術(shù)[J].計算機集成制造系統(tǒng).2013,19(3):641-653.
[2] 鄧華鋒,劉云生,肖迎元. 分布式數(shù)據(jù)流處理系統(tǒng)的動態(tài)負載平衡技術(shù)[J]. 計算機科學(xué). 2007(07)
[3] 胡茂勝.基于數(shù)據(jù)中心模式的分布式異構(gòu)空間數(shù)據(jù)無縫集成技術(shù)研究[D].武漢:中國地質(zhì)大學(xué),2012.
[4] 楊林青,李湛,牟雁超等.面向大規(guī)模數(shù)據(jù)集的并行化Top-k Skyline查詢算法[J].計算機科學(xué)與探索.2014, 12(26).
[5] J.Jiang, J. Lu, G. Zhang, and G. Long. Scaling-up item-based collaborative filtering recommendation algorithm based on hadoop. SERVICES, pp. 490 -497, 2011.
[6] 王黎維,黃澤謙,羅敏,彭智勇. 集成對象數(shù)據(jù)庫的科學(xué)工作流服務(wù)框架中的數(shù)據(jù)跟蹤[J]. 計算機學(xué)報. 2008(05)