時間:2023-05-31 15:11:02
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了七篇數據分析分析技術范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
關鍵詞 數據挖掘技術 警務系統 數據分析 應用
中圖分類號:TP311 文獻標識碼:A
1數據挖掘技術在警務數據分析系統中的重要性
警務系統由于工作的特點,要不斷地接受外來數據和有序存儲舊數據,這就對警務系統的數據處理系統有越來越高的要求,傳統的警務數據處理系統在信息量巨大的現今社會已經不能再有效的完善數據庫的運行,這就需要新型的數據處理系統接替工作。新型的數據處理系統在案件的信息提取、視頻分析等方面都應該有卓越的性能,將對案情有幫助的信息從大數據庫中有效的提取出來。數據挖掘技術是一項在能夠提高警務系統在數據的提取和挖掘效率的一項技術,能在短時間內將案件中的數據作為數據源,將其進行分析和建模,從而從這些數據中獲得有力的線索。
2目前警務系統特點
現今的警務系統是跟隨時代不斷發展的一個工作效率高、工作素質強的組織系統,有案件處理速度快、案件分析效率高的特點。這些特點,都需要警務系統中數據處理系統的有效應用,通過對數據的處理分析、檢查對比得出較有價值的案件線索,從而提高效率。警務系統的正常運行離不開數據處理系統,而數據挖掘技術更是數據處理系統的重要組成部分,它確保了整個系統的運行速度,對案件的偵查有促進作用。
3構建警務系統數據存儲器
基于警務系統的數據特點,警務系統應該建立一個高速運行的警務系統數據存儲器。“數據存儲器”在結構上分為三個部分,分別是關系系統、OLAP服務器以及客戶處理系統。這三個部分的作用效果如下:
3.1關系系統
關系系統是這三個組成部分的基礎部分,這個系統負責對系統中的數據進行整理和提取、刷新,將數據在整個系統中的存儲位置有序的排列好,防止數據丟失和數據殘缺的現象發生。關系系統在運行的過程中通過警務系統不斷的收集新的信息,將其整理保存,始終將數據系統中的有效信息得到較完好的保護。
3.2 OLAP服務器
OLAP是聯機處理的縮寫,是將多角度的信息共享并由一個關鍵的出發點而聯機進行數據處理分析的一個軟件技術,在警務系統中可將需要處理的信息進行聯機處理分析,將信息較快的處理出來,得到有效的結論。
3.3客戶處理系統
客戶處理系統是將數據進行分析處理以及檢索和報告的一個系統,通過對數據之間的聯系將數據的信息整理和挖掘出來,形成有用的線索,供警務系統人員進行案件的偵破和處理,是數據存儲器的重要部分,特別是數據挖掘技術的應用時整個系統的運作重心。
4數據挖掘技術
數據挖掘技術是將數據庫中的數據進行采集、集成以及分析的一項技術,其應用到警務系統中可以對案件相關信息進行檢索和分析,應用了多維數據分析處理及關聯規則的應用、聚類分析方法的實際處理等數據挖掘分析處理模式將警務系統中的數據有效的聯系起來,形成一個較為完整的數據挖掘模式。
在挖掘出境數據時,數據挖掘技術的決策樹技術有效應用,與縣贏得算法技術相互應,將數據較為完整的從警務系統中巨大的信息庫中挖掘出來,實現了數據挖掘的分級處理模式的有效應用。
5數據挖掘技術在現代警務系統中的應用
在警務系統中,數據挖掘系統在案件的相關數據中整理生成了一個多維數據模型,使信息可視化、將案件信息的關系更加清楚的展現在警務系統的工作人員面前,通過多角度、多方面的分析和挖掘,將系統中的有用信息全部呈現在報告中,實現了信息的有效用。
6結語
警務系統中的信息有多樣化、復雜化、信息量巨大的特點,使用傳統的數據庫是不能按照現代的社會發展速度生存的,對數據進行高效的分析處理和采集,是現代警務數據處理系統應該具有的一項特點。在數據處理速度快的前提下,數據處理系統的管理能力和聯系能力也應該是突出的,本文中提到的數據挖掘技術就是解決數據處理問題的有效解決辦法,其運行通過對數據的建模、分析、采集等手段強化了數據處理系統的能力,為警務系統中案件處理效率的提升做出了一定的貢獻。目前社會的高速發展離不開大數據的支持,大數據時代對數據的處理系統要求越來越高,數據挖掘技術近些年在警務信息系統中的引用為警務系統的發展提供了技術上的有效支持,警務系統未來的發展肯定也離不開數據的有效處理工作,數據挖掘系統在未來的警務數據分析系統中也會有不斷地改善和提高。
參考文獻
[1] 劉敏,朱鵬,方有軒.面向市場分析人員的經分模型庫的設計與實現[J].電腦與電信,2016(09) .
1計算機大數據分析中云計算技術作用分析
云計算技術可以給提供計算機數據傳遞與共享的條件,融合軟硬件數據保存,促進計算機處理工作更好的開展。云計算技術可以給用戶提供良好的網絡環境與保存空間,處理數據傳遞環節的各項問題。與傳統大數據分析技術相比,云計算計算可以提高大數據分析質量。人們借助云計算技術獲得云終端的數據,切實滿足人們對于數據的需求。現階段計算機市場形成完善的結構體系,圍繞云計算技術推動計算機大數據分析工作的開展,奠定后期云計算技術發展的基礎。目前,人們生活中全面運用云計算技術,基于云計算技術研發的服務器及操作系統方便人們處理各類信息技術。同時,云計算技術數據保存有著較強的安全性,極小可能出現數據丟失情況,滿足人們的實際需求,直接體現出云計算技術的優勢。優化云計算環境下計算機的數據處理中心,就可以不斷提升計算機的云計算能力,讓云計算不僅為網絡信息所用,還在計算機網絡安全中發揮極為重要的作用。目前,計算機的使用人群更為注重的是在高速發達的信息社會,自己的信息,也就是使用計算機網絡的安全性能是否能得到保障,這時候考驗的就是云計系統的完善性。目前存在的最主要計算機安全問題就是黑客問題和系統漏洞問題。系統漏洞這一人為因素可以通過不斷檢索進行漏洞的發現和修補,面對黑客的攻擊,能夠做的就是防患于未然,不斷地升級和優化系統,最終達到完善的數據處理效果。
2云計算技術下計算機大數據分析面臨的問題
2.1網絡技術安全
由于相關技術的不斷發展,云計算環境下的網絡安全技術正在朝著穩定和成熟的方向發展,但在具體的應用過程中依然表現出一定的網絡安全問題,因此用戶在使用過程中應該做好相關的應對工作。網絡安全問題具體表現在用戶在使用信息傳輸的過程中,一旦出現服務性中斷問題,難以保證數據的安全性,啟動被動保護模式的情況使信息的安全性更加難以保障,這也成為云計算模式下的網絡技術安全中的重點問題,一旦得不到及時有效的解決,用戶在使用過程中就會受到不同程度的威脅。
2.2網絡環境安全
網絡環境安全是保證網絡正常使用,信息傳輸質量有保證的重要前提,一旦網絡環境存在不安全因素,將會引發病毒的入侵和黑客的攻擊。因此網絡環境安全也是云計算技術價值得以發揮的重要前提。計算機在使用過程中如果長期受到病毒的困擾和黑客的威脅,將會降低人們對計算機的信賴性,甚至在工作和生活中將會在網絡環境安全方面投入更多的成本。
3計算機大數據分析中云計算技術的具體應用
3.1數據傳輸安全分析
在云計算的作用下,云安全含義逐漸形成,具體來說,云安全主要指在用戶借助云計算技術來實現計算機大數據分析時,讓數據安全性得到了保證。用戶端數據和數據安全往往呈現出正比關系,隨著應用群體數量的增多,涉及的計算機數據范疇將不斷擴充,假設計算機遭受病毒的攻擊,可以在云計算技術的作用下實現病毒的攔截,以此讓計算機數據安全性得到保證。從云計算技術自身角度來說,其提供的各個服務均是由IaaS基礎設施級服務以及PaaS平臺級服務兩項內容構建而成。首先,IaaS基礎設施級服務其作用在于,可以給用戶提供對應的服務,也就是對各個計算機基礎設備進行操作和應用,其中包含了CPU處理、數據保存、數據傳遞等。其次,PaaS平臺級服務則是指,把云計算中各個服務器及開發環境當作服務,通過PaaS平臺用戶能夠結合自身需求實現對應操作流程的部署和應用。
3.2監督數據資源共享
網絡資源在傳輸過程中遭遇到的安全威脅是用戶時時刻刻關注的問題,因此在具體的工作和管理中,需要提高云計算網絡安全技術的應用程度,通過不斷創新安全模式,完善相應的防護體系,從而有效消除安全性問題,提升數據傳輸的安全性和穩定性。具體在應用過程中,可以借助云計算技術的優勢,對數據傳輸的整個路徑進行監控,保證傳輸通道環境的安全性,一旦出現問題及時進行預警,有效預防黑客的攻擊,降低網絡安全事故發生的概率。對此,有關部門應該提高重視程度,同時完善相應的監督管理制度,采用科學的管理方式,實現預期的監測目標。
3.3提高數據使用安全
計算機用戶本身的安全意識也是當前需要關注的重要方面,為了進一步提升用戶數據信息和計算機系統的安全系數,需要重視身份認證工作的提升,具體可以使用實名制的方式進行認證處理,從而不斷提升整個網絡結構的安全性。對于網絡應用過程中涉及到的安全問題,可以通過實名追蹤的方式進行可疑目標鎖定,從而有效控制惡意攻擊情況的發生。但在應用過程中也需要重視假人名情況的出現,提高網絡數據信息竊取的預防水平。計算機網絡環境算是一種相對開放的環境,在使用過程中會面向大量的用戶,通過重視用戶的身份認證,可以有效避免用戶對數據的非法訪問。同時在使用者進行計算機登錄和使用的時候,需要對用戶名和密碼進行核實。按照權限的不同,確保數據庫信息的安全有效性。通過對數據庫信息加密處理,可以確保數據庫信息的安全性。這種加密處理可以在原有數據信息的基礎上進行算法的處理改進,使用者可以通過自身的權限獲取想要了解的信息,如果沒有解密方式,不法分子將會難以獲取數據的原始信息。
3.4網絡安全等級防護
在云計算環境下的安全管理中心具備系統管理、安全管理和安全審計等功能,能夠滿足不同云計算環境下不同安全等級的保護要求,并且通過服務層的安全保護框架,實現對不同等級云服務客戶端的安全保護,為使用者提供安全可靠的資源訪問服務。在訪問云服務商時,用戶可通過通信網絡、API接口和Web服務方式訪問云服務器,但是用戶終端系統的安全防護不在網絡安全等級保護框架體系內。在保護框架體系內,資源層和服務層安全是云計算環境安全保護的重點,資源層包括物理資源安全和虛擬資源安全,應按照安全設計要求構建資源層安全保護框架。云計算環境下的網絡安全等級保護要針對不同等級云計算平臺確定不同的安全目標,一般情況下安全保護等級最低為二級,并根據安全目標和等級要求實施安全設計步驟,具體包括:第一步,根據云平臺的租戶數量和業務系統情況確定云計算安全保護標準,制定云計算平臺的安全保護策略,以避免在云計算平臺上發生安全事件;第二步,細化安全技術要求,針對安全計算環境、安全區域邊界、安全通信網絡以及安全管理中心制定出相應的安全保護策略;第三步,根據云計算功能框架中的各層功能和保護要求,制定安全技術機制,使其滿足云計算功能框架的安全保護要求。在完成云計算環境下的網絡安全等級保護設計之后,還應增加虛擬化安全、鏡像安全、接口安全等安全控制點,并采用訪問控制技術、身份識別技術等安全防護技術,實現與云計算平臺上各功能層次的對接,提出各層的安全保護措施。
3.5重視相應程序開發
網絡安全應用程序需要隨著技術的進步和人們生活和工作的需要進行逐步提升,從而及時對病毒程序進行開發和處理,確保計算機系統可以敏銳捕捉到病毒的活動跡象,提升自身的防御能力。通常情況下,對于計算機的服務,內網隱蔽處理,可以提升網站平臺的訪問速度,可以避免不安全網址帶來的不良效應,從而為計算機的安全防御提供一定的屏障。在計算機數據的使用中,由于安全性威脅導致的數據丟失問題,可以通過備份和恢復改善。這種恢復性功能也可以保證數據的一致性和完整性。通常由邏輯備份、動態備份以及靜態備份等幾種情況。計算機黑客數量增多,凈化網絡環境顯然存在較大難度,但通過必要的防范措施依然可以在數據庫信息的保護中起到關鍵作用。而使用防火墻保護工具就能很好的為計算機網絡提供一種安全保障。通過防火墻,可以在一定程度上防止黑客的侵害。
關鍵詞:油田生產;大數據;數據挖掘
前言
新疆油田重油開發公司是以稠油開采為主的采油廠。有著將近10年的數字油田建設歷史。而且中心數據庫已經做得很成熟,主要包括五大業務板塊數據。即勘探業務板塊、開發業務板塊、生產業務板塊、經營業務板塊的數據庫。數據庫包括的內容主要有單井、區塊的日月報數據、試井與生產測井數據、分析化驗數據、井下作業和地理信息數據等。數據庫的數據資源種類齊全,質量高。2010年新疆油田重油開發公司正式開始進行智能化油田建設工作,利用物聯網診斷單井問題,使用大數據技術對油田進行全面感知、分析預測、優化決策找到油水井的生產規律,從而有助于油田生產工作進行。
1 油田大數據的概念及處理流程
大數據有四個特點即量大(Volume)、快速生產(Velocity)、類型豐富(Variety)、真實性(Veracity),被稱為4V[1]。由于數據的數量非常大,就將數據組成數據集,進行管理、處理實現數據的價值。大數據對數據庫的整理流程是將數據轉化為信息,將信息轉化為知識,再將知識轉化為智慧。這個過程應用于油田可以理解為是對油田的生產和管理工作。大數據的七個處理步驟包括:對數據的提取和收集、清洗數據、分析數據找到潛在的內在價值規律、建立預測模型、對結果進行可視化的估計、驗證結果、評估模型。
2 大數據分析平臺及體系架構研究
新疆油田為了滿足生產應用,構建了一個有效的大數據分析平臺及體系架構。此平臺主要包括四個基礎架構:數據抽取平臺、進行分布式的存儲平臺、大數據的分析與展示平臺。最底層是數據抽取平臺主要是實現數據的整合,將數據轉化成適合進行數據挖掘或者建模的形式,構建可靠的樣本數據集。存儲平臺主要是對數據進行匯總、建模、分析,最后將處理好的數據進行儲存。其功能與數據倉庫相似。大數據分析層,是在大數據建模的工具和算法基礎上,挖掘隱藏的數據模式和關系,利用數據軟件進行分類、建模,生成預測的結果,結合專家經驗利用測試的樣本選定評價方案不斷提高模型的精度,更好的用于油田的決策。數據應用層主要是把建立的模型設計為運行軟件,運用建模方法實現數據的可視化界面設計,更好的實現人機交互。
3 大數據分析技術研究
進行大數據分析時我們經常采用兩大技術即大數據預處理和抽取技術,大數據分析技術。
3.1 大數據抽取及預處理技術
大數據預處理和抽取技術的原理是指將不同名稱,不同時間,不同地點的多種不同結構和類別的數據抽取處理成一種所表達的算法和內涵一致便于處理類型的數據結構[2]。在檢查數據缺失、數據異常時可以使用數據清洗方法確定有用的數據,一般采用剔除法或估計值法、填補平均值替換錯誤的數據。為了滿足建模所需的大量數據,創建新的字段時需要進行數據庫的構建。將原始數據用一定的方法如歸一法轉換為可用于數據挖掘的數據,這個過程為數據轉換。
3.2 大數據分析技術
應用于油田的大數據分析技術為:因子分析技術、聚類分析技術、回歸分析技術和數據挖掘技術。其中的因子分析技術是指,利用少數的因子對多個指標和因素間的相關性進行描述,一般將密切相關的多個變量歸納為一類,這一類數據就屬于一個影響因子,用較少的因子反應大量數據的信息。聚類分析技術是指把具有某種共同特性的事物或者物體歸屬于一個類型,并按照這些特性劃分為幾個類別,同種類型的事物相似性較高。這樣更利于辨別預先未知的事物特征。回歸分析是指在一組數據的基礎之上,研究一個變量和其他變量間隱藏的關系。利用回歸方程,進行回歸分析,從而有規律地把變量之間的不規則,不確定的復雜關系簡單得表示出來。
在使用大數據進行分析時,數據挖掘技術是最關鍵的一門技術。該技術將大量復雜的、隨機性的、模糊的、不完整的數據進行分析,挖掘出對人類未來有用的數據,即提前獲得未知信息的過程[3]。數據挖掘功能分為預測功能和描述功能。數據預測是指對數據進行處理推算,完成預測的目的。數據描述是展現集體數據的特性。數據挖掘功能是與數據的目標類型有關,有的功能適用于不同類型的數據,有的功能則只適用于特定功能的數據。數據挖掘的作用就是讓人們能夠提前得到未知的消息,提升數據的有效性,使其可以應用于不同的領域。
4 大數據分析在油田生產中的應用研究
4.1 異常井自動識別
油田生產過程中影響最大的一個因素是異常井的出現,因此生產管理人員加大了對異常井的重視。最初,異常井的識別主要是依靠生產部門的生產人員,必須經過人工查閱許多關于油田生產的資料才能確定異常井,這種人工檢閱的方法存在很多缺陷。比如說大量的檢索工作、耗費時間長等,對異常井的診斷和措施制定造成很大的困難。異常井是指油井當天的產油量和上個月相比波動很大,并大于正常的波動范圍。目前廣泛采用數據挖掘技術和聚類分析技術對異常井進行識別,提高效率。為了實現算法編譯使用技術,系統架構B/S模式進行,能夠及時發現異常井的存在。
4.2 異常井智能診斷
異常井診斷是油田每天進行生產必須要完成的工序。而大部分油田采用人工方法對其進行異常診斷,工作量極大,影響因素較多,診斷結果的可靠性較低,對后期進行計劃實施造成很大的影響。這時可以采用智能診斷方法,利用灰度圖像處理技術和人臉識別算法建立抽油井的特征功圖庫,對比油井當前的功圖和所建立的特征功圖,實現異常井的診斷。若是相似則不屬于異常井,反之,則為異常井。但是有時一種工況可能會有許多中表現方式,致使功圖解釋存在很多種狀況,可以采取因子分析法,分析每個工況下關聯的因子間是如何變化,然后建立參數診斷數據庫,對比相關因子的指標項,找到異常的原因,采取適合的方案進行修改,從而提高單井的生產效率。
4.3 間抽井開關井計劃制訂
當油田開發進入后期階段就會出現很多問題,過度開發使得地層的能量越來越少,致使更多供液不足的井開發出來。將這類井稱之為間歇出油井。新疆油田一般會使用人工方法制訂間歇出油井的開關時間計劃,但是對于計劃的合理性沒有進行檢驗。若是能夠控制好間歇出油井的開關時間,對油田實現節能減排是至關重要的。這時可以采用因子分析方法和回歸分析法進行研究,利用數據挖掘技術找出影響間歇出油井的開關時間的因素,建立合適的分析模型,對模型進行線性回歸,進行歸一化處理。從而為業務人員提供制訂間歇出油井開關時間的合理方案,達到節能減排的效果。
4.4 油井清防蠟預測
目前油田上對于油井清蠟采取平均每口井一個月清洗一次蠟的措施,按照人工計劃進行,出現了許多問題。比如,一些井還沒有結蠟就已被清洗,有些井已經結蠟,卻沒有得到及時清洗。這樣既浪費大量的人力物力,而且還對油田的生產效率產生不利影響。若是利用因子分析法,將收集的關于結蠟周期、清蠟方式、清蠟用量、油井狀況等數據進行分析,建立油井Y蠟模型,再利用回歸分析法對建立的模型建立曲線方程,進行預測,找到結蠟時間,推斷出結蠟周期,更好的指導油田清蠟工序的進行,提高油田的精細化管理。
5 結束語
總之,對比以前利用人工進行油田生產可以發現大數據對于油田生產是非常必要的,可以更快的挖掘油田的生產作業規律,解決油田生產的困難。而且,可以利用油田數據進行可視化分析,關注問題的主要影響因素找到管理中存在的不足,預防未來問題的出現。大數據的核心價值就是通過以往大量數據進行分析,預測出未來,從而更好地指導油田的生產工作。
參考文獻
[1]楊澤民.數據挖掘中關聯規則算法的研究[J].軟件,2013(11):71-72.
論文摘要:電子商務(EC)在現代商務企業的發展中占有越來越重要的地位。如何利用信息技術掌握更多的商務信息已備受商家們的關注,站點分析技術正是為商家和網站提供了這樣一種有效的分析工具。
本文討論了一些站點分析的相關技術信息和幾種網站分析瀏覽者行為的理論與算法,及數據倉庫的相關理論知識。并對站點日志數據進行了實例分析,并指出了站點分析技術發展的方向。
一、緒論
互聯網技術不斷革新與發展,給全球經濟帶來新的革命,從而也影響著人們的生活。互聯網為企業提供了一種真正屬于自己并面對廣大網民的信息載體,企業通過這一載體,可以自由地將企業的產品、服務等其他相關信息在線。
電子商務就是網上實行各種商務活動的總包裝,種種所謂電子商務解決方案,實際上就是實現各種網上商務活動的硬件與軟件系統。它將影響到每一個人、每一個企業。電子商務的主體是我們每一個人、每一個企業,電子商務發展的過程就是對人們的生活、企業的運行的一種模式的一個巨大改變的過程。對于進入虛擬世界的商家而言,僅僅吸引注意力還不行,對它們而言,站點的訪問率絕對不僅僅是一個數字,它還是一種信息,如果網站能夠從網絡中獲得網民的信息并從中分析其行為誘因,那么就容易掌握網民的需求,從而利用互聯網去創造更多商機。
電子商務站點用戶行為的分析這一問題也因此成為現如今的熱門話題,被人們普遍關心起來,尤其是被眾商家所重視。Web站點的日志數據正以每天數十兆的速度增長。如何分析這些數據,如何從這些大量數據中發現有用的、重要的知識(包括模式、規則、可視化結構等)也成為現在人們最關注的信息。
在此情況下,站點用戶行為分析就可為網站或商家提供出大量有價值的信息,包括站點的受歡迎度的對比、商業廣告點擊情況總括、產品的反饋信息、站點各種信息的點擊情況等等。另外,還可根據不同的頁面內容來分類瀏覽者,以便做出更合理的頁面分類,促使網站逐步向個性化、最優化狀態發展。這一技術對互聯網的發展壯大有著不可忽視的巨大作用,它的發展對信息技術亦將產生深遠的影響。
在電子商務早期階段時,Web站點數據流分析通常是在主頁上安裝計數器以及在一個外部日志文件上運行簡單的統計程序記錄點擊率。但是,簡單的點擊計數既不準確也遠未達到營銷目的所需的詳細程度。因此,各公司開始尋找更先進的分析工具,這類工具可以提供誰在訪問公司Web站點以及訪問者一旦進入站點后將做些什么的全面信息。站點開始分析的地方是Web服務器的訪問日志。每當用戶在站點上請求一個網頁時,這個請求就被記錄在訪問日志中。如:目前有多少用戶正在訪問站點、他們正在看哪些網頁以及他們在站點中呆了多長時間。顯然,日志分析和行為概況的正確組合可以對Web站點的成功產生直接影響。此外,從日志分析中得到的信息是很難從真實世界中捕獲到的,但這些信息卻可以較容易地在線收集到。Web數據流分析工具的這些最新進展可以使網站獲得有關上網客戶和他們習慣的詳細報告。
二、站點信息統計方法
Web頁面數據主要是半結構化數據,計算機網絡技術和信息技術的飛速發展,使得半結構化數據呈現日益繁榮的趨勢。半結構化數據,是一種介于模式固定的結構化數據,和完全沒有模式的無序數據之間,在查詢前無法預先確定其具體的類型和格式;同時它們相應的數據結構是不固定、不完全或不規則的,即這些數據有的本身就沒有結構,有的只有十分松散的結構,有的數據的結構是隱含的,需要從數據中進行抽取。而有時,盡管數據本身是有精確結構的,但為了一定的目的,而故意忽視它的結構。半結構化數據具有以下五方面的
主要特點:
1.結構是不規則的。包含異構數據、相同的數據信息用不同類型或不同的結構表示。
2.結構是隱含的。如電子文檔SGML格式。
3.結構是部分的,有時部分數據根本無結構,而部分數據只有粗略的結構。
4.指示性結構與約束性結構。傳統的數據庫使用嚴格的分類策略來保護數據。而指示性數據結構是對結構的一種非精確的描述。它可接受所有新數據,代價是要頻繁修改結構。
5.半結構化數據通常在數據存在之后才能通過當前數據歸納出其結構,稱之為事后模式引導。模式有時可被忽略,同時數據與數據模式間的區別逐漸消除。
三、數據分析的方法
Web頁面的數據通常是利用統計模型和數學模型來分析的。使用的模型有線性分析和非線性分析;連續回歸分析和邏輯回歸分析;單變量和多變量分析以及時間序列分析等。這些統計分析工具能提供可視化功能和分析功能來尋找數據間關系、構造模型來分析、解釋數據。并通過交互式過程和迭代過程用來求精模型,最終開發出最具適應性的模型來將數據轉化為有價值的信息。
知識發現是從數據倉庫的大量數據中篩取信息,尋找經常出現的模式,檢查趨勢并發掘實施。它是分析Web頁面數據的重要方法。知識發現與模式識別的算法有以下幾種:
1.依賴性分析
依賴性分析算法搜索數據倉庫的條目和對象,從中尋找重復出現概率很高的模式。它展示了數據間未知的依賴關系。利用依賴性分析算法可以從某一數據對象的信息來推斷另一數據對象的信息。例如:在雜貨店中,一堆椒鹽餅干放在陳列飲料的走道上,這是因為經過依賴性分析,商店認為:很大一部分買飲料的顧客如果在取飲料的路上看到椒鹽餅干的話就會購買,因而此種分析影響了商店布局。
2.聚類和分類
在某些情況下,無法界定要分析的數據類,用聚類算法發現一些不知道的數據類或懷疑的數據類。聚類的過程是以某一特定時間為依據,找出一個共享一些公共類別的群體,它稱為無監督學習。分類過程,這是發現一些規定某些商品或時間是否屬于某一特定數據子集的規則。這些數據類很少在關系數據庫中進行定義,因而規范的數據模型中沒有它們的位置。最典型的例子是信用卡核準過程,可確定能否按商品價格和其它標準把某一購買者歸入可接受的那一類中。分類又稱為有監督學習。
3.神經網絡
神經網絡通過學習待分析數據中的模式來構造模型。它對隱式類型進行分類。圖像分析是神經網絡最成功的應用之一。神經網絡用于模型化非線性的、復雜的或噪聲高的數據。一般神經模型由三個層次組成:數據倉庫數據輸入、中間層(各種神經元)和輸出。它通常用恰當的數據庫示例來訓練和學習、校正預測的模型,提高預測結果的準確性。
4.數據挖掘中的關聯規則
關聯規則是數據挖掘的一個重要內容,通常關聯規則反映的是數據間的定性關聯關系。如一個商品交易數據庫,一條記錄表示用戶一次購買的商品種類,每個屬性(A、B……)代表一種商品,每個屬性都是布爾類型的。一條關聯規則的例子是:{A、B}{D}[2%][60%],規則的含義是“如果用戶購買商品A和B,那么也可能購買商品D,因為同時購買商品A、B和D的交易記錄占總交易數的2%而購買A和B的交易中,有60%的交易也包含D”。規則中60%是規則的信任度,2%是規則的支持度。數據挖掘就是要發現所有滿足用戶定義的最小信任度和支持度閥值限制的關聯規則。數據只是定性地描述一個交易是否包含某商品,而對交易量沒有定量描述,這種布爾類型數據間的關聯規則被稱為定性關聯規則。但數據記錄的屬性往往是數值型或字符型的,這些數據間也存在對決策有幫助的關聯規則,相對于定性關聯規則,這些規則被稱為定量關聯規則。
另外,數據挖掘目前仍面臨著數據質量的問題。由于數據倉庫中的數據來自多個數據源,而在合并中存在很多障礙,如:沒有建立合并視圖所需的公共關鍵字;數據值相互抵觸;元數據的說明不完備或丟失;數據值的不潔凈等等。數據挖掘是在標準化的數據基礎上進行的,因而這些都會嚴重破壞數據的準確性,導致最終決策的失誤。所有這些問題都在等待著人們去發掘更好的解決方法。
參考資料
1.周斌,吳泉源,高洪奎:“用戶訪問模式數據挖掘的模型與算法研究”,《計算機研究與發展》,1999 vol.36 No.7 P.870-875;
2.Srikant R,Vu W,Agrawal R.Mining association rules with itemconstrains.IBM Almaden Research Center,Tech Rep:97.056,1997;
3.Park J S,Chen M,Yu P S.Aneffective hash based algorithm for miningassociation ru1es.In:ACM InternationalConference on Management of Data,Caliform,1995;
4.Inmon,William H,Building the DataWarehouse(2nd ed.).Wiley.NewYork(1996);
【關鍵詞】Hadoop 電力行業 大數據分析
隨著互聯網+時代的到來,各行業數據的共享與融合越來越迫切。電力生產關系民生和經濟發展,隨著電力信息化的發展,涉及發電、輸電、變電、配電、用電等各個環節的數據呈爆發性增長,PB數量級的數據,已無法通過傳統的數據管理、抽取、分析技術挖掘數據間的多重關聯關系,從而更有效的實現電力風險預警,提高生產效率和智能調度功能。
1 Hadoop平臺介紹
Hadoop是Apache軟件基金會旗下的一個開源分布式計算平臺。以Hadoop分布式文件系統和MapReduce為核心的Hadoop為用戶提供了系統底層細節透明的分布式基礎架構。HDFS的高容錯性、高伸縮性等優點允許用戶將Hadoop部署在低廉的硬件上,形成分布式系統,MapReduce分布式編程模型允許用戶在不了解分布式系統底層細節的情況下開發并行應用程序。所以用戶可以利用Hadoop輕松地組織計算機資源,從而搭建自己的分布式計算平臺,并且可以充分利用集群的計算和存儲能力,完成海量數據的處理。
Avro是doug cutting主持的RPC項目,有點類似Google的protobuf和Facebook的thrift。是用于數據序列化的系統。提供了豐富的數據結構類型、快速可壓縮的二進制數據格式、存儲持久性數據的文件集、遠程PRC調用以及簡單的動態語言集成功能。
實現了MapReduce編程框架,用于大規模數據集的并行運算。能夠使編程人員在不理解分布式并行編程概念的情況下也能方便將自己的程序運行在分布式系統上。
HDFS分布式文件系統,其設計目標包括:檢測和快速恢復硬件故障;數據流的訪問;簡化一致性模型等。
Zookeeper是Google的Chubby一個開源的實現。它是一個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、分布式同步、組服務等。ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。
Pig是SQL-like語言,是在MapReduce上構建的一種高級查詢語言,把一些運算編譯進MapReduce模型的Map和Reduce中,并且用戶可以定義自己的功能。Yahoo網格運算部門開發的又一個克隆Google的項目Sawzall。
Chukwa是基于Hadoop的大集群監控系統,是開源的數據搜集系統。通過HDFS來存儲數據,并依賴MapReduce來處理數據。
2 數據抽取分析模型
目前電力行業數據包含結構化數據如常規oracle,MySQL等數據庫類型,同時也存在大量log日志文件,e文件等非結構化數據,為能全面有效的實現多業務,多數據綜合建模分析,設計如圖2所示,數據處理模型。主要由數據抽取、格式清洗和DFS分布式文件系統構成,同時為下一步大數據建模分析打好基礎。
數據抽取模塊主要負責從原業務系統獲得結構化和非結構化業務數據。通過在數據抽取工具中配置前端機器名稱、端口號、加密用戶名密碼、數據表等信息,實現結構化數據的抽取工作。對于日志類文件由于在原服務運行期間日志文件是持續寫入狀態,因此必須在原系統設置,系統日志按時間節點分割,一般可按具體業務運行情況和日志產生量和產生大小進行設定,避免因日志文件過大或網絡繁忙,在抽取時對業務造成影響。
格式清洗模塊主要是對原始數據中多種不同配置格式進行統一,特別是對非結構化數據,需定義每個字段的含義和位置以及統一分隔符,同時還會去掉一些記錄不完整的壞數據,保證數據的格式統一,信息完成。最后導入HDFS文件系統進行存儲。
數據分析通過Map/Reduce操作實現,通過設計業務分析模型,定位此項數據分析所需輸入數據,并將數據數據分割成若干獨立的塊,并根據Inputformat把Y料讀入成一組(key,value)對,然后通過mapper count分給不同的mapper進行處理。再設計模型中,通過設置滿足要求的map任務值,并引入哈希算法,將mapper對應初始的(initialkey,initialvalue)生成中間數據集(interkey,intervalue)劃分為多個任務,將模值相等的任務丟到統一節點上計算,以實現比較平衡的分類效果。
Reducer對mapper產生的(interkey,intervalue)中間數據集,進行驅蟲、過濾等后期處理后,得到結果。為實現輸出文件格式支持通過key來高效的自由訪問,并得到有序的數據輸出,在reducer中加入排序環節,將所有的中間數據集根據key來排序的。這樣每個小塊都很容易生成一個序列化的輸出文件。
通過展示系統,實現各業務模型數據分析結果圖形化的展示在監控大屏上,同時桌面用戶還可通過瀏覽器或客戶端在終端上查詢分析結果。
3 總結
通過hadoop平臺構建電力行業大數據分析模型,可按照業務需要進行靈活進行組合,提高各專業間的數據共享融合,實現由點狀業務分析模式,到貫穿“三集五大”各專業的網狀業務分析模式,可進一步提高電網的健壯性、互動性和智能化,為社會經濟穩定發展提供保障。
關鍵詞:大數據分析; 工程造價; 精確性
一、大數據分析對工程造價精確性的影響原理
(一)工程造價影響評估數據優化處理利用大數據分析技術開展工程造價分析的過程中,需要針對工程收集相關的數據,針對數據進行全面的分析。針對工程確定造價的過程中,可以更好的收集相關信息,實現對于信息的全面管理。利用大數據分析技能夠對于工程造價項目進行精準評估,具體應用公式如下X=X-XminXmax-Xmin。根據該公式我們能夠看到,利用大數據分析技術減去最低值與最高值,通過這種方式確定工程造價的評估范圍,該范圍具有很強的適用性。
(二)恢復評估結果原值針對評估結果需要恢復其原值,這樣才能進一步縮小工程造價的影響范圍。具體的公式如下:X=X′(Xmax-Xmin)+Xmin。通過這一公式針對工程總價結果恢復原則,最終進一步提高評估數據的科學性與合理性,這樣工程造價數據更具真實性與可靠性。
(三)建立數據分析機制施工項目應該建立數據分析機制,建立專門的數據分析機構,針對施工項目的特征以及相關數據進行數據分析,全面評估施工項目的相關成本。施工企業應該在內部購入信息化設備,建立符合工程項目的模型,確定粒子群模型,通過建立相關的模型簡化計算過程,提升工程造價的核算價值。同時施工項目還要訓練相關的工作人員應用大數據技術的能力,這樣才能最大限度的保證數據分析工作的順利開展,提升大數據分析效果。
(四)靈活開展數據分析利用大數據分析技術開展工程造價工作的過程中,應該保證數據分析的靈活性,從不同的角度開展數據分析,全面的分析施工項目中的各種數據,及時發現問題。不同的數據之間能夠形成相互驗證的關系,這對于提升工程造價工作水準具有積極的效果。
二、大數據分析對于提升工程造價精準性的影響
(一)提升工程造價的合理性。大數據分析能夠對于大量的數據進行全面的分析,數據更加全面合理,因此能夠全面的提升工程造價的合理性,對于提高工程造價數據的科學性具有積極意義。大數據分析技術的應用能夠從不同角度提供工程預算數據,這樣能夠多方位的印證施工項目工程造價中的相關數據,發現問題能夠及時的進行更改,這樣才能全面的提升工程總價水平,為施工項目的開展提供更加可靠的數據。
(二)增加工程造價的動態性。傳統的工程造價項目數據都是固定的,不會根據工程項目的開展進行變動,這種情況下一旦實際工程中出現一些偏離,工程造價數據的利用價值就會降低。利用大數據分析進行工程造價的過程中,在項目施工的過程中能夠根據項目施工情況的變化調整工程施工項目數據,改變前期確定的工程造價。由此我們能夠看到大數據分析能夠提升工程造價的動態性,對于全面提升工程造價水平具有積極意義。
(三)增加工程造價的全面性工程造價需要對于工程項目各個方面進行數據分析,這樣才能全面提升工程造價數據的科學性。大數據分析是對于工程項目的各個方面的數據進行全面的收集,這樣工程項目的全面性得以提升。利用大數據分析計算不僅能夠分析工程項目數據中的各種財務數據,還會分析一些非財務數據,這些數據非常的全面,能夠從不同的角度體現工程項目施工情況,這對于提升工程造價精確性具有積極意義。
(四)增加工程造價的指導作用工程造價是為了更好的指導工程項目的施工工作,利用大數據分析技術能夠全面的開展對于工程項目相關數據的收集與分析,提高工程造價的可參考性,因此項目開展施工的過程中會更多的參考工程造價數據進行施工管理,這樣能夠全面的提升工程造價的實用性,對于提升工程項目管理水平具有積極意義。為了更好的發揮其指導意義,利用大數據分析計算開展工程造價工作的過程中,應該加強數據與施工項目數據之間的聯系,這樣才能保證工程造價的可參考價值,為施工項目的順利完成提供可靠的保證。
三、利用大數據分析提升工程造價精準性的措施
(一)優化硬件設施大數據分析的應用需要擁有良好的硬件設置作為保證,為了能夠更好地利用大數據分析技術開展工程造價工作,施工項目單位的工作人員應該不斷的優化數據分析相關的硬件設施。首先,施工項目應該引進更加先進的設備,通過硬件設備的完善為工程造價工作的開展提供良好的環境。其次,施工單位需要培養大量的優秀人才。大數據分析工作屬于一種系統性非常強的工作,需要大量的掌握計算機技術的人才,因此為了能夠讓大數據分析技術更好地應用工程造價,施工單位內部應該培養與之配套的人才,這樣才能讓大數據技術真正的應用工程造價工作中去,為工程造價工作更好地開展提供可靠地保證。再次,施工項目人員應該在內部建立一個數據庫,把項目施工中的各種數據信息都存在在數據庫中,這樣能夠更方面數據分析人員利用大數據技術開展數據分析,全面提升數據分析水準。
(二)加強軟件管理大數據技術的應用不僅需要硬件支撐,還需要與之配套的軟件設施,這樣才能最大限度的發揮大數據分析的優勢作用。因此,施工項目單位開展工程造價工作前應該加強對于單位內部的軟件管理。首先,應該優化人力資源,提升員工對數據分析技術的掌握程度,針對工作人員進行技能培訓,讓相關的工作人員掌握必要的大數據技術開展數據分析。其次,施工單位應該建立與施工項目適應的軟件設置,根據施工項目實際情況以及數據分析需要設置必要的數據分析職能,建立屬于施工項目自身的軟件系統,這樣才能更好地發揮大數據分析的優勢,讓數據分析全面的服務于工程造價工作,全面提升工程總價水準。
(三)建立造價分析工作常態化分工協作體系工程造價分析工作需要各個部門互相配合,這樣才能最大限度地提升工程總價工作水平。因此為了能夠更好地利用大數據分析技術開展工程造價工作,施工單位應該建立造價分析工作常態化的分工協調體系。優化單位內部工作流程,落實工作責任,把大數據分析的具體職能深入的落實到單位內部的各個人員以及相關部門手中,這樣才能最大限度的保證工程施工項目能夠更好地開展施工,提高工程造價數據的精確性。在數據收集的過程總,應該讓每個工作部門都積極的參與進來,這樣能夠提升數據的范圍,保證數據更加真實可靠。只有真實可靠的數據來源才能更好地保證大數據分析結果更加的科學。另外,還要做好數據的存儲與保管工作,把大量數據存儲于數據庫內部,這樣才能夠擴大大數據分析的范圍,提升分析結果的科學性。
(四)加強對于大數據分析環境下對于工程造價的監督為了能夠更好地利用大數據分析開展工程造價工作,施工單位利用大數據分析技術的過程中,應該加強對于大數據分析工作的監督與管理,這樣能夠及時的發現大數據分析中的問題,針對問題提出有效的解決措施,防止大數據分析技術應用不充分影響工程造價工作的開展。在監督管理工作開展的過程中,需要保證相關工作人員的獨立性與專業性,只有保證獨立性才能提升監督管理效果。保證專業性是為了更好地發揮監管職能,及時的發現問題,解決問題。
一、制約稅收風險數據分析的因素分析
1.基礎數據質量不高,影響風險數據分析的準確度。數據分析應用必須建立在真實、準確、完整的數據基礎之上。在目前的數據分析應用實踐中,一些基礎數據質量不高,還不能適應稅收風險數據分析的需要。外部數據方面表現為納稅人稅務登記、日常申報及財務數據中存在錯誤或不完整,導致信息采集缺失或分析失誤;第三方涉稅信息不足,缺乏有效流轉渠道,導致不能進行縱向比對,不能獲取更多地數據資源,不能檢驗納稅人自行報送數據的真實性和準確性。內部數據方面表現為前臺工作人中責任心不強,錄入基礎數據不準確、不完善;基層稅源管理部門對信息采集不重視,不能及時更新納稅人相關生產經營數據等導致信息分析不準確。2.數據來源應用范圍窄,影響風險數據分析的深入性和實用性。從目前風險數據分析的來源來看,主要依靠金三系統風險預警評估系統的風險預警信息、部分省區數據綜合分析利用平臺的預警信息和上級部門推送的專項分析任務,真正依靠自己挖掘出的數據進行分析的部分還較少。在日常稅源監控、納稅評估工作中運用分析多,針對稅收收入變化、稅收政策變化、稅制改革影響等方面應用較少,對區域經濟有針對性和指導性的分析少。在宏觀指標的分析上應用少,導致數據分析的實用性變弱。3.信息化水平不高,影響風險數據分析的質量與效率。在基層稅務部門,目前的信息化應用水平還不夠高,成為制約數據分析應用的重要因素之一。主要表現為基層稅務干部信息化水平普遍不高,受年齡和學歷限制,稅收知識更新換代慢,計算機基礎薄弱,不能主動利用手中掌握的數據資源發現問題或進行分析。復合型人才缺乏,不能適應數據分析的需要。另一方面,上級局在下達專項分析任務后需要基層進行落實時,無法按照疑點進行深入分析和落實,影響了工作質量和效率。4.綜合涉稅信息不健全,影響風險數據分析的完整性。全面掌握納稅人涉稅信息是做好數據分析應用的基礎和前提之一。目前僅依靠稅務部門的信息資源,還不能全面、及時、準確的掌握納稅人所有的數據資源。與供電、財政、銀行、海關、銀行、房管、土地等政府部門缺乏有效的信息傳遞與反饋渠道,信息的集中度和共享度不高,導致風險分析和識別質量不高,指向性不強,不能適用數據分析應用的要求。日常工作中真正采集到的第三方信息運用的很少,信息的不對稱導致數據的完整性受限,分析應用的作用得不到有效發揮。
二、深化稅收風險數據分析應用的思路
1.提高思想認識,牢固樹立信息管稅理念。一是基層稅務部門應該樹立風險管理和信息管稅的理念,充分利用現代信息技術,對涉稅信息進行采集、分析和利用,從宏觀上加以把握和引導,達到提高稅收風險管理水平的目的。二是引導廣大稅務干部樹立信息管稅的理念,適應信息化時代的要求,及時更新自己的觀念和知識。在日常工作中要注意采集涉稅信息,熟練掌握稅收政策,并進行各種稅收軟件進行基本的分析,提高信息化應用管理的能力。2.提高數據質量,打好風險數據分析應用基礎。做好數據分析工作,首先要保證數據采集的質量。一是做好基礎數據的采集工作。針對納稅人自行報送的稅務登記、日常申報、財務數據等要加強審核,確保錄入的真實性和完整性。二是做好第三方信息的采集工作。加強與政府有關部門的溝通和協調,做好第三方信息的采集和利用工作,確保信息渠道暢通,通過內外部信息數據的分析,及時掌握稅源管理的情況。三是加強對數據的監控工作。通過數據綜合分析利用平臺加強對數據的分析監控,發現存在疑點數據時及時進行通報,并傳遞到前臺和基層稅源管理部門進行處理和反饋。3.拓寬分析范圍,提高風險數據分析系統性。風險數據的分析是一項綜合性工作,數據的選取、分析目標的選擇、分析的手段等,都要從稅收工作的多方面入手,而不應局限于某一方面。一是綜合確定分析選題,堅持宏觀定方向,微觀找問題的原則。宏觀方面可以根據稅收政策的變動、稅制改革的影響來選擇,從稅源結構、收入變化、稅源增減變化等等入手,圍繞領導關注的熱點、階段工作重點、業務管理難點等尋找數據分析的突破口。微觀方面可以通過日常稅源監控發現有價值的信息,再由業務部門和技術部門進行數據的提取和分析,查找問題存在的原因,提出專題分析的措施和意見。二是完善分析手段。充分利用金稅三期系統、數據綜合分析利用平臺等,密切注意信息技術的發展和新形勢,利用先進的數據庫技術、數據展現工具和數據挖掘工具,不斷創新分析手段。進一步完善分析指標體系,拓展數據分析模型,提高對數據的深度挖掘能力和綜合分析能力。4.加強協調配合,健全風險數據分析應用機制。稅收風險管理工作是一項系統性的工程,風險數據產生于稅收工作中的多個環節,也涉及到多個部門,因此風險數據的分析應用需要各個部門的通力配合。一是做好統籌規劃,設立專門部門,具體承擔數據分析應用工作的組織、協調、監督等工作,制定風險數據分析的工作流程,明確各部門的職責,設置相應的崗位,確保數據分析工作流暢運轉。二是各級、各部門要共同參與、密切配合,政策法規、稅收、收入核算、征管、信息中心等部門都要參與進來,形成數據分析的工作機制。5.積極培養人才,提高風險數據分析應用水平。風險數據分析工作對數據分析人員提出了更深更高的要求。要勝任數據分析工作,需要既掌握稅收業務知識、計算機知識,又掌握稅收政策的變化、經濟形勢發展變化的復合型人才。一是善于用人,把業務能力強、信息技術水平高的人才充實到數據分析崗上,給予他們施展才華的平臺。二是加強對人才的培訓,通過短期培訓、繼續教育等多種形式,促進數據分析人才的快速成長。三是強化基層稅務干部的培訓。采取不同方式,加強對稅收政策、業務以及計算機知識等的培訓,使全體干部掌握數據分析方法,提高數據分析的綜合能力,為數據分析應用打好人才基礎
作者:黎濤