時間:2022-02-01 16:20:05
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了七篇數據分析方法范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
關鍵詞:大數據;分析模型;房價
中圖分類號:TP399 文獻標識碼:A 文章編號:1007-9416(2017)03-0137-02
1 引言
大數據分析首先要建立一個分析模型,分析模型是大數據分析的基石,只有先建立了模型才能對大數據進行分析。構建大數據分析模型傳統的方法很難實現,大數據非結構化、屬性很難預知,通過數學、統計學等方法構建大數據分析模型都比較困難,機器學習是構建大數據分析模型最有效的方法之一。機器學習通過不斷地學習優化、不斷地迭代逼近所要的模型。
2 訓練數據準備
機器學習構建大數據分析模型的方法是通過訓練數據將模型訓練出來。從要研究的大數據對象中找出訓練集。機器學習分為監督學習和非監督學習,監督學習需要教師,監督機器學習的結果,事先設定好學習目標,期望的結果。非監督學習的數據一般都無標簽,學習結果事先也無法預知,通過數據可視化等方法觀察學習結果。
房價大數據分析模型機器學習屬于監督學習,期望預測值極大地逼近真實值。首先需要采集房價數據作為訓練數據,然后設計房價大數據分析模型機器學習算法,計算機通過機器學習算法和學習路徑學習訓練數據,學習目標是預測的結果極大地逼近真實數據,通過反復迭代,不斷地接近目標,訓練出所希望的模型。
3 數據清洗
清洗后的訓練數據如下:
間數(x1) x1 2 x1 2 x1 3 x1 3 x1 3 x1 3 x1 2 x1 2 x1 2 x1 3 x1 3 x1 3 x1 2 x1 2 x1 1 x1 3 x1 3 x1 3 x1 3 x1 1 x1 2 x1 2 x1 2 x1 2 x1 2 x1 3 x1 2 x1 3 x1 2 x1 2 x1 3 x1 2 x1 2 x1 3 x1 3 x1 3 x1 2 x1 3 x1 2 x1 1 x1 2 x1 2 x1 2 x1 2
面e(x2) x2 126 x2 99 x2 134 x2 137 x2 135 x2 138 x2 104 x2 99 x2 105 x2 126 x2 112 x2 116 x2 88 x2 90 x2 79 x2 120 x2 155 x2 158 x2 161 x2 66 x2 108 x2 88 x2 111 x2 103 x2 104 x2 131 x2 105 x2 130 x2 102 x2 105 x2 148 x2 98 x2 100 x2 128 x2 110 x2 101 x2 121 x2 127 x2 103 x2 67 x2 78 x2 71 x2 81 x2 77
價格(y1) y1 460 y1 425 y1 515 y1 580 y1 630 y1 600 y1 425 y1 439 y1 435 y1 608 y1 460 y1 460 y1 410 y1 380 y1 340 y1 520 y1 685 y1 680 y1 630 y1 328 y1 532 y1 405 y1 495 y1 470 y1 480 y1 690 y1 480 y1 690 y1 462 y1 495 y1 540 y1 440 y1 510 y1 599 y1 395 y1 450 y1 455 y1 595 y1 403 y1 295 y1 315 y1 345 y1 355 y1 335
4 房價大數據分析模型機器學習算法
機器學習首先要設計機器學習學習算法,設計機器學習學習路徑,機器學習解決的問題通常可分為預測和分類兩類問題。首先我們分析一下要解決的問題是屬于預測問題還是分類問題,然后選擇相應的學習算法,設計學習路徑,通過訓練數據訓練和機器學習構建大數據分析模型。模型通過訓練數據訓練出來以后,對模型進行檢驗,然后不斷進行優化,以達到我們所期望的精度。
以下是梯度下降機器學習算法和學習路徑:
首先建立一個估值函數(模型)如下:
x為自變量(特征參數),h(x)為應變量(房價的估值),希望求出此函數的系數θ0、θ1,構成一個完整的函數,此函數就是我們要構建的大數據分析模型。
我們建立一個成本函數,希望預測值與真實值的差趨近于0,也就是成本函數值趨近于0。
J(0, 1)=
其中:
X(I)表示向量X中的第i個元素;
Y(I)表示向量Y中的第i個元素;
表示已知的假設函數;
m為訓練集的數量;
Gradient Descent梯度下降方法機器學習步驟:
(1)先隨機選定一個初始點;
(2)確定梯度下降方向;
(3)通過實驗確定下降步伐,學習率Learning rate;
(4)通過不斷地遞歸,收斂到極小值;
通過梯度下降法使成本函數趨于0,在此條件下求得自變量的系數θ0和θ1,將此θ0和θ1帶入到函數中得到我們要的模型。
下面是介紹如何運用梯度下降法,經過反復迭代求出θ0和θ1:
梯度下降是通過不停的迭代,最后沿梯度下降到最低點,收斂到一個我們滿意的數據,誤差趨近于0時迭代結束,此時的θ0和θ1正是我們要求的函數自變量的系數,有了θ0和θ1,這個假設的函數就建立起來了,這個函數就是我們要建的大數據分析模型。
梯度下降法分為批量梯度下降法和隨機梯度下降法,批量梯度下降法速度較慢,每次迭代都要所有訓練數據參與;隨機梯度下降精度差一些,容易在極值周圍震蕩;房價大數據分析模型采用的是實時數據梯度下降法(Real Time Online Gradient Descent),可以隨著房價的變化隨時修正模型的參數。
5 構建房價大數據分析模型
通過數據可視化,我們可以看到房價數據趨于線性,所以我們采用線性回歸構建房價大數據分析模型。采用監督學習,先給定一個訓練集,根據這個訓練集學習出一個線性函數,然后檢驗這個函數訓練的好壞,即此函數是否足夠擬合訓練集數據,不斷優化模型減少殘差,最大限度地接近真實值。
假設房價大數據分析模型:
y=aX1+bX2
通過梯度下降法,不斷遞歸,最后使假設值與實際值之差趨近于0,求得此時的模型變量系數a、b,構建線性函數(房價大數據分析模型)。模型通過回歸診斷、交叉驗證不斷進行優化,直到誤差達到要求。
以下是采用機器學習算法構建的房價大數據分析模型,用R語言編寫房價大數據分析模型程序如下:
令:a=q1;b=q2;
將訓練數據以數據框的形式存儲。
pricedata
x1
x2
y
造梯度下降算法函數,初始點q1=0、q2=0;下降速率d=0.0001。
grd2
q1=0;
q2=0;
d=0.0001;
i=0;
m=9;
plot(y~x1+x2,data=pricedata,pch=16,col='red');
通過反復迭代得出估值函數系數q1、q2。
while (i
{
i=i+1;
q1=q1-d/m*(q1*x1+q2*x2-y)*x1;
q2=q2-d/m*(q1*x1+q2*x2-y)*x2;
}
return(q1);
return(q2);
}
grd2();
model2
summary(model2);
通過summary(model2)匯總出模型變量系數。
關鍵詞:粗糙集理論;數據分析方法;信息系統;決策表;屬性約簡
中圖分類號:TP18 文獻標識碼:A文章編號:1009-3044(2007)06-11651-01
1 引言
粗糙集(Rough Set)理論[1]是波蘭數學家Z.Pawlak于1982年提出的,它建立在完善的數學基礎之上,是一種新的處理含糊性和不確定性問題的數學工具。其主要思想是在保持分類能力不變的前提下,通過知識約簡,導出問題的決策或分類規則[2]。由于粗糙集理論不需要任何預備或額外的有關數據信息,使得粗糙集理論成為研究熱點之一,被廣泛應用與知識發現、機器學習、決策分析、模式識別、專家系統和數據挖掘等領域。
屬性約簡是粗糙集理論中核心研究內容之一[3]。在眾多的屬性約簡算法中,大致可以分為兩類:一類是基于信息熵的啟發式算法[4],這類算法往往不能得到系統的所有約簡.另一類是基于區分矩陣和區分函數構造的算法[5],這種算法直觀,易于理解,能夠計算出所有約簡。但在區分矩陣中會出現大量的重復元素,造成時間和空間的浪費,從而降低了屬性約簡算法的效率。
本文基于數據分析方法[6]的屬性簡約算法是在保持分類能力不變的前提下,逐個約去冗余的屬性,直到不再有冗余的屬性,此時得到的屬性集是最小屬性集,即為約簡。該算法簡單,能夠求出所有約簡,不會出現區分矩陣中大
量的重復元素,從而提高了屬性約簡的效率。
2 粗糙集概念
定義2.1設U為所討論對象的非空有限集合,稱為論域;R為建立在U上的一個等價關系族,稱二元有序組S=(U,R)為近似空間。
定義2.2令R為等價關系族,設P?哿R,且P≠?I,則P中所有等價關系的交集稱為P上的不可分辨關系,記作IND(P),即有:[x] IND(P)= ∩ [x]R,顯然IND(P)也是等價關系。
定義2.3稱4元有序組K=(U,A,V,f)為信息系統,其中U為所考慮對象的非空有限集合,稱為論域;A為屬性的非空有限集合;V=∪Va,Va為屬性a的值域;f:U×AV是一個信息函數,?坌x∈U,a∈A,f(x,a)∈Va。對于給定對象x,f(x,a)賦予對象x在屬性a下的屬性值。信息系統也可簡記為K=(U,A)。若A=C∪D且C∩D=?I,則S稱,為決策表,其中C為條件屬性集,D為決策屬性集。
顯然,信息系統中的屬性與近似空間中的等價關系相對應。
定義2.4設K=(U,A,V,f)為信息系統,P?哿A且P≠?I,定義由屬性子集P導出的二元關系如下:
IND(P)={(x,y)|(x,y)∈U×U且?坌a∈P有f(x,a)=f(y,a)}
則IND(P)也是等價關系,稱其為由屬性集P導出的不可分辨關系。
定義2.5稱決策表是一致的當且僅當D依賴于C,即IND(C)?哿IND(D),否則決策表是不一致的。一致決策表說明:在不同個體的條件屬性值相同時,他們的決策屬性值也相同。
定義2.6設K=(U,A)為一個信息系統。若P?哿A是滿足IND(P)=IND(A)的極小屬性子集,則稱P為A的一個約簡,或稱為信息系統的一個約簡。
定義2.7設K=(U,CUD)為一個決策表,其中C為條件屬性集,D為決策屬性,若P?哿C為滿足POSC(D)=POSP(D)的極小屬性子集,則稱P為決策表K的一個約簡。其中POSC(D)表示決策D關于屬性集C的正域。
定義2.8數據分析方法對于信息系統K=(U,A),逐個移去A中的屬性,每移去一個屬性即刻檢查新得到的屬性子集的不可分辨關系,如果等于IND(A),則該屬性可被約去,否則該屬性不可被約去;對于決策表K=(U,CUD),逐個移去C中的屬性,每移去一個屬性即刻檢其決策表,如果不出現新的不一致,則該屬性可被約去,否則該屬性不可被約去。
3 基于數據分析方法的屬性簡約算法
3.1 算法思路
利用函數的遞歸調用,逐個判定信息系K=(U,A)中屬性a(a∈A),若IND(A)=ND(A-{a}),則a可以約去,A‘=A-{a},否則a不可以約去,繼續檢查A‘中的每個屬性是否能被約去,此過程一直進行下去,直到出現某一屬性子集中的每個屬性都不可約去為止,此時該屬性子集即為所求的屬性簡約。對于決策表,每次檢查是否增加了不一致的決策規則,作為是否約去屬性的依據。
算法如下:
輸入:信息系統K=(U,A)。
輸出:K的屬性約簡。
Match(A') // A’=A-{a}//
begin
for i=1to|U|-1 //|U|表示U的基數//
for j=i+1to|U|
begin
r=|R|//|R|表示屬性個數//
if((f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar)))
then a不可被約去,return0
end
a可以被約去return1
end
Reduce (A)
begin
flag=1
for i=1 to |R|//|R|表示屬性個數//
begin
a=ai
A'=A-{ai}
if match(A')thenflag =0 , reduce (A’)
if (flag且A未被輸出)then
輸出A中所有元素//flag≠0,說明A中所有元素不可移去,且不會被重復輸出//
End
end
以上給出的函數是求解信息系統的屬性約簡算法;對于決策表,只要將Match(A’)函數中的if語句的條件換成(f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar))∧(f(ui,ag)≠f(uj,ag)),r=|C|是條件屬性個數,ag是決策屬性。Reduce (A)函數中|R|換成|C|即可。該算法適用于一致決策表,對非一致決策表,算法類似,也就是逐個移去屬性并檢查決策表是否出現新的不一致,作為約去此屬性的依據。
4 舉例
文獻[7]中決策表1,a,b,c,d,e是條件屬性,g是決策屬性,求出的約簡是{a,b,d}
應用本算法,求得的屬性約簡為{a,e}和{a,b,d},得到決策簡化表2和表3。
表1 決策表表2簡化表表3簡化表
如果將決策表表1看作一信息系統,運用本算法,求得的屬性約簡有{c,d,e,g}, {b,e,g}, {a,c,d,g}, {a,c,d,e}, {a,b,g}, {a,b,e}h和{a,b,d}
5 結束語
本文通過數據分析方法討論了屬性約簡問題。該算法是基于不可分辨關系的,具有直觀、易于理解和完備性的特點。當屬性和對象都較少時,效率較高,但當屬性和對象較多時,計算的復雜度較高。實例表明,該算法是有效的。
參考文獻:
[1]PAWLAK z.Rough set[J].International jom:ua ofcomputer and information science,1982,(11):341―356.
[2]張文修,吳偉志,梁吉業等.粗糙集理論與方法[M].北京:科學出版社,2001.
[3]Pawlak Z.Slowinski R.Rough set approach to muhiattribute decision analysis.Ivited Review[J].European Journal of Operational Research.1994,72:443-459
[4]王國胤,于洪,楊大春.基于條件信息熵的決策表約簡[J].計算機學報,2002(7):760―765.
[5]Skowron A,Rauszer C.The Discernibility Matrices and Functions in Information Systems[A].I Slowinsk R.ntelligent Decision Support― Handbook of Applications and Advances of the Rough Sets Theory[c].1991,331-362.
[6]劉請.Rough集及Rough推理[M].北京:科學出版社,2001.
關鍵詞:空氣質量;異常數據,空氣自動監測系統;
中圖分類號: X169 文獻標識碼: A 文章編號:
1引言
隨著國家科技水平的提高,居民的生活質量也在逐漸提高,人們對周圍環境的要求也隨之提高。環境的重要組成部分——空氣,作為人類一切活動的必需元素,自然也被放在了重要的位置,它關系到人體的舒適度以及健康狀況。為了改善國家的空氣質量,環保部門已在國家的大多數地區布設了環境監測站,并分別為這些監測站配備了一定的監測系統及技術人員。目前,常用的環境空氣監測系統為空氣自動監測系統,該系統在大多數監測站覺得以應用,因為該系統不僅能夠在監測站內自動完成空氣質量數據的監測,還能夠根據已測數據來預測本地區的未來空氣質量變化趨勢,此外還能夠在發生特殊事件時迅速提供應急措施。但是該系統也有一定的缺點,即在某些特殊狀況下,比如停電、損壞、空氣質量突變,產生不正常數據。下面分別從異常數據和正常數據兩個方面著重介紹了如何對監測數據進行分析及處理。
2異常數據的分析及處理方法
絕大多數類型的監測項目均會產生一定量的異常數據。空氣自動監測系統也不例外,該系統常因氣候的突變,以及系統本身的性能不穩定,系統組成部件出現故障等一系列因素而產生許多異常數據。大量資料顯示,該系統產生的異常數據通常占有總數據百分之一到百分之三的比例,這個比值偏大,因此如何恰當地分析及處理這些異常數據同分析和處理正常數據一樣,具有十分重要的意義。
2.1分析造成異常數據的原因
造成系統產生異常數據的原因較多,大致分為分析儀故障、氣路故障和其他故障三大類。
2.1.1分析儀故障
分析儀故障主要分為以下兩類:
(一)二氧化硫及二氧化氮分析儀故障
這兩種分析儀的采樣管和限流孔直徑都較小,而空氣中的灰塵含量較高,而且有的灰塵顆粒粒徑較大,所以容易造成管道出現堵塞。一旦堵塞,將會對二氧化硫和二氧化氮和的監測值帶來很大影響。這兩臺分析儀內部還分別設有一臺小型泵,泵上均附有泵膜,泵膜如果被空氣中的灰塵污染,也將對二氧化硫的監測造成影響。此外,該兩種分析儀內部還有許多諸如紫外燈等小物件,這些小物件的損壞也會對二氧化硫的監測值造成很大的偏差。
(二)PM10監測儀故障
該監測儀對采樣量要求較高,所以如果在采樣時出現氣體泄露將會造成PM10值偏低;流量計如果不準確也會造成PM10值出現偏差。在該分析儀內設有濾膜帶,濾膜帶的破裂將會造成PM10值偏大或者固定不變。此外,下雨天要格外注意加熱管的工作狀態。加熱管的主要作用是將水分進行分離。下雨天空氣中水分含量較高,如果加熱管不能將水分完全分離,就會造成水分吸在濾膜上。這些水分會因監測儀溫度的升高而隨之揮發,水分的揮發將最終導致PM10值長期處于低水平不變動,甚至變成負數。
2.1.2氣路故障
空氣自動監測系統的采樣頭因接觸空氣而容易沾染污物,所以為了獲得準確的監測數據,要經常清洗采樣頭,保持清潔。采樣管系的順暢與否也直接影響著監測數據的準確性。
2.1.3其他故障
該系統內部具有許多線路,任何一條線路出現松動或者破壞都將對監測值帶來影響,甚至造成系統無法正常運轉。此外,該系統在電路不穩定或者斷電的狀態下無法正常工作,所以供電系統由斷電轉為有電的較短時間段后,該監測系統會因儀器的預熱而產生一些異常數據。
2.2異常數據的處理方法
對于異常數據,數據處理人員應該能夠準確地從監測數據中進行去除。在去除異常數據后,如果正常數據能夠滿足規定的小時數,則可以直接去掉這些異常數據繼續接下來的工作,并且還要同其他監測站的數據進行對比。而如果在去除異常數據后的正常數據不能夠滿足規定的小時數,則需要考慮再采用其他方法進行監測。
3正常數據的分析及處理方法
探究一個地區的空氣質量的好壞,首先是選用高端精確的系統,如空氣自動監測系統,對空氣進行監測,然后就是對這些監測數據進行系統地分析及處理,二者缺一不可,同等重要。(一)篩選數據。將監測到的大量數據進行篩選,去掉突變值,也就是異常數據,剩下的就是正常數據。(二)列表。根據監測站的不同或者各個監測站的主要污染物的類別按照一定的時間順序填入表格,將這些數據進行系統化。(三)畫圖。根據上一步的表格數據,選擇適當的圖線類型,如折線圖、曲線圖、柱形圖或者餅狀圖,將數據反映在圖中,空氣質量的變化趨勢及幾個監測站之間的區別看起來會直接,更清楚。(四)討論。在對正常的監測數據進行處理之后,接下來就是對這個處理結果進行討論:同種監測站的同種污染物不同時間含量的不同,不同監測站的同種污染物含量之間的不同,同一個監測站不同污染物種類的含量差別等。此外還應重點討論各個監測站的主要污染物的來源,在討論污染物的主要來源時要注意結合監測站的地形狀況、當時的氣候狀況、以及監測的地理位置,即是否靠近工業區、居民生活區或者道路等,因為工業區會直接排放多種類型的氣態污染物,如硫化物,氮氧化物,PM10,有機化合物,碳氧化物,鉛等進入空氣,居民區在冬季時則會因取暖而排放大量的硫化物,靠近道路的監測站則會因道路上的車輛尾氣而導致監測數據中氮氧化物含量較高。
4總結
為了準確地了解當地的空氣質量狀況,空氣監測站的工作人員需要掌握正確的數據分析及處理方法,對于正常數據及異常數據分別采用不同的方法進行分析和處理。此外,在工作過程中,應根據實際狀況的不同而進行適當的變通,制定恰當的解決方案,切不可死搬硬套,而且工作人員應明確自身責任,掌握熟練的技術,確保環境空氣監測結果科學而正規。
參考文獻
[關鍵詞]財政收入;GDP;面板數據
中圖分類號:F01 文獻標識碼:A 文章編號:1006-0278(2013)02-024-01
在計量經濟學中,我們一般應用的最多的數據分析是截面數據回歸分析和時間序列分析,但截面數據分析和時間序列分析都有著一定的局限性。在實際經濟研究當中,截面數據回歸分析會遺漏掉數據的時間序列特征,例如在分析某年中國各省的GDP增長數據時,單純的截面數據回歸分析無法找出各省GDP隨時間變化的特征,使得分析結果沒有深度。而如果只用時間序列分析,則會遺漏掉不同截面間的聯系與區別,例如在分析中國單個省市的GDP隨時間增長的數據時,無法找出各個省市之間經濟增長的聯系與區別,因而同樣無法滿足我們的需要。而面板數據,是一種既包括了時間序列數據,也包括了相關截面數據的復合數據,是近年來用得較多的一種數據類型。
下面我們將基于2000-2009年中國各省GDP和財政收入的面板數據的實例來詳細闡述面板數據的分析方法。
一、GDP與財政收入關系的經濟學模型
財政收入是保證國家有效運轉的經濟基礎,在一國經濟建設中發揮著重要作用。隨著中國經濟發展速度的日益加快,財政收入不斷擴大,而擴大的財政收入又以政府支出來調節和推動國民經濟發展。正確認識財政收入與經濟增長之間的長期關系,把握財政收入與經濟增長之間的相互影響,發揮財政收入對經濟發展的調節和促進功能,對于完善財稅政策,深化財稅體制改革,實現財政與經濟之間的良性互動,具有重要的現實意義。文章就將從中國各省的面板數據出發研究,中國不同地域間財政收入和GDP之間的關系。
二、實證分析
(一)單位根檢驗
Eviews有兩種單位根檢驗方法,一種在相同根的假設下的檢驗,包括LLC、Breintung、Hadri。另一種則是在不同根下的假設前提下,包括IPS,ADF-Fisher和PP-Fisher5。檢驗結果表明所有檢驗都拒絕原假設,因此序列GDP和CZSR均為一個2階單整序列。
(二)協整檢驗
如果基于單位根檢驗的結果發現變量之間是同階單整的,那么我們可以進行協整檢驗。協整檢驗是考察變量間長期均衡關系的方法。所謂的協整是指若兩個或多個非平穩的變量序列,其某個線性組合后的序列呈平穩性。此時我們稱這些變量序列間有協整關系存在。
在最終的結果中,Pedroni方法中除了rho-Statistic、PP-Statistic項目外都拒絕GDP和CZSR不存在協整關系的原假設,同樣Kao和Johansen檢驗方法也都拒絕原假設,因此,上述檢驗結果表明,我國各省2000-20009年的GDP和財政收入面板數據間存在著協整關系。既然通過了協整檢驗,說明變量之間存在著長期穩定的均衡關系,其方程回歸殘差是平穩的,因此可以在此基礎上直接對進行回歸分析,此時假設方程的回歸結果是較精確的。
三、建立模型
混合模型:如果從時間上看,不同個體之間不存在顯著性差異;從截面上看,不同截面之間也不存在顯著性差異,那么就可以直接把面板數據混合在一起用普通最小二乘法(OLS)估計參數。
我們根據混合模型的回歸結果,得到財政收入和GDP之間的回歸方程為:
CZSR=227.3123+0.103224*GDP
(26.47637)(0.002839)
R2=0.810995 F=1321.587
顯然從模型的回歸結構來看,R2的值達到了0.81,有了比較好的回歸解釋力,同時,GDP的回歸系數為0.103224,表明各省的財政收入平均占到了國民收入的10.3%左右。
變系數模型:顯然,在中國各省之間由于處在不同的地區,因而擁有不同的區位優勢,那么各省的發展水平顯然就不一樣。正是由于這種不同的地方政策、管理水平、文化差異等會導致經濟變量間出現一些關聯性的變化,此時在進行模型回歸的時候,我們就有必要考慮變系數模型。
在回歸結果中,R2的值達到了0.97,比混合模型擁有更好的回歸解釋力,而在變系數模型回歸結果中,GDP的回歸系數大于0.5的只有、青海、寧夏三個省份,也就是說這三個省份的財政收入占到了GDP的50%以上,他們同處于經濟并不是很發達的西部地區,由此可以看出,處在經濟發達地區的財政收入占GDP的比重要低,而不發達地區則要高。
四、結論
通過以上的分析檢驗,我們發現針對于中國財政收入和GDP的面板數據,我們應建立起變系數模型,并通過模型分析,我們可以得出這樣的結論,中國各省間由于存在著地域經濟發展水平不同、管理水平不同以及國家的相關政策等諸多不同,造成了各省之間在財政收入以及國民收入上面存在著一定的差異。而回歸結果也告訴我們,我國西部地區的財政收入占GDP的比例要明顯高于東部地區,地區發展落后地區的財政收入占GDP的比例也要明顯高于東部地區。因此,這為我們改善我國落后地區的經濟發展提供了一定的新思路,就是對一地區的稅收征收可以適當放緩,而將GDP中以前政府占用的部分歸還于民眾和企業,因為,按照發達地區的經驗表明,財政收入所占比重過高,經濟發展的活力或者就不會很高,對于進一步刺激財政收入的增加也沒有任何幫助。因此,我們應該適度降低財政收入占GDP的比重,從而增加經濟活力,使西部地區以及落后地區及早的跟上東部發達地區的發展步伐,從而消除我國經濟發展的地域不平衡。
參考文獻:
[1]謝識予,朱洪鑫.高級計量經濟學[M].復旦大學出版社,2005.
[2]張曉峒.Eviews使用指南(第二版)[M].南開大學出版社,2004.
關鍵詞 自組織映射 組織特異性基因 管家基因 基因表達譜
一、SOM算法介紹
由Kohonen提出的自組織映射(SOM)的神經網絡是神經網絡中適合用于對數據進行分類的有效方法。SOM神經網絡包含一個輸入層和一個輸出層,組織成一個二維的網格結構(圖1.1)。該網絡能夠從任意一個隨機選擇輸入的結點開始最終形成一個拓撲結構的映射,這個映射反映了輸入模式的內在的關系。但是運用SOM有一些參數的限制,首先需要指定類別數目,對映射空間結點進行權值的初始化等。如(圖1.1)所示,SOM網絡是一個的映射,如果這個神經元被安排在一個平面網格上面的話,這個神經網絡就稱為二維神經網絡,因為這個網絡將一個高維的輸入向量映射到一個二維的平面上面。給定一個網絡,輸入向量是一個維的向量,相應的第個突觸向量的第個元素與輸入向量的第個元素相連,這樣,一個維的突觸向量就和第個神經元實行連接。
圖1.1 SOM網絡的基本結構
SOM算法描述如下:
(1)令網絡學習次數,賦予初始化權值向量一個小的隨機向量值,對拓撲鄰域()、學習率()進行初始化,設置網絡總的學習次數()。
(2)當學習次數()小于總的學習次數()時,重復步驟3至步驟6。
(3)隨機選一個輸入向量進入網絡進行訓練。
(4)確定獲勝神經元,相應的權值向量為與輸入向量距離最短的向量,成為獲勝神經元,輸入向量與獲勝神經元的最短距離為,定義如下:
(1.1)
(5)按照下式更新獲勝神經元及其鄰域內神經元權值向量:
(1.2)
與函數定義如下:(1.3)
(6)令,如果,回到第(3)步繼續訓練,否則結束訓練。
二、數值模擬計算
本文以HUGEindex數據庫中人7000多條基因在19個正常組織中的表達情況這19個組織中表達的基因為樣本對其進行分析。不同組織下的全基因表達數據構成了一個7070x59的數據矩陣,其中每一個元素表示第個基因在第個組織中的表達水平值,行向量代表基因在19個人組織中的表達水平,成為基因的表達譜,列向量代表某一組織的各基因的表達水平。
(1.4)
本文運用SOM方法對人基因19個組織的59個樣本進行聚類,SOM網絡的拓撲結構見(圖1.2)及參數選擇見表(表1.1)。
圖1.2 樣本聚類SOM網絡結構圖
上圖中,根據Genechip得到的人體19個組織的59個微陣列數據所得到的信息,我們采用4x5的二維拓撲結構的SOM網絡對人體組織樣本進行分類(其中第(4,5)個結點為空),圖中每個結點的位置(結點位置用與輸入模式維數相同的向權值向量表示,初始權值由系統自動產生)為各個結點權值尺度化之后所得到的位置。
三、結論
通過分類可以將芯片實驗的59個樣本按照人體組織類別分為19個類別,并且與采用層次聚類法所得結果進行比較,可以看出自組織映射的聚類方法與層次聚類方法比較,可以看出采用SOM網絡聚類方法比層次聚類得到的結果更為明確,其分類正確率達到了92.2%,證明了SOM方法是有效的。
參考文獻:
[1]孫嘯,陸祖宏,謝建明.生物信息學基礎[M].北京:清華大學出版社,2005:282-285.
[2]許東,吳錚.基于matlab6.x的神經網絡系統分析與設計[M].西安電了科技大學出版社,2002.
[3]閻凡平,張長水.人工神經網絡與模擬進化計算[M].北京:清華大學出版社,2005.:11-34,360-395.
作者簡介:
城市地鐵深基坑施工,由于受環境條件限制,施工安全問題尤為突出,采用單一監測方法已不能滿足要求,多種方法監測變形數據分析能客觀準確反映安全狀態與質量程度,數據的客觀準確性對施工具有指導意義,掌握工程各主體部分的關鍵性安全和質量指標,確保地鐵工程按照預定的要求順利完成,對各種潛在的安全和質量問題做到心中有數。
關鍵詞:樁頂沉降、樁頂水平位移、樁體水平位移、軸力監測。
引 言
車站深基坑為東西走向,基坑開挖長為160m,東側寬28m,西側寬21m,開挖深度為22m。車站東北側為機場航站樓,車站位于規劃停車場下方,2號風亭位于現有落客平臺匝道橋旁。車站為地下雙層島式站,地下一層為站廳層,地下二層為站臺層,車站附屬建筑包括2個出入口和2個風亭等土建工程,施工采用明挖法,支護結構為鉆孔灌注樁和鋼管內支撐。
1.監測項目
車站深基坑主要進行的監測項目有:基坑樁頂沉降、樁頂水平位移、樁體水平位移(基坑測斜)、鋼支撐軸力監測等。
2.布點要求
2.1基準點:在遠離基坑變形區域(50m)外,布設永久性沉降和位移基準點4個。
2.1.2樁頂水平位移點:測點布設在基坑四周圍護樁頂,埋設強制對中裝置。邊長大于30m的按間隔30m布點,小于30m的,按1點布設,基坑4角各布設1點,共布設17點。
2.1.3樁頂沉降點:測點布設在基坑四周、圍護樁頂,邊長大于30m的按間隔30m布點,小于30m的,按1點布設,基坑4角各布設1點,共布設17點。
2.1.4樁體水平位移(測斜)孔:測孔布設在基坑四周圍護樁體內,邊長大于60m的按間隔60m布孔,小于60m的按1孔布設,共布設8孔。
2.1.5鋼支撐軸力:在鋼支撐兩端安裝予埋軸力計,共布設16組。
為了便于數據對比,以上各監測項目中監測點平均分布在基坑每條主斷面上,監測點布設主斷面示意圖如下:
2.2巡視內容
2.2.1周邊環境:建(構)筑物是否有裂縫、剝落,地面是否有裂隙、沉陷、隆起、基坑周邊堆載情況、地表積水情況等。
2.2.2基坑工程:明挖基坑圍護結構體系有無裂縫、傾斜、滲水、坍塌、支護體系施做情況、地下水控制情況。現場巡視按要求填寫巡視成果表,特殊情況下擴大巡視范圍。
2.3監測頻率: 施工方要求每天至少監測一次,第三方監測要求每三天監測一次,出現特殊情況(多方法監測數據變化量大、現場巡視發現有裂縫)時進行加密監測。
3.監測方法及效果
3.1監測方法及初始值:采用“同人員、同儀器、同線路”進行觀測,用Leica-TCA2003型馬達跟蹤精密全站儀對由4個基準點組成的二等控制網進行角度和邊長觀測。角度觀測為左右角兩測回,距離采用直反覘進行觀測,其各項觀測精度均滿足《建筑變形測量規范》要求。觀測數據采用清華三維軟件平差,平差精度為1/180000。變形監測工作采用整體監測形式,在基坑開挖前一周對監測點三次觀測,取三次觀測數據的平均值作為初始值。
3.2沉降監測:基坑四周、樁頂沉降采用電子水準儀天寶DINI03進行監測,監測等級按II等水準進行監測。觀測方法采用前-后-后-前的順序,地表監測基點為標準水準點(高程已知),監測時通過測得各測點與水準點(基點)的高程差ΔH,可得到各監測點的標準高程Δht,然后與上次測得高程進行比較,差值Δh即為該測點的沉降值:ΔHt(1,2)=Δht(2)-Δht(1)“+”值表示上浮、“-”值表示下沉。
3.3 樁頂水平位移:采用有“測量機器人”之稱的最先進全站儀 TCA2300,該儀器(角度測量精度0.5”,測距精度1mm+1ppm),特制U型強制對中觀測臺2個,布設成相互垂直,可以控制基坑所有變形點,采用該觀測臺能達到觀測穩定對點精度高,測點設置在圍護樁頂或邊坡坡頂,埋設強制對中裝置,每個變形點觀測三組數據,數據值保留至小數點后四位,其差值均在0.2mm內。每次測量的坐標減去上次測量的坐標,得到ΔX、ΔY,根據基坑方向與真北方向的角度關系,對變化量ΔX、ΔY進行角度歸算,計算出垂直于基坑方向上的位移量。
3.4 樁體水平位移(測斜): 樁體水平位移采用CX-3C測斜儀進行測量,每0.5米讀一次數,垂直基坑方向正反兩次測量進行平差。基本公式:V1=(V正-V負)÷2,V2=(V正-V負)÷2+V1
依次累加;ΔV1 = V1 本次測量值-V1 上次測量值。依次對應相減,得出每點的位移量。“+”值表示向基坑內傾斜、“-”值表示向基坑外傾斜。
3.5 支撐軸力:采用XP05振弦頻率儀進行軸力監測,讀取數據后,用公式算出軸力變化值:P=K*(f I2-fO2)
其中P表示軸力變化值,K表示軸力計標定系數,f i表示軸力計任一時刻觀測值,fo表示軸力計初始觀測值。
以上各監測項的的監測預警值均為0.8倍設計容許值。
4.各項監測數據分析
監測多方法數據和資料,通過比較分析能極大提升信息反饋的可靠性,并能有效剔除粗差。可以按照安全預警位發出報警信息,既可以對安全和質量事故做到防患于未然,又可以對各種潛在的安全和質量問題做到心中有數。
現對基坑第六主斷面各測項監測點數據進行對比分析,評價基坑安全性。
4.1樁頂沉降曲線圖如下:
根據圖表曲線可以看出,基坑剛開挖時,由于土壓力突然較小,樁頂沉降有隆起現象,隨著基坑開挖,側壓力平衡發生變化,變形值和沉降量由小變大,圍護結構變形增大。持續一段時間后,圍護結構的支撐內力,錨桿拉力與土側壓力處于平衡,變形數據達到穩定。樁頂水平位移和樁體水平位移變化趨勢一致,同時跟支撐軸力成反比例,當加大支撐軸力時,位移量變化減小,向基坑外變化,支撐軸力減少時,位移量增大,向基坑內變化,但數據變化量不是很大。根據每個斷面上的4個監測項目,進行數據對比,位移及沉降變化速率均小于3mm/d,累積量均小于30mm的預警值。從整個分析可以得到該工程基坑支護設計合理,一級基坑安全控制有效。
結束語
(1)監測工作在地鐵深基坑開挖過程中能有效地起到指導安全施工的作用,加強監測可以及時發現隱患,為確定加固措施、確保工程安全提供重要依據。
(2)變形監測頻率要根據施工進度計劃,安排好監測作業時間,因為工程階段性變形量所占比例大,與工序相關性很強。
(3)城市地鐵深基坑施工,由于受環境條件限制,人為因素、環境因素、氣象因素等等情況影響,單一監測數據不能說明問題,可靠性較低,單一監測方法已不能滿足城市地鐵施工安全要求。
(4)可靠的信息、精度合理的數據對可能發生的危及環境安全的隱患或事故提供及時、準確的預報,以便及時采取有效措施,避免事故的發生。
(5)監測多方法采集的數據,可以及時發現監測質量的好壞,并能有效剔除粗差。通過曲線時速類比、各類數據軟件分析,能極大提升數據信息質量和信息反饋的可靠性。
【關鍵詞】交通事故 預測方法 回歸分析預測法
所謂的交通事故預測是根據已發生交通事故的數據進行統計,在對事故原因進行分析的基礎上,探尋事故規律,以針對交通事故做出更為合理的推測和判斷。當前,交通事故預測方法相對較為多樣,如回歸分析、時間序列等,雖然都能對交通事故做出科學合理的決策性指導,但各具優缺點和適用條件,因而有關人員應在遵循交通事故預測思想的基礎上,對幾種主要預測方法進行分析,確保交通部門人員能夠根據實際情況而合理選擇交通事故預測方法。
1 交通事故預測思想
交通事故對人類造成的危害相對較大,對人類產生嚴重的威脅。從我國發展實踐中可知,交通事故在一定程度上制約我國經濟的發展進程,尤其對人類社會福利、醫療保險等方面的影響較大。據不完全統計,2015年全年間,我國交通事故約為10597358起,死亡人數約為68432人,財產損失高達10億元以上。可見,交通事故威脅隱患相對較大。交通事故預測能夠根據已發生交通事故進行統計、分析、處理,在遵循規律的基礎上,對未來可能發生的交通事故作出科學合理的預測,該預測結果以科學邏輯推斷為基礎。就交通事故原因而言,道路環境、交通條件、車輛、駕駛員等都是影響因素。通過交通事故預測,我國交通部門人員能夠對交通事故作出科學合理的判斷和制定有效的預防策略,以最大限度降低和消除交通事故隱患。
2 交通事故主要預測方法
2.1 回歸分析預測法
回歸分析預測法在交通事故預測中的有效應用,主要分為線性回歸和非線性回歸兩種方法。首先,背景交通工程研究所人員提出線性回歸分析預測法,通過對自變量和因變量之間關系問題的探討,對因變量趨勢加以預測,其模型為:
Y=3577.79+93.3028lgX1+824.921lgX3+326.777lgX4+800.454lgX5-1149.051lgX6-224.902lgX8-45.0499lgX9-152.6081lgX10-287.191lgX11。
其中X1-X11分別表示臨時人口、常住人口、機動車輛、自行車、道路長度、道路面積、燈控路口、交通標志、交通標線、失控部位、交警人數。
其次,英國倫敦大學SemeedR.J教授對歐洲國家十余載的交通事故資料進行研究,提出非線性回歸分析預測法。對此,他建立冪函數曲線事故模型,
即:D=0.0003。其中D為交通事故死亡人數;N是機動車保有量;P為人口數量。
回歸分析預測法能夠對交通事故影響因素間的因果關系加以反應,以達到預測結果的目的,但對變化趨勢的反應可能較為遲鈍。該預測方法適用于樣本量較大、數據波動小和極具規律性的預測實踐中。
2.2 時間序列預測法
時間序列預測法主要有兩種類型,分別為移動平均預測法和指數平滑預測法。首先,移動平均預測法是比較簡單的平滑預測技術,通過計算項數時序平均值,對長期發展趨勢變化做出科學合理的預測。內蒙古科技大學韋麗琴、徐勇勇利用時間序列ARIMA模型做出科學合理的預測分析,對交通事故加以預測。其次,指數平滑預測法的通式為:
Ft+1=αxt+(1-α)Ft
時間序列預測法屬于定量預測方法,擬合效果良好,但在短期預測中,受諸多因素干擾影響較大,使預測結果具有不確定性。該方法適用于國內縣區等區域范圍較小的預測實踐中。
2.3 灰色馬爾科夫鏈預測法
道路交通系統屬于動態時變系統,但影響交通安全的因素多且復雜。在灰色馬爾科夫鏈預測法的指導下,相關人員能夠通過灰色預測模型,做出短期預測,以縮小預測區間,提高預測效率。云南交通職業技術學院王剛對灰色馬爾科夫鏈預測法而建立模型,對交通事故進行預測,根據實踐可知,基于該模型的預測精確度十分高,取得良好的預測成效。
灰色預測以短期預測為主,馬爾科夫鏈預測以長期預測為主,通過二者結合,可提高預測精度,但如若數據變化大,則灰色模型的吻合度和精度下降。借助該預測方法,能夠對狀態下的轉移規律加以預測,并揭示交通事故時序變化總趨勢。
2.4 貝葉斯預測法
貝葉斯預測法主要相對于交通事故中的車速問題而言。在交通事故中,車速是重要影響因素,如若車輛速度過快,則駕駛員反應的時間較少,其應急策略不足,造成重大交通安全隱患。貝葉斯預測法能夠對未來交通事故發生的可能性進行預測。該預測方法應用中,必須建立在交通事故和車速有關聯的基礎之上,有助于交通部門人員更好開展數據統計和交通流進行觀測。
2.5 灰關聯分析及神經網絡預測法
就灰關聯分析及神經網絡預測法而言,哈爾濱工業大學交通研究所和中國城市規劃設計研究院的裴玉龍與張宇提出該方法,旨在通過交通事故影響因素分析,對事故進行進一步解析,并建立合理的模型理論和確定預測指標,對未來交通事故發展趨勢加以預測。該預測方法的適應性較強,在我國交通事故預測工作實踐中有著較為有效的運用,可解決傳統預測方法難以解決的問題,建立在BP網絡基礎之上,并利用計算機開展輔計算活動。
2.6 多層遞階預測方法
多層遞階預測方法能夠規避傳統統計預測方法的缺陷,以現代控制理論“系統辨識”為重要基礎,對對象的未來狀態做科學的預測。動態系統數學模型為:y(k)=。在交通事故預測中,多層遞階預測方法是大數據時代背景下的重要處理方式,有利于增強預測效果。
3 結論
交通部門對交通事故進行合理的預測,有利于提高道路交通系統的安全系數。所以,相關人員合理選擇交通事故預測方法具有必要性,為規避交通事故而做出科學合理的決策。目前,使用較多的交通事故預測方法主要有:回歸分析預測法、時間序列預測法、灰色馬爾科夫鏈預測法、貝葉斯預測法、灰關聯分析及神經網絡預測法等,因其各具優缺點和適用條件,因而要求相關人員必須對系列問題進行深入探究,確保公路交通事故預測的有效性。
參考文獻
[1]李景文,高桂清.交通事故預測分析[J].中國安全科學學報,2015,6(01):20-23.
[2]劉志強.道路交通事故預測方法比較研究[J].交通與計算機,2013,19(05):7-10.
[3]韋麗琴,徐勇勇.ARIMA模型在交通事故預測中的應用[J].包頭醫學院學報,2014,4(20):287-288.