時間:2023-06-22 09:22:43
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了七篇神經網絡文本分類范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
關鍵詞:個性化;信息檢索;文本分類
中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2008)29-0265-02
Method of Text Categorization in Personalized Retrieval
PENG Ye-ping, XIAO Da-guang
(Information science and Engineering college,Central South University,Changsha 416000,China)
Abstract: Personalized retrieval is becoming a hot topic for research, this paper mainly discusses about the text categorization algorithm, its principles and scope of application.
Key words: personalized; retrieval; text categorization
1 引言
搜索引擎在信息檢索中起了重要作用,但是由于引擎的通用性,使其不能滿足不同目的,背景,時期的用戶查詢需求,因此需要針對擁護特征向用戶提供個性化服務。文本分類方法通過構造某種分類模型,并以此判斷樣本所屬的類別。文本分類對合理組織,存儲文本信息,提高信息檢索速度,提高個性化信息檢索效率的基礎。
2 分類方法
2.1 樸素貝葉斯方法
樸素貝葉斯方法是一種在已知先驗概率與條件的情況下的模式識別方法,假設詞條之間是相互獨立的。設d為一任意文本,它屬于文檔類C{c1,c2,…,ck}中的一類Cj,引用詞條和分類的聯合概率來計算給定文檔的分類概率的公式如下:
計算所有文本類在給定d情況下的概率,概率值最大的那個類就是文本d所屬的類,既:
2.2 貝葉斯網絡分類法
貝葉斯網絡分類法考慮了特征之間的依賴關系,該方法更能真實反映文本的情況,但是計算復雜度比樸素貝葉斯高的多。
2.3 決策樹方法
決策樹極強的學習反義表達能力使得其適合于文本分類,它是通過一組無序,無規則的實例推理出樹型的分類規則,采用自頂向下的遞歸方式,在決策樹的內部結點進行屬性值的比較并根據不同的屬性值進行判斷從該結點向下的分支,在決策樹的葉結點得到結論,決策樹的建立算法有很多,文獻[5]其中包括基于信息增益的啟發式計算ID3;基于信息增益率的解決聯系屬性的算法C4.5;基于Gini系數的算法CART和可并行性算法SPRINT算法。決策樹方法特點是使用者只要將訓練樣例能夠使用屬性-結合式的方法表達出來,就能夠用該方法來學習,但是這種算法生成的仍是多叉樹。
2.4 K-鄰近方法
K-鄰近方法,根據測試文本在訓練文本中與之最相近的K篇文本的類別來判定它的類別,其中,K是一個重要的參數,文獻[4]K值過大,則與待分類文本實際上并不相似的一些文本也被包含,造成噪音增加;K值太小,則不能充分體現待分類文本的特點.一般對K會選定一個初值,相似值的判定可取歐拉距離或余旋相似度等,若分類系統中相似值的計算采用余旋相似度,則公式如下:
Sim(x,di)為相似度公式,X為新文本的向量,y(di,cj)為類別屬性函數,若d∈cj,則y(di,cj)=1;否則y(di,cj)=0;將新文本分到權重最大的類別中去。
2.5 支持向量機
Vapnik提出在結構風險最小化準則理論上的支持向量機方法,能有效解決小樣本集的機器學習問題,向量機主要是針對兩類分類問題,在高維空間尋找一個滿足分類要求的最優超平作為兩類的分割,既保證分類精確度,又要使超平面兩側的空白區域最大化,以保證最小的分類錯誤率,文獻[1]對于大于兩類的多類文本分類,就對每個類構造一個超平面,將這一類與其余的類分開,有多個類就構造多個超平面,測試時就看哪個超平面最適合測試樣本。支持向量機方法避免了局部性問題,樣本中的支持向量數,能夠有效地用于解決高緯問題。
2.6 神經網絡方法
神經網絡是模仿人腦神經網絡的基本組織特性構成的新型信息處理系統,其性質取決于網絡拓撲結構,網絡的權值和工作規則.通常由等于樣本特征數的輸入層,輸出層,等于樣本類數的神經元組成。其中,每一個連接都有一定的權值,通過訓練類來訓練的過程就是調整這些權值的過程,從而使神經網絡與可以正確地預測類別。
3 幾種方法的比較
3.1 樸素貝葉斯與網絡貝葉斯
樸素貝葉斯方法使用概率去表示所有形式的不確定性,學習或其他形式的推理都用概率規則來實現,但是大部分情況是文本特征之間的依賴關系是相互存在的,所以特征獨立性會影響樸素貝葉斯分類的結果;網絡貝葉斯能夠考慮特征之間的依賴關系,但是計算復雜度比樸素貝葉斯高得多;
3.2 支持向量機方法
支持向量機方法的優點:首先,該方法是針對有限樣本情況的分類方法,其算法最終將轉化為一個二次型尋優萬惡提,理論上得到的將是全局最優點,避免了局部極值問題;其次,該方法計算的復雜度不再取決于空間維度,而是取決于樣本數,這可能有效地用于解決高維度問題;再次,該方法對稀疏數據不敏感,能更好地捕捉數據的內在特征。缺點是:該方法參數的調整比較困難,分類比較費時。
3.3 神經網絡方法
神經網絡方法的優點:首先,具有自適應功能,它能根據所提供的數據,通過學習找出輸出結果之間的內在聯系,從而球的問題的解答;其次,神經網絡善于聯想、概括、類比和推廣,任何局部的操作都不會影響整體效果;再次,具有高速尋找優化解的能力。缺點:該方法根據輸入輸出的關系訓練網絡,缺少解釋能力,受訓練樣本影響大,訓練過程較慢,不適應大量數據的學習。
3.4 決策樹方法
決策樹方法的優點是它在學習過程中不需要使用者了解很多背景知識,只要訓練樣例能夠使用屬性-結論式的方法表示出來,就能使用該方法。缺點是測試屬性的選擇對該方法影響較大。
3.5 K-鄰近方法
K-鄰近方法的優點是該方法訓練過程較快,且可隨時添加或更新訓練文本來調整;缺點是因為需要很大的空間來保存文本,所以它分類的開銷很大,K值確定較慢,分類效果較差.
4 文本分類方法效果評價
1) 精確度(查全率):是指通過分類系統正確分類的文本數與實際分類的文本數的比值,其公式如下:
精確度:=
2) 召回率(查全率):是指通過分類系統正確分類的文本數與人工分類中應有的文本數的比值,公式如下:
召回率:=
3) F1測試值:對查權率和查準綠的綜合測試
F1測試值:=
參考文獻:
[1] 史忠植.知識發現[M].北京:清華大學出版,2002.
[2] 朱明.數據挖掘[M].合肥:中國科技大學出版社,2002.
[3] 王繼成,潘金貴,張福炎.web文本挖掘技術研究[J].計算機研究與發展,2000,37(5):513-520.
關鍵詞:數據挖掘;貝葉斯;分類
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2008)23-1024-02
The Application of Bayesian Classification
ZHONG Dai-jun
(Chongqing University of Arts and Sciences, Chongqing 402160, China)
Abstract: This paper elaborates the necessity and importance of Bayesian classification when designing system using the technique of artiffisal intelligence,introduced the basic technique ofBayesian classification, given the advantage and disadvantage and future of it. Explained with some sample of theapplicationg of Bayesian classification.
Key words: data mining; bayes; classification
1 引言
數據的豐富帶來了對強有力的數據分析工具的需求,大量的數據被描述為“數據豐富,但信息貧乏”。快速增長的海量數據收集、存放在大型和大量的數據庫中,沒有強有力的工具,理解它們已經遠遠超出了人的能力。
分類作為數據挖掘的一種模式,可以用于提取描述重要數據的模型,通常是預測分類標號(或離散值)。例如,可以建立一個分類模型,對銀行貸款的安全或風險進行分類。許多分類的方法已被機器學習、專家系統、統計學和神經生物學方面的研究者提出。
貝葉斯分類是數據分類中的一個基本技術。在大型數據庫,貝葉斯分類已表現出高準確率和高速度。貝葉斯分類中又有樸素貝葉斯分類和貝葉斯信念網絡。
2 什么是分類
數據分類(data classification)是一個兩步過程。第一步,建立一個模型,描述預定的數據類集。通過分析有屬性描述的數據庫元組來構造模型。假定每個元組屬于一個預定義的類,由一個稱作類標號屬性(class label attribute)的屬性確定。對于分類,數據元組也稱作樣本、實例或對象。為建立模型而被分析的數據元組形成訓練數據集。訓練數據集中的單個元組稱作訓練樣本,并隨機地由樣本群選取。由于提供了每個訓練樣本的類標號,該步也稱作有指導的學習(即模型的學習在被告知每個訓練樣本屬于哪個類的“指導”下進行)。它不同于無指導的學習(或聚類),那里每個訓練樣本的類標號是未知的,要學習的類集合或數量也可能事先不知道。
通常,學習模型用分類規則、判定樹或數學公式的形式提供。例如,給定一個顧客信用信息的數據庫,可以學習分類規則,根據他們的信譽度優良或相當好來識別顧客。這些規則可以用來為以后的數據樣本分類,也能對數據庫的內容提供更好的理解。
第二步,使用模型進行分類。首先評估模型(分類法)的預測準確率。模型在給定測試集上準確率是正確被模型分類的測試樣本的百分比。對于每個測試樣本,將已知的類標號與該樣本的學習模型類預測比較。如果模型的準確率根據訓練集評估,評估可能是樂觀的,因為學習模型傾向于過分適合數據。
如果認為模型的準確率可以接受,就可以用它對類標號未知的數據元組或對象進行分類。(這種數據在機器學習文獻中也稱為“未知的”或“先前未見到的”數據)。
分類具有廣泛的應用,包括信譽證實、醫療診斷、性能預測和選擇購物。
3 Bayesian 分類技術介紹
3.1 Bayesian分類與其他分類技術的比較
基于統計的分類算法主要包括:相似度模型(Rocchio,K一近鄰)、概率模型(貝葉斯)、線性模型(LLSF,SVM)、非線性模型(決策樹、神經網絡)和組合模型.對于這些分類算法,國內外很多研究者進行了客觀評測。
分類方法可以根據下列標準進行比較和評估:
預測的準確率:這涉及模型正確地預測新的或先前未見過的數據的類標號的能力。
速度:這涉及產生和使用模型的計算花費。
強壯性:這涉及給定噪聲數據或具有空缺值的數據,模型真切預測的能力。
可伸縮性:這涉及給定大量數據,有效地構造模型的能力。
可解釋性:上涉及學習模型提供的理解和洞察的層次。
數據庫研究界對數據挖掘的分類一直強調可伸縮性。
“貝葉斯分類的效率如何?”理論上講,與其他所有分類算法相比,貝葉斯分類具有最小的出錯率。然而,實踐中并非總是如此。這是由于對其應用的假定(如類條件獨立性)的不準確性,以及缺乏可用的概率數據造成的。然而,種種實驗研究表明,與判定樹和神經網絡分類算法相比,在某些領域,該分類算法可以與之媲美。
貝葉斯分類還可用用來為不直接使用貝葉斯定理的其他分類算法提供理論判定。例如,在某種假定下,可用證明正如樸素貝葉斯分類一樣,許多神經網絡和曲線擬合算法輸出最大的后驗假定。
3.2 貝葉斯分類
3.2.1 貝葉斯定理
設X為一個類別未知的數據樣本,H為某個假設,若數據樣本X屬于一個特定的類別C,那么分類問題就是決定P(H/X),即在獲得數據樣本X時,H假設成立的概率P(X)是建立在H基礎之上的x成立的概率。具體公式描述如下:
3.2.2樸素貝葉斯分類(簡單貝葉斯分類)
樸素貝葉斯分類方法[3]是機器學習中常用的方法之一。樸素貝葉斯分類法將訓練實例I分解成特征向量W和決策類別變量C。樸素貝葉斯分類法假定特征向量的各分向量間相對于決策變量是相對獨立的。對文本分類來說,假設各個單詞wi和wj之間兩兩獨立。
設訓練樣本集分為k類,記為C={C1,C2,…,Ck},則每個類Ci的先驗概率為P(Ci), I=1,2, …,k,其值為Ci類的樣本數除以訓練集總樣本數N。對于樣本d,其屬于Ci類的條件概率是P(d|Ci)。文本d有其包含的特征詞表示,即d= (w1, …,wi, …,wm),m是d的特征詞個數|d|,wj是第j個特征詞。根據貝葉斯定理,Ci類的后驗概率為P(Ci|d)
因為P(d)對于所以類均為常數,樸素貝葉斯分類器將未知樣本歸于類的依據,如下
文檔d由其包含的特征詞表示,即d=(w1, …,wi, …,wm) ,m是d的特征詞個數|d|,wj是第j個特征詞,由特征獨立性假設,則得
式中P(wj|Ci)表示分類器預測單詞wj在類Ci的文檔中發生的概率。
3.3 改進的貝葉斯分類在文本分類中的應用
關鍵的一個技術是特征提取。文本分類征提取的步驟包括:詞語切分,詞頻統計,加權計算和特征選擇(二者通常結合在一起進行)。
在文本分類中有很多權重計算和特征選擇的公式,如信息增益、期望交叉嫡、文本證據權、zx統計量等,其中最著名的是TFIDF公式.那么,權重計算和特征選擇的公式究竟哪個為優呢?其實在這些公式中,關鍵在于特征選擇時的傾向:高頻詞或稀有詞,也就是公式中的P(w)因子起很大作用。因此,在特征選擇時,理想的做法應該是充分考慮P(w)因子的作用,最好能兼顧到高權高頻詞和低頻高權詞。
有學者對TF*F和TF*IWF*IWFF公式進行了分析并作了一些改進,認為關鍵詞在某類的權重受3個因素的影響:該詞在當前類中的出現頻率;該詞在總語料中的出現頻率;該詞在不同類別之間出現頻率的差異。最終得到關鍵詞在類中的權重計算公式:
類別區別度用來表示某一個詞語對于文本分類的貢獻程度,即詞語的領域區別程度。直觀地看,如果一個詞語在每一類中都比較均勻地出現,那么它對于分類的貢獻幾乎為零,類別區別度很低;如果某一詞語只在某一類中出現,那么它對于分類的貢獻很高,有的幾乎可以一詞定類,類別區別度也就很高了。比如,虛詞“的、我、在”的類別區別度很低,而“魔獸爭霸、重倉股、手機操作系統”這樣的詞語其類別區別度就很高。
3.4 貝葉斯信念網絡
樸素貝葉斯分類假定類條件獨立,即給定樣本的類標號,屬性的值相互條件獨立。這一假定簡化了計算。當假定成立時,與其他所有分類算法相比,樸素貝葉斯分類是最精確的。然而,在實踐中,變量之間的依賴可能存在。貝葉斯信念網絡(Bayesian belief network)說明聯合條件概率分布。它允許在變量的子集間定義類條件獨立性。它提供一種因果關系的圖形,可用在其上進行學習。這種網絡也被稱為信念網絡、貝葉斯網絡和概率網絡。
信念網絡有兩部分定義。第一部分是有向無環圖,其每個節點代表一個隨機變量,而每條弧代表一個概率依賴。如果一條弧有節點Y到Z,則Y是Z的雙親或直接前驅,而Z是Y的后繼。給定雙親,每個變量條件獨立于圖中的非后繼。變量可以是離散的或連續值的。它們可以對應于數據中給定的實際屬性,或對應于一個相信形成聯系的“隱藏變量”。
“貝葉斯信念網絡如何學習?”在學習或訓練信念網絡時,許多情況都是可能的。網絡結構可能預先給定,或由數據導出。網絡變量可能是可見的,或隱藏在所有或某些訓練樣本中。隱藏素凈的情況也稱為空缺值或不完全數據。
如果網絡結構已知并且變量是可見的,訓練網絡是直截了當的。該過程由計算CPT(條件概率表)組成,與樸素貝葉斯分類涉及的計算概率類似。
當網絡結構給定,而某些變量是隱藏的時,則可使用梯度下降方法訓練信念網絡。目標是學習CPT項的值。設S是s個訓練樣本X1,X2,…,Xs的集合,Wijk是具有雙親Ui=uik的變量Y=yij的CPT項。Wijk可以看作權,類似于神經網絡中隱藏單元的權。權的集合總稱為w。這些權被初始化為隨機概率值。梯度下降策略采用貪心爬山法。在每次迭代中,修改這些權,并最終收斂到一個局部最優解。
4 結束語
簡要闡述了分類在數據挖掘中的位置,著重介紹了貝葉斯分類的基本技術和它的相關應用。
參考文獻
[1] 史忠植.知識發現[M].北京:清華大學出版社,2002.
關鍵詞: 情感分析; 情感傾向性; 詞典擴充; 電力客服工單; 主動服務
中圖分類號: TN915.853?34; V249 文獻標識碼: A 文章編號: 1004?373X(2017)11?0163?04
Dictionary expansion based sentiment tendency analysis of power customer service order
GU Bin, PENG Tao, CHE Wei
(State Grid Jiangsu Electric Power Company, Nanjing 210000, China)
Abstract: In order to improve the customer satisfaction and active service consciousness of the electric power enterprises effectively, the textual characteristic of the power customer service order is combined to construct the sentiment analysis model of the power customer service order. The keywords of the service order are extracted according to TF?IDF thought. The word2vec training is used to get the word vector of each word. The cosine similarity is calculated to expand the high similarity field vocabulary to the sentiment dictionary. The service order sentiment analysis and text classification are performed. The validity of the method is verified with experimental analysis. The results show that, in comparison with the original sentiment dictionary, the method of dictionary expansion and service order sentiment tendency analysis is superior, has higher accuracy, and can provide a certain reference significance for the customer relation management of power enterprise.
Keywords: sentiment analysis; sentiment tendency; dictionary expansion; power customer service order; active service
0 引 言
隨著電力體制改革的逐步深化,配電市場競爭不斷加劇,迫切需要供電企業改變傳統的思維方式和工作模式,進一步樹立市場化服務意識,從客戶需求出發,挖掘客戶的潛在需求和內在價值,從而提升客戶滿意度和運營效益。作為與客戶交流、溝通的重要窗口,電力企業95598客服系統記錄了海量的客戶信息,若能徹底挖掘客服工單中的客戶特征、情感信息并了解客戶的關注焦點,對電力企業和客戶都將具有十分重要的意義[1]。
電力客服工單情感傾向性分析可以有效地發掘客戶情感信息和需求,可根據客戶情感傾向性識別潛在的投訴客戶,可根據反饋信息判別某項業務的實施效果等。針對文本情感傾向性分析,現有的理論研究比較側重于文本特征提取以及采用機器學習方法對文本進行分類,但是基于具體業務特征進行情感詞典擴充的研究還比較少,導致情感傾向性計算往往會存在一定的差異,因此,根據電力行業的特c,進行客戶服務工單情感詞典擴充及情感傾向性的研究非常有必要。
情感分析是指利用文本挖掘、機器學習技術分析挖掘隱藏在文本中的情感信息,并將其分類為積極情感態度和消極情感態度[2]。目前,國內外關于文本情感傾向性分析已經進行了較多的研究工作[3?7],文獻[3]基于情感詞間的點互信息和上下文約束,提出一種兩階段的領域情感詞典構建算法,提升了情感詞情感傾向的識別能力。文獻[4]研究了基于矩陣投影(MP)和歸一化向量(NLV)的文本分類算法,實現對商品評價的情感分析,不僅可以有效識別商品評論情感性傾向,而且提升了識別效率。文獻[5]將詞級別向量和字級別向量作為原始特征,采用卷積神經網絡提取文本特征并進行情感傾向性分析,結果表明字級別向量可取得較高的準確率。文獻[6]提出一種詞圖模型的方法,利用PageRank算法得到情感詞的褒貶權值,并將其作為條件隨機場模型特征預測情感詞傾向,提升了具體語境下預測的準確性,但是針對文本數量較大的情況準確率較低。文獻[7]結合句子結構上下文語義關聯信息,提出一種基于深度神經網絡的跨文本粒度情感分類模型,提升了分類準確率,但該方法只適應于特定領域,泛化能力較低。
鑒于以上研究現狀,本文以電力客戶服務領域文本特征為突破口,構建了電力客服工單情感分析模型,基于工單關鍵詞提取對原始的情感詞典進行擴充,并對工單情感傾向性進行分析,最后,通過算例應用驗證了本文所提方法的有效性。
1 相關工作
1.1 情感分類
情感分類技術的主要目標是基于文本數據識別用戶所表達的情感信息,并將文本數據分為正類和負類。當前,針對情感分類的研究,主要從監督學習、基于規則方法、跨領域情感分析等方面展_研究,與此同時,針對文本特征的提取和特征情感判別是情感分類研究的兩個關鍵問題。
1.2 Word2vec介紹
word2vec是Google在2013年開源的一款將詞表征為實數值向量(word vector)的高效工具,采用的模型有CBOW(Continuous Bag?of?Words,即連續的詞袋模型)和Skip?Gram兩種,word2vec采用的是Distributed Representation的詞向量表示方式,經過對輸入集數據進行訓練,可以實現將文本詞匯轉換為維空間向量,然后基于空間向量相似度來表達文本語義相似度,模型輸出結果可用于自然語言處理領域相關工作,比如文本聚類、詞典擴充、詞性分析等。
word2vec生成詞向量的基本思想來源于NNLM(Neural Network Language Model)模型,其采用一個三層神經網絡構建語言模型,假設某個詞的出現只與前個詞相關,其原理示意圖如圖1所示。
圖1中,最下方的為前個輸入詞,并根據其預測下一個詞每個輸入詞被映射為一個向量,為詞語的詞向量。網絡的第一層(輸入層)為輸入詞語組成的維向量網絡第二層(隱藏層)計算為偏置因子,使用激活函數tanh;網絡第三層(輸出層)包含個節點,每個節點表示下一詞的未歸一化log概率,并使用softmax激活函數將輸出值歸一化,最后使用隨機梯度下降法對模型進行優化。
圖1 NNLM原理模型圖
模型的目標函數為:
需要滿足的約束條件為:
2 電力客服工單情感分析模型
本文以某電力公司客服工單數據為研究對象,在深入理解電力業務及工單文本語義特點的基礎上,建立了一種電力客服工單情感分析模型。首先,在進行文本預處理的基礎上,對文本進行分詞處理并且完成關鍵詞提取;然后,采用word2vec訓練工單數據,并基于關鍵詞進行情感詞典擴充,構建電力客服領域專用情感詞典;最后,進行工單情感傾向性分析。
2.1 工單文本預處理
由于工單文本數據中存在大量價值含量較低甚至沒有價值意義的數據,在進行分詞、情感分析中會對結果產生較大的影響,那么在文本挖掘之前就必須先進行文本預處理,去除大量沒有挖掘意義的工單數據。工單文本預處理工作主要包括:刪除未標注業務類型數據、分句處理、文本去重、短句刪除等。
分句處理:將工單數據處理成以句子為最小單位,以句尾標點符號為標志分割,包括“,”,“。”,“;”,“!”等符號。
文本去重:就是去除工單數據中重復的部分,常用的方法有觀察比較刪除法、編輯距離去重法、Simhash算法去重等。
短句刪除:刪除過短的文本,如“還可以”,“非常好”等,設置文本字符數下限為10個國際字符。
2.2 電力客戶服務領域情感詞典構建
2.2.1 分詞
本文采用python的jieba分詞工具對數據集進行分詞,并完成詞性標注和去除停用詞,由于情感分析通常由名詞、形容詞、副詞和連詞等反映出來,因此刪除詞性為動詞的詞匯。jieba中文分詞工具包包含三種分詞模式:精確模式、全模式和搜索引擎模式,綜合分詞效果及后文的研究,本文選擇精確模式進行分詞,三種模式的分詞效果如表1所示。
另外,在實際的分詞過程中,出現了個別分詞結果與實際的語義不符,原因是字典中缺少相關的專有名詞,或者是這些詞語的詞頻較低,比如“客戶/咨詢/抄/表示/數等/信息”,“客戶/查戶/號”,“變壓器/重/過載”,“查/分/時/電價”等,因此,需要對原有詞典進行更新。python中采用jieba.load_userdict(dict.txt)語句添加自定義詞典,其中dict.txt是保存字典內容的文件,其格式為每一行分三部分:一部分為詞語;另一部分為詞頻;最后為詞性(可省略),用空格隔開。
2.2.2 關鍵詞提取
構建電力客戶服務領域專屬情感詞典,需要盡可能保證領域詞典的多樣性,關鍵詞的提取要求一方面能夠盡量反應出這個特征項所屬的類別,另一方面能夠把自身屬于的類別與其他類別有效地區分開來,依據此原理,本文采用TF?IDF思想進行電力客戶服務領域關鍵詞的提取,關鍵詞選取的權重決定了情感詞典的多樣性,為下文情感詞典的擴充做好基礎,算法原理如下。
將工單文檔和特征項構建成二維矩陣,各條工單的特征向量可表示為:
式中:表示第個工單中第個特征中的詞頻。則與為:
式中:表示語料庫中的文件總數;表示包含詞語的文件總數,防止分母為零的情況,通常對分母做+1的處理。因此,的計算公式為:
實際應用中,依據維度的大小確定相應的權重大小,這樣就形成了代表語料特征的關鍵詞集。
2.2.3 基于word2vec進行情感詞典擴充
隨著經濟技術的發展及客戶文化的差異,不同的客戶通常使用不同的詞匯描述同一個對象特征,且電力行業中存在許多專用詞匯,同樣也表達了一定情感,但這些詞脫離于現有的情感詞典,因此,有必要對現有的情感詞典進行擴充,進而提升工單情感傾向性分析的準確性[8]。選取中國知網情感詞集和大連理工大學林鴻飛教授整理和標注的中文情感詞匯本體庫作為基礎的情感詞典,然后依據權重較大的關鍵詞對原有詞典進行擴充[9]。基于上文電力客戶服務工單中提取的關鍵詞,采用word2vec工具對工單數據集進行訓練,根據CBOW模型或Skip?Gram模型訓練出每個詞的詞向量,并通過計算余弦相似度得到文本語義上的相似度,并將相似度較高的詞語加入到情感詞典中。
依據上文分詞后得到的工單文本數據,采用Linux Version2.6環境對數據進行訓練,操作命令如下:
./word2vec ?train data95598.txt ?output vectors_95598data.bin ?cbow 0 ?size 200 ?winodw 5 ?negative 0 ?hs 1 ?sample le?3 threads 12 ?binary 1
其中,data95598.txt為輸入數據集;vectors_95598data.bin為模型輸出文件;采用Skip?Gram模型進行訓練,詞向量維度設置為200;訓練窗口大小設置為5;-sample表示采樣的閾值,訓練結果采用二進制方式存儲。這樣,得到的模型文件中就包含了每個詞的詞向量。
采用余弦相似度計算關鍵詞的相似詞,即基于生成的詞向量計算兩個維向量的相似度,因為word2vec本身就是基于上下文語義生成的詞向量,因此,余弦值越大,表明兩個詞語的語義越相似。向量與的余弦計算公式如下:
通過distince命令計算輸入詞與其他詞的余弦相似度,經過排序返回相似詞列表,再經過人工篩選,將這些詞加入到原有情感詞典中,實現對原有情感詞典的擴充。
2.3 工單情感傾向性分析
工單情感傾向性分析是基于構建的情感詞典,計算每個客服工單的情感分值,從而判斷工單的情感傾向性。通過上文處理,每一個客服工單都可以被分割成一個個子句片段,表示為每個子句片段由一系列分詞后的詞語構成,提取每個句子的情感詞、否定詞等,表示為依據情感詞典中給定詞的極性值計算每個子句的情感值,分別算每個句子的正向和負向情感分值,計算公式如下:
式中:SenSum表示某個客服工單的情感分值;表示第個子句中第個正向情感詞的極性值;表示第個子句中第個負向情感詞的極性值。
在否定子句中,當為偶數時,否定子句情感為正;當為奇數時,否定子句情感極性為負。對所有的子句情感分值求和并求均值,就得到了整個客服工單的情感值,進而判斷客服工單的情感傾向性,若SenSum為正,表示工單情感為正向;否則,工單情感為負向。
3 實驗分析
3.1 實驗數據準備
本文的實驗環境基于Linux系統,采用python語言進行算法的實現,抽取某電力公司95598客服工單數據作為研究對象,運用jieba包進行中文分詞處理,并采用word2vec訓練數據生成詞向量及擴充情感詞典。由于工單數據是按照業務類型生成的,因此選取業務類型為表揚的工單作為正類,選取業務類型為投訴的作為負類,其中,正類和負類數據比例為21,共得到20 000條數據作為實驗數據集,隨后進行情感傾向性分析,隨機選擇70%的數據作為訓練集,30%的數據作為測試集。
3.2 評價指標
當前針對文本分類效果評估有許多方法,本文選擇準確率(precision)、召回率(recall)和值進行文本情感分類效果的評估,準確率是對分類精確性的度量,召回率是對分類完全性的度量,值越大說明分類效果越好,準確率和召回率是一組互斥指標,值是將二者結合的一個度量指標,值越大,分類效果越好,并將通過本文情感分析模型得到的結果與業務員標注的類型做對比分析。它們的計算公式如下:
3.3 實驗結果及分析
本文基于抽取到的客服工單數據,結合設計的電力客服工單情感分析模型,實現對電力客戶服務領域情感詞典的擴充,并基于構建的電力客服領域專屬詞典進行工單情感傾向性分析,70%的數據用于訓練word2vec并進行情感詞典的擴充,30%的數據用于測試工單情感分類的準確性。測試集共包含工單數6 000條,其中正類工單3 895條,負類工單2 105條。將采用本文情感分析模型得到的結果與原始基礎情感詞典得到的結果進行對比分析,見表2。
由表2可知,采用本文構建的電力客服工單詞典針對正向和負向的情感詞都有較高的準確率、召回率和值,由此可知,本文設計的電力客服工單情感分析模型是合理的,且具有明顯的性能優勢。
4 結 語
本文設計了一種電力客服工單情感分析模型,構建了電力客服領域情感專用詞典并進行工單情感傾向性分析。采用word2vec工具對采集到的數據進行訓練,并用測試集數據對本文提出的模型進行驗證分析,結果表明,本文所提方法具有一定的合理性和可行性,可為電力企業客戶關系管理提供一定的參考意義,促進企業客戶滿意度及運營效益的提升。此外,本文主要研究了基于構建的電力客服專用情感詞典進行客戶情感傾向性分析,但是對于無監督性學習方法情感傾向性分析以及情感強度的分析還有待進一步研究。
參考文獻
[1] 李勝宇,高俊波,許莉莉.面向酒店評論的情感分析模型[J].計算機系統應用,2017,26(1):227?231.
[2] SINGH VK, PIRYANI R, UDDIN A, et al. Sentiment analysis of movie reviews: a new feature?based heuristic for aspect?level sentiment classification [C]// Proceedings of 2013 International Multi?Conference on Automation, Computing, Communication, Control and Compressed Sensing (iMac4s). Kottayam: IEEE, 2013: 712?717.
[3] 郗亞輝.產品評論中領域情感詞典的構建[J].中文信息學報,2016,30(5):136?144.
[4] 鐘將,楊思源,孫啟干.基于文本分類的商品評價情感分析[J].計算機應用,2014,34(8):2317?2321.
[5] 劉龍飛,楊亮,張紹武,等.基于卷積神經網絡的微博情感傾向性分析[J].中文信息學報,2015,29(6):159?165.
[6] 黃挺,姬東鴻.基于圖模型和多分類器的微博情感傾向性分析[J].計算機工程,2015,41(4):171?175.
[7] 劉金碩,張智.一種基于聯合深度神經網絡的食品安全信息情感分類模型[J].計算機科學,2016,43(12):277?280.
2.基于檢測樹的抗原合法性快速檢測方法孫秋麗,韓芳溪,王曉琳,SUNQiu-li,HANFang-xi,WANGXiao-lin
3.運用改進的SPEA2算法優化網格工作流調度方法李金忠,夏潔武,曾勁濤,王翔,LIJin-zhong,XIAJie-wu,ZENGJin-tao,WANGXiang
4.一種基于AR模型的非線性盲源提取方法及其應用蔡英,王剛,CAIYing,WANGGang
5.基于B樣條FFD模型配準的虹膜圖像融合方法吳國瑤,馬立勇,WUGuo-yao,MALi-yong
6.關于T范數的廣義模糊子坡(理想)芮眀力,廖祖華,胡淼菡,陸金花,RUIMing-li,LIAOZu-hua,HUMiao-han,LUJin-hua
7.融合PSO算法思想的進化算法劉建華,黃添強,嚴曉明,LIUJian-hua,HUANGTian-qiang,YANXiao-ming
8.基于偏最小二乘降維的分類模型比較曾雪強,李國正,ZENGXue-qiang,LIGuo-zheng
9.OPHCLUS:基于序關系保持的層次聚類算法雷小鋒,莊偉,程宇,丁世飛,謝昆青,LEIXiao-feng,ZHUANGWei,CHENGYu,DINGShi-fei,XIEKun-qing
10.采樣特異性因子及異常檢測孫靜宇,余雪麗,陳俊杰,李鮮花,SUNJing-yu,YUXue-li,CHENJun-jie,LIXian-hua
11.一種基于SVM的快速特征選擇方法戴平,李寧,DAIPing,LINing
12.一種ReliefF特征估計方法在無監督流形學習中的應用譚臺哲,梁應毅,劉富春,TANTai-zhe,LIANGYing-yi,LIUFu-chun
13.基于agent的模式表示模型AIM程顯毅,朱倩,管致緊,CHENGXian-yi,ZHUQian,GUANZhi-jin
14.歌詞與內容相結合的流行音樂結構分析梁塽,許潔萍,李欣,LIANGShuang,XUJie-ping,LIXin
15.基于免疫網絡的無監督式分類算法梁春林,彭凌西,LIANGChun-lin,PENGLing-xi
16.舌體圖像分割技術的實驗分析與改進李國正,史淼晶,李福鳳,王憶勤,LIGuo-zheng,SHIMiao-jing,LIFu-feng,WANGYi-qin
17.基于退火遺傳算法的NURBS曲線逼近劉彬,張仁津,LIUBin,ZHANGRen-jin
18.基于Harris角點的木材CT圖像配準張訓華,業寧,王厚立,ZHANGXun-hua,YENing,WANGHou-li
19.基于詞語量化相關關系的句際相關度計算鐘茂生,劉慧,鄒箭,ZHONGMao-sheng,LIUHui,ZOUJian
20.iCome:基于多義性的圖像檢索系統陳虎,黎銘,姜遠,周志華,CHENHu,LIMing,JIANGYuan,ZHOUZhi-hua
21.基于字的詞位標注漢語分詞于江德,睢丹,樊孝忠,YUJiang-de,SUIDan,FANXiao-zhong
22.不均衡問題中的特征選擇新算法:Im-IG尤鳴宇,陳燕,李國正,YOUMing-yu,CHENYan,LIGuo-zheng
23.基于流形學習的圖像檢索算法研究賀廣南,楊育彬,HEGuang-nan,YANGYu-bin
24.基于BIRCH的木材缺陷識別吳東洋,業寧,WUDong-yang,YENing
25.基于自擴展與最大熵的領域實體關系自動抽取雷春雅,郭劍毅,余正濤,毛存禮,張少敏,黃甫,LEIChun-ya,GUOJian-yi,YUZheng-tao,MAOCun-li,ZHANGShao-min,HUANGPu
26.層次聚類算法的有效性研究胡曉慶,馬儒寧,鐘寶江,HUXiao-qing,MARu-ning,ZHONGBao-jiang
27.基于相異性和不變特征的半監督圖像檢索宿洪祿,李凡長,SUHong-lu,LIFan-zhang
28.基于方向場信息的指紋圖像質量評測李鐵軍,劉倩,張宇,LITie-jun,LIUQian,ZHANGYu
29.一種基于概念格的用戶興趣預測方法茅琴嬌,馮博琴,李燕,潘善亮,MAOQin-jiao,FENGBo-qin,LIYan,PANShan-liang
30.基于魯棒性神經模糊網絡的脈沖噪聲濾波算法李岳陽,王士同,LIYue-yang,WANGShi-tong
31.CAN2:構件組合式神經網絡吳和生,王崇駿,謝俊元,WUHe-sheng,WANGChong-jun,XIEJun-yuan
1.基于半馬爾可夫對策的多機器人分層強化學習沈晶,劉海波,張汝波,吳艷霞,程曉北,SHENJing,LIUHai-bo,ZHANGRu-bo,WUYan-xia,CHENGXiao-bei
2.文本分類中一種新的特征選擇方法王法波,許信順,WANGFa-bo,XUXin-shun
3.模因機制下人類元音系統演化的計算模型云健,江荻,潘悟云,YUNJian,JIANGDi,PANWu-yun
4.基于ICA的語音信號表征和特征提取方法董治強,劉琚,鄒欣,杜軍,DONGZhi-qiang,LIUJu,ZOUXin,DUJun
5.預測狀態表示綜述王歷,高陽,王巍巍,WANGLi,GAOYang,WANGWei-wei
6.基于多天線的機器人定位和高效節能無線互聯網絡孫毅,肖繼忠,FlavioCabrera-Mora,SUNYi,XIAOJi-zhong,FlavioCabrera-Mora
7.基于均值距離的圖像分割方法王新沛,劉常春,白曈,WANGXin-pei,LIUChang-chun,BAITong
8.整車物流企業聯盟的協同收益分配模型劉鵬,吳耀華,許娜,LIUPeng,WUYao-hua,XUNa
9.蒙特卡羅方法模擬生物組織中光的分布高迪,魏守水,任曉楠,崔建強,徐從娟,GAODi,WEIShou-shui,RENXiao-nan,CUIJian-qiang,XUCong-juan
10.變時滯神經網絡的時滯相關全局漸近穩定新判據劉國彩,劉玉常,鞠培軍,LIUGuo-cai,LIUYu-chang,JUPei-jun
11.用H∞控制器抑制Buck變換器中的參數擾動賢燕華,馮久超,XIANYan-hua,FENGJiu-chao
12.云神經網絡的函數逼近能力于少偉,YUShao-wei
13.一種膠原支架材料的結構與性能表征胡順鵬,趙洪石,王冠聰,曹成波,劉宏,李文波,楊曉宇,HUShun-peng,ZHAOHong-shi,WANGGuan-cong,CAOCheng-bo,LIUHong,LIWen-bo,YANGXiao-yu
14.TiO2/ZnO納米光催化劑的制備及性能研究徐青,呂偉,XUQing,L(U)Wei
15.溶劑熱法合成CeO2納米微晶于麗麗,劉寶,錢立武,錢雪峰,YULi-li,LIUBao,QIANLi-wu,QIANXue-feng
16.碳纖維用流化爐計算機控制與性能測試高學平,朱波,于寬,GAOXue-ping,ZHUBo,YUKuan
17.地鐵隧道襯砌管片承載力試驗及計算方法周海鷹,李立新,陳廷國,ZHOUHai-ying,LILi-xin,CHENTing-guo
18.濟南城市防洪汛情預警等級判定方法王育奎,徐幫樹,李術才,WANGYu-kui,XUBang-shu,LIShu-cai
19.分散性土的鑒別及改性試驗李華鑾,高培法,穆乃敏,王琳,LIHua-luan,GAOPei-fa,MUNai-min,WANGLin
20.大跨度鋼管拱吊裝中溫度荷載效應分析及應用孫國富,李術才,張波,SUNGuo-fu,LIShu-cai,ZHANGBo
21.地震作用下大型橋梁群樁基礎動水壓力效應分析李富榮,何山,王志華,LIFu-rong,HEShan,WANGZhi-hua
22.兩性熒光增白劑的合成及其性能楊曉宇,曹成波,周晨,胡順鵬,YANGXiao-yu,CAOCheng-bo,ZHOUChen,HUShun-peng
23.[BPy]Br和[BMIm]Br微波輔助合成動力學徐鳴,XUMing
24.聚合物/表面活性劑二元體系油水乳化過程動態表征方法研究馬寶東,高寶玉,盧磊,張永強,MABao-dong,GAOBao-yu,LULei,ZHANGYong-qiang
25.天然氣發動機三效催化劑張強,李娜,李國祥,ZHANGQiang,LINa,LIGuo-xiang
26.單軸并聯式混合動力客車動力總成匹配牛禮民,趙又群,楊攀,李佳,NIULi-min,ZHAOYou-qun,YANGPan,LIJia
27.二級增壓系統中高壓級壓氣機性能研究何義團,HEYi-tuan
28.高精度電阻數據自動采集與動態顯示系統設計王澤靜,秦敬玉,米春旭,WANGZe-jing,QINJing-yu,MIChun-xu
29.循環泵啟動瞬間排水系統壅水數值模型分析高坤華,張成義,胡亦工,徐士倩,鄭冠軍,王偉,GAOKun-hua,ZHANGCheng-yi,HUYi-gong,XUShi-qian,ZHENGGuan-jun,WANGWei
30.基于對偶樹復小波-Contourlet變換的自適應多傳感圖像融合算法趙文忠,ZHAOWen-zhong
31.激活能測試裝置設計及微晶硅薄膜激活能測試陳慶東,王俊平,張宇翔,盧景霄,CHENQing-dong,WANGJun-ping,ZHANGYu-xiang,LUJing-xiao
32.Mintegration:一種針對大規模數據的并發數據集成方案陳勝利,李俊奎,劉小東,CHENSheng-li,LIJun-kui,LIUXiao-dong
1.基于極大圓盤引導的形狀插值實現三維表面重建秦通,孫豐榮,王麗梅,王慶浩,李新彩,QINTong,SUNFeng-rong,WANGLi-mei,WANGQing-hao,LIXin-cai
2.結構大間隔單類分類器馮愛民,劉學軍,陳斌,FENGAi-min,LIUXue-jun,CHENBin
3.基于蟻群系統的聚類算法研究沙露,鮑培明,李尼格,SHALu,BAOPei-ming,LINi-ge
4.一種采用動態策略的模擬捕魚優化方法王勇,龐興,WANGYong,PANGXing
5.一種基于微粒群思想的蟻群參數自適應優化算法夏輝,王華,陳熙,XIAHui,WANGHua,CHENXi
6.基于雷達圖像的運動目標形態檢測及跟蹤技術劉文亮,朱維紅,陳滌,張泓泉,LIUWen-liang,ZHUWei-hong,CHENDi,ZHANGHong-quan
7.人機交互中基于可穿戴式計算的手勢和活動辨識盛衛華,祝純,SHENGWei-hua,ZHUChun
8.基于煉油過程生產特性的優化調度模型李明,李歧強,郭慶強,丁然,LIMing,LIQi-qiang,GUOQing-qiang,DINGRan
9.一種新型微流體主動混合器的仿真與分析徐昊,魏守水,張敬濤,XUHao,WEIShou-shui,ZHANGJing-tao
10.混合變時滯二重邊復雜網絡自適應同步反饋控制趙永清,江明輝,ZHAOYong-qing,JIANGMing-hui
11.超高強度鋼板熱沖壓及模內淬火工藝的發展現狀李輝平,趙國群,張雷,賀連芳,LIHui-ping,ZHAOGuo-qun,ZHANGLei,HELian-fang
12.萊鋼120噸轉爐冶煉超低硫鋼工藝優化王慶春,李木森,范樹璐,張繼軍,WANGQing-chun,LIMu-sen,FANShu-lu,ZHANGJi-jun
13.熱加工材料動態再結晶介觀組織模擬模型的研究進展王麗君,關小軍,禹寶軍,趙健,WANGLi-jun,GUANXiao-jun,YUBao-jun,ZHAOJian
14.模擬體液中類骨羥基磷灰石的合成張愛娟,ZHANGAi-juan
15.洋蔥狀富勒烯的硬脂酸修飾姚延立,馬國利,YAOYan-li,MAGuo-li
16.Eu3+摻雜生物多孔硅酸鈣發光材料性能趙其斌,周淑君,范同祥,丁劍,張獲,ZHAOQi-bin,CHOWSuk-kwun,FANTong-xiang,DINGJian,ZHANGDi
17.Al-Zn-Mg-(Sc)-(Zr)合金時效初期微結構演化的MonteCarlo模擬孫媛,王桂青,SUNYuan,WANGGui-qing
18.地下工程突水機理及其研究最新進展李利平,路為,李術才,張慶松,許振浩,石少帥,LILi-ping,LUWei,LIShu-cai,ZHANGQing-song,XUZhen-hao,SHIShao-shuai
19.基于趨勢檢查法的遺傳神經網絡模型及工程應用邱道宏,張樂文,崔偉,蘇茂鑫,孫懷鳳,QIUDao-hong,ZHANGLe-wen,CUIWei,SUMao-xin,SUNHuai-feng
20.新陳代謝GM(1,1)模型在建筑物沉降預測中的應用邊培松,王登杰,于少華,BIANPei-song,WANGDeng-jie,YUShao-hua
21.地鐵管片抗裂度及裂縫寬度試驗和計算方法周海鷹,李立新,陳廷國,ZHOUHai-ying,LILi-xin,CHENTing-guo
22.信息動態
23.FRP-螺栓聯合加固技術錨固參數的研究管延華,苗海濤,宋修廣,GUANYan-hua,MIAOHai-tao,SONGXiu-guang
24.多孔安山巖在瀝青路面中的應用研究郭德棟,許宏妹,李小剛,GUODe-dong,XUHong-mei,LIXiao-gang
25.基于自治域的RBAC訪問控制模型龍軍,曾小仨,張祖平,LONGJun,ZENGXiao-sa,ZHANGZu-ping
26.無線傳感器網絡節點定位算法夏少波,許娥,XIAShao-bo,XUE
27.微切削加工A17050-T7451過程切屑形貌及尺度效應研究周軍,李劍峰,孫杰,ZHOUJun,LIJian-feng,SUNJie
28.乙酸乙酯生成過程的間歇反應精餾的模擬和優化馮震恒,張忠誠,FENGZhen-heng,ZHANGZhong-cheng
1.知識保持的嵌入方法張道強,ZHANGDao-qiang
2.基于多級結構相似度的快速指紋匹配算法楊棟,楊公平,尹義龍,張利明,YANGDong,YANGGong-ping,YINYi-long,ZHANGLi-ming
3.基于混沌動力學模型的群體目標檢測與分類喬偉,王匯源,吳曉娟,劉鵬威,QIAOWei,WANGHui-yuan,WUXiao-juan,LIUPeng-wei
4.基于圖像分解的敦煌壁畫圖像修復方法黃偉,王書文,楊筱平,賈建芳,HUANGWei,WANGShu-wen,YANGXiao-ping,JIAJian-fang
5.基于模糊神經網絡的移動機器人自適應行為設計李貽斌,李彩虹,,LIYi-bin,LICai-hong,SONGYong
6.約束環境下的多移動機器人自適應伸展算法談金東,陳曦,TANJin-dong,CHENXi
7.配送中心分揀訂單合批策略的研究王艷艷,吳耀華,孫國華,于洪鵬,WANGYan-yan,WUYao-hua,SUNGuo-hua,YUHong-peng
8.基于四元數MUSIC的雙極化散射中心參量提取蔡倩,汪飛,張煥春,CAIQian,WANGFei,ZHANGHuan-chun
9.雙軸壓縮試驗中砂土剪切帶形成的離散元模擬分析蔣明鏡,李秀梅,JIANGMing-jing,LIXiu-mei
10.長期交通荷載作用下粉砂土累積變形本構模型構建及數值積分格式張宏博,苗海濤,宋修廣,ZHANGHong-bo,MIAOHai-tao,SONGXiu-guang
11.多元多方程地應力反演與工程應用研究岳曉蕾,李術才,陳啟輝,葛雁平,YUEXiao-lei,LIShu-cai,CHENQi-hui,GEYan-ping
12.蒸壓粉煤灰多孔磚砌體偏心受壓承載力試驗研究徐春一,劉明,王廣林,XUChun-yi,LIUMing,WANGGuang-lin
13.二層框架填充墻出平面反應分析的試驗研究程云,劉明,劉曉偉,CHENGYun,LIUMing,LIUXiao-wei
一、數據挖掘的層次
一直想整理下對數據挖掘不同層次的理解,這也是這兩年多的時間里面,和很多金融領域、互聯網做數據相關工作的小伙伴,聊天交流的一些整理和歸納。大概可以分為四類。
(一)純粹的數據加工
側重于變量加工和預處理,從源系統或數據倉庫,對相關數據進行提取、加工、衍生處理,生成各種業務表。然后,以客戶號為主鍵,把這些業務表整合匯總,最終可以拉出一張大寬表,這張寬表就可以稱之為“客戶畫像”。即,有關客戶的很多變量和特征的集合。
在這個階段,主要的數據加工工具為SQL和SASbase。
(二)傻瓜式的挖掘工具
較為典型的就是SASEM和clementine,里面嵌入很多較為傳統成熟的算法、模塊和節點(例如邏輯回歸、決策樹、SVM、神經網絡、KNN、聚類等)。通過鼠標的托拉拽,流程式的節點,基本上就可以實現你挖掘數據的需求。
傻瓜式操作的優點就是使得數據挖掘,入手非常快,較為簡單。但是,也存在一些缺陷,即,使得這個挖掘過程變得有點單調和無趣。沒辦法批量運算模型,也沒辦法開發一些個性化的算法和應用。用的比較熟練,并且想要進一步提升的時候,建議把這兩者拋棄。
(三)較為自由的挖掘工具
較為典型的就是R語言和Python。這兩個挖掘工具是開源的,前者是統計學家開發的,后者是計算機學家開發的。
一方面,可以有很多成熟的、前沿的算法包調用,另外一方面,還可以根據自己的需求,對既有的算法包進行修改調整,適應自己的分析需求,較為靈活。此外,Python在文本、非結構化數據、社會網絡方面的處理,功能比較強大。
(四)算法拆解和自行開發
一般會利用python、c、c++,自己重新編寫算法代碼。例如,通過自己的代碼實現邏輯回歸運算過程。甚至,根據自己的業務需求和數據特點,更改其中一些假定和條件,以便提高模型運算的擬合效果。尤其,在生產系統上,通過C編寫的代碼,運行速度比較快,較易部署,能夠滿足實時的運算需求。
一般來說,從互聯網的招聘和對技能的需求來說,一般JD里面要求了前三種,這樣的職位會被稱為“建模分析師”。但是如果增加上了最后一條,這樣的職位或許就改稱為“算法工程師”。
二、模型的理解:傳統的和時髦的
據理解,模型應該包括兩種類型。一類是傳統的較為成熟的模型,另外一類是較為時髦有趣的模型。對于后者,大家會表現出更多的興趣,一般是代表著新技術、新方法和新思路。
(一)傳統的模型
傳統的模型,主要就是為了解決分類(例如決策樹、神經網絡、邏輯回歸等)、預測(例如回歸分析、時間序列等)、聚類(kmeans、系譜、密度聚類等)、關聯(無序關聯和有序關聯)這四類問題。這些都是較為常規和經典的。
(二)時髦有趣的模型
比較有趣、前沿的模型,大概包括以下幾種類型,即社會網絡分析、文本分析、基于位置的服務(Location-BasedService,LBS)、數據可視化等。
它們之所以比較時髦,可能的原因是,采用比較新穎前沿的分析技術(社會網絡、文本分析),非常貼近實際的應用(LBS),或者是能夠帶來更好的客戶體驗(數據可視化)。
(1)社會網絡的應用
傳統的模型將客戶視為單一個體,忽視客戶之間的關系,基于客戶的特征建立模型。社會網絡是基于群體的,側重研究客戶之間的關聯,通過網絡、中心度、聯系強度、密度,得到一些非常有趣的結果。典型的應用,例如,關鍵客戶的識別、新產品的滲透和擴散、微博的傳播、風險的傳染、保險或信用卡網絡團伙欺詐、基于社會網絡的推薦引擎開發等。
(2)文本挖掘的應用
文本作為非結構化數據,加工分析存在一定的難度,包括如何分詞、如何判斷多義詞、如何判斷詞性,如何判斷情緒的強烈程度。典型的應用,包括搜索引擎智能匹配、通過投訴文本判斷客戶情緒、通過輿情監控品牌聲譽、通過涉訴文本判定企業經營風險、通過網絡爬蟲抓取產品評論、詞云展示等。
文本和濕人。關于文本分析,最近朋友圈有篇分享,很有意思,號稱可以讓你瞬間變成濕人。原理很簡單,就是先把《全宋詞》分詞,然后統計頻數前100的詞語。然后你可以隨機湊6個數(1-100),這樣就可以拼湊出兩句詩。比如,隨機寫兩組數字,(2,37,66)和(57,88,33),對應的詞語為(東風、無人、黃花)和(憔悴、今夜、風月)。組成兩句詩,即“東風無人黃花落,憔悴今夜風月明”。還真像那么一回事,有興趣可以玩一玩。
(3)LBS應用
即基于位置的服務,即如何把服務和用戶的地理位置結合。當下的APP應用,如果不能很好地和地理位置結合,很多時候很難有旺盛的生命力。典型的APP,例如大眾點評(餐飲位置)、百度地圖(位置和路徑)、滴滴打車、微信位置共享、時光網(電影院位置)等服務。此外,銀行其實也在研究,如何把線上客戶推送到距離客戶最近的網點,完成O2O的完美對接,從而帶來更好的客戶體驗。
(4)可視化應用
基于地圖的一些可視化分析,比較熱門,例如,春節人口遷徙圖、微信活躍地圖、人流熱力圖、擁堵數據的可視化、社會網絡擴散可視化等。
如果你想讓你的分析和挖掘比較吸引眼球,請盡量往以上四個方面靠攏。
三、互聯網和金融數據挖掘的差異
博士后兩年,對銀行領域的數據挖掘有些基本的了解和認識,但是面對浩瀚的數據領域,也只能算剛剛入門。很多時候,會很好奇互聯網領域,做數據挖掘究竟是什么樣的形態。
很早之前,就曾在知乎上提了個問題,“金融領域的數據挖掘和互聯網中的數據挖掘,究竟有什么的差異和不同”。這個問題掛了幾個月,雖有寥寥的回答,但是沒有得到想要的答案。
既然沒人能夠提供想要的答案,那就,根據自己的理解、一些場合的碰壁、以及和一些互聯網數據小伙伴的接觸,試圖歸納和回答下。應該有以下幾個方面的差異。
(一)“分析”和“算法”
在互聯網中,“分析”和“算法”,分得非常開,對應著“數據分析師”和“算法工程師”兩種角色。前者更多側重數據提取、加工、處理、運用成熟的算法包,開發模型,探索數據中的模式和規律。后者更多的是,自己寫算法代碼,通過C或python部署到生產系統,實時運算和應用。
在銀行領域,基本上,只能看到第一種角色。數據基本上來源于倉庫系統,然后運用SQL、SAS、R,提取、加工、建模和分析。
(二)數據類型
數據類型,主要包括“結構化”和“非結構化”兩類數據。前者就是傳統的二維表結構。一行一條記錄,一列一個變量。后者包括文本、圖像、音頻、視頻等。
銀行里面的數據,更多的是結構化數據,也有少量的非結構化數據(投訴文本、貸款審批文本等)。業務部門對非結構化數據的分析需求比較少。因此,在非結構化數據的分析建模方面,稍顯不足。
互聯網,更多的是網絡日志數據,以文本等非結構化數據為主,然后通過一定的工具將非結構化數據轉變為結構化數據,進一步加工和分析。
(三)工具、存儲和架構
互聯網,基本上是免費導向,所以常常選擇開源的工具,例如MySql、R、Python等。常常是基于hadoop的分布式數據采集、加工、存儲和分析。
商業銀行一般基于成熟的數據倉庫,例如TD,以及一些成熟的數據挖掘工具,SASEG和EM。
(四)應用場景
在應用場景上,兩者之間也存在著非常大的差異。
(1)金融領域
金融領域的數據挖掘,不同的細分行業(如銀行和證券),也是存在差別的。
銀行領域的統計建模。銀行內的數據挖掘,較為側重統計建模,數據分析對象主要為截面數據,一般包括客戶智能(CI)、運營智能(OI)和風險智能(RI)。開發的模型以離線為主,少量模型,例如反欺詐、申請評分,對實時性的要求比較高。
證券領域的量化分析。證券行業的挖掘工作,更加側重量化分析,分析對象更多的是時間序列數據,旨在從大盤指數、波動特點、歷史數據中發現趨勢和機會,進行短期的套利操作。量化分析的實時性要求也比較高,可能是離線運算模型,但是在交易系統部署后,實時運算,捕捉交易事件和交易機會。
(2)互聯網
互聯網的實時計算。互聯網的應用場景,例如推薦引擎、搜索引擎、廣告優化、文本挖掘(NLP)、反欺詐分析等,很多時候需要將模型部署在生產系統,對實時響應要求比較高,需要保證比較好的客戶體驗。
四、數據挖掘在金融領域的典型應用
別人常常會問,在銀行里面,數據挖掘究竟是做什么的。也常常在思考如何從對方的角度回答這個問題。舉幾個常見的例子做個詮釋。
(一)信用評分
申請評分。當你申請信用卡、消費貸款、經營貸款時,銀行是否會審批通過,發放多大規模的額度?這個判斷很可能就是申請評分模型運算的結果。通過模型計算你的還款能力和還款意愿,綜合評定放款額度和利率水平。
行為評分。當你信用卡使用一段時間后,銀行會根據你的刷卡行為和還款記錄,通過行為評分模型,判斷是否給你調整固定額度。
(二)個性化產品推薦
很多時候,你可能會收到銀行推送的短信或者接到銀行坐席的外呼,比如,向你推薦某款理財產品。這背后,很可能就是產品響應模型運算的結果。銀行會通過模型,計算你購買某款理財產品的概率,如果概率比價高的話,就會向你推送這款理財產品。
此外,很多時候,不同的客戶,銀行會個性化的推薦不同的產品,很可能就是產品關聯分析模型運算的結果。
關鍵詞:Hashtag推薦;K最近鄰;文本表示;深度學習
中圖分類號: G252 文獻標識碼: A DOI: 10.11968/tsygb.1003-6938.2015057
Abstract According to the summary of various Hashtag recommendation technologies and short text representation methods, this paper uses a Hashtag recommendation method based on K-Nearest Neighbor. Firstly, we represent the texts of microblog into vectors, calculate similarities between user’s text and training text. Then we extract the most similar blogs from the corpora. The results of four text representation methods named Vector space model, Latent semantic analysis, Latent Dirichlet allocation, Deep Learning for Hashtag recommendation are compared with each other. We use H7N9 Corpus on Twitter as our test dataset. Experimental results show that deep learning text representation method has achieved the best performance among all the methods.
Key words Hashtag Recommendation; K-Nearest Neighbor; Text Representation; Deep Learning
1 引言
當前,各種主流微博平臺都提供Hashtag標注功能,如關于馬航墜機事件的Hashtag在Twitter中為“#MH370”,在新浪微博中為“#MH370#”,雖然不同微博平臺中Hashtag的具體標記形式可能不同,但功能基本相同,都具有主題標注和話題參與的功能[1-3]。主題標注功能指Hashtag能夠表達一條微博中的主題信息;話題參與功能指用戶使用Hashtag參與同一個話題的討論。在微博平臺中,上述功能使Hashtag在信息組織和信息檢索方面具有優勢,因此越來越多的學者開始深入研究Hashtag[4-6]。但在實際的微博數據中Hashtag的標注數量較少,這大大降低了Hashtag的信息檢索和信息組織的效率。Potts主要有兩種因素降低了Hashtag的標注數量和標注質量:(1)大部分用戶不對自己的微博標注Hashtag;(2)有些用戶隨意的標注Hashtag,出現許多難以理解的和使用的Hashtag,導致信息傳播效率降低[7]。因此,為了提高Hashtag的標注數量和質量,學者們提出了多種不同的Hashtag推薦方法,為用戶自動推薦合適的Hashtag。
當前,Hashtag推薦方法主要有基于頻次和相似度的方法、基于機器學習的方法和基于主題模型的方法等。K最近鄰作為一種經典的文本分類方法,無需標注語料,并且無需花費大量時間訓練模型。因此,本文嘗試將K最近鄰方法用于微博的Hashtag推薦。由于傳統的權重計算方法和文本表示方法不適合短文本的處理[8]。為此,本文對比了向量空間模型(Vector Space Model)、潛在語義分析(Latent Semantic Analysis)、隱含狄利克雷分布模型(Latent Dirichlet Allocation)和基于深度學習(Deep Learning)的文本表示等四種方法,以選擇適合于基于KNN的Hashtag推薦任務的文本表示方法。
2 Hashtag推薦相關研究概述
Hashtag推薦主要依據文本內容與用戶信息,目的是從微博文本中抽取關鍵詞或者直接提取已有的Hashtag推薦給用戶,用以提高Hashtag的標注數量和質量。在Hashtag推薦中,對微博短文本預處理和表示的效果直接影響到最后結果的好壞,因此需要對微博文本進行預處理,并深入挖掘文本,以表示出詞匯之間的語義信息。
2.1 Hashtag推薦方法
Hashtag推薦技術包括基于頻次或相似度排序方法、分類算法、主題模型、協同過濾、神經網絡等方法。其中按頻次或相似度排序的方法是指對最終的候選Hashtag按其頻次排序,或者按照Hashtag之間相似度或Tweets之間的相似度對Hashtag進行排序。所利用的信息可分為三種:Tweets的內容特征;用戶的偏好特征;Hashtag的頻次和時間特征。其中用戶的偏好特征指用戶的關注關系,興趣等特征。
Mazzia和Shin等將Hashtag推薦問題轉化為分類問題,利用樸素貝葉斯[9]、支持向量機[10]等方法選擇合適的Hashtag。基于主題模型的方法主要依據文本的主題信息推薦Hashtag[11-12],Zhang和Ding提出主題翻譯模型,取得了很好效果[13-14]。與以上方法相比,K最近鄰方法較為簡單,模型中考慮的信息較少,無需標注語料、訓練模型等步驟,并且能夠取得令人滿意的效果。2009年,張慶國等利用VSM進行文本表示,依據K最近鄰方法抽取關學術論文的關鍵詞,其實驗表明該方法有效的提高了準確率和召回率[15]。與該工作不同的是,本文以微博短文本作為研究對象,考察四種不同文本表示方法在基于KNN的Hashtag推薦中的實際效果,以期找到適合微博短文本的文本表示方法,從而提高基于KNN的Hashtag推薦效果。
3.2.2 潛在語義分析模型
潛在語義分析是由Dumais等提出的信息檢索模型[26],使用奇異值分解(Singular Value Decomposition,SVD)將高維的向量空間模型映射到低維的語義空間中,對原本的文檔向量進行了降維,去除了一些“噪音”,并且反映出詞語之間隱含的語義關系。
潛在語義分析是對“詞匯-文檔”矩陣進行奇異值分解,因此首先構造“詞匯-文檔”矩陣,在這個矩陣中,對其中的詞匯計算權重,區別每個詞語的重要性。本文使用TF*IDF計算矩陣中每個詞匯的權重。首先構建“詞項-文檔矩陣”C(見圖2)。
矩陣中列代表文檔,行代表詞匯,xnm為第m篇文檔的第n個詞所對應的權重。然后對矩陣C進行奇異值分解分解,計算公式為:
C=UVP (4)
保留矩陣U、V、P的前K列,將其它列去除后得到Uk、Vk、Pk,再重新構建矩陣Ck:
Ck=UkVkPk (5)
這時新的Ck即為文本的向量形式,潛在語義分析通過SVD這種數學方法對原矩陣進行降維,最終結果可解釋性較差[26]。
3.2.3 隱含狄利克雷分布模型
隱含狄利克雷分布LDA是由Blei提出的一種概率主題模型[27],與LSA有著密切的聯系。由于LSA生成的向量無法被很好的解釋,因此Huffman等針對LSA的缺點提出了概率潛在語義分析(probabilistic latent semantic analysis,PLSA)較好的解決了多義詞的問題,每個維度可以被解釋為詞典中的概率分布[28]。PLSA中參數數量會隨著文檔的增加而增加,并且容易出現過擬合。2003年,Blei等為了克服PLSA的上述缺點,引入了狄利克雷先驗分布,提出了LDA模型。
LDA能夠將高維的向量空間映射到低維的主題空間,避免了特征稀疏問題的出現。微博這類短文本不僅詞匯少,且存在縮寫詞匯、網絡俚語以及大量未登錄詞,這些干擾因素都會影響文本間相似度的計算,LDA用主題分布的概率對文本進行表示,減少了上述噪音的影響。與上述兩種方法相比,由于加入了狄利克雷先驗分布,因此LDA的缺點是計算量大。LDA是一個三層貝葉斯概率模型,包含詞項、主題和文檔三層結構(見圖3)。
其中φ表示主題中的詞項概率分布,θ表示第m篇文檔的主題概率分布,φ和θ分別作為多項式分布的參數用于生成主題和單詞。K代表主題數量,W和Z分別表示第m篇文檔中第n個單詞及其主題。其中α和β是LDA的先驗參數,α反應了文本集合中主題的相對強弱,β則代表了所有主題自身的概率分布。在LDA中,首先生成整個文檔集合的主題分布,然后計算每個文檔對每個主題的概率分布,將文檔映射到主題空間,以此將文本用整個文檔集合的主題進行表示。
3.2.4 深度學習模型
目前常用的詞匯表示方法是 “One-Hot Representation”,詞匯出現的位置值為“1”,其它位置為“0”。這種方法無法表示出詞匯之間的語義關系[29]。Hinton提出的分布式特征表示方法(Distributed representation)克服了“One-Hot Representation”的缺點[30]。
Bengio等基于分布式表示的思想,提出了使用神經網絡訓練語言模型的方法,詞向量就是在訓練語言模型的過程中得到的[30]。詞項量包含詞匯的上下文信息,通過一些相似度的計算方法,能夠準確的衡量不同詞匯的語義關系。Mikolov等提出使用循環神經網絡訓練語言模型的方法[31],并深度學習的開源工具“Word2vec”[32],大大提高了詞向量的訓練速度。
在Word2vec中將詞匯使用Huffman樹存儲,在訓練語言模型時,輸入層為詞匯的上下文,輸出為經過隱含層轉換之后的向量。將從Huffman樹的根節點出發到查找到該詞匯的過程看作一個連續的二分類的過程,該詞匯在該上下文環境下出現的概率即為二分類過程的乘積,當語言模型訓練完成時,輸出層的向量即為最終的詞量。
基于上述工作,Le和Mikolov等于2014年提出了基于深度學習的句子向量和文檔向量的訓練方法[33],本文使用該方法作為文本的表示方法,并將其記為“Doc2vec”。由深度學習得到的文本向量與詞項量具有相同的優點,含有豐富的語義信息。對于微博短文本來說,這種方法能夠表示出縮寫詞、網絡俚語和正常詞語之間的語義關系,相似度的計算更加準確。
在Doc2vec中“Paragraph id”代表一個段落,與Word2vec的方法相似,通過詞匯的上下文來預測這個詞匯的概率,區別是doc2vec中將段落也看作一個詞,這個詞由段落的矩陣表示“Paragraph matrix”。段落中也包含了該詞匯的上下文信息,在這個模型中由于詞匯之間有著前后的關系,因此這種方稱為“Distributed Memory Model”,另外一種不區分詞匯順序的方法使用了詞袋模型,稱為“Distributed Bag of Words”,Doc2vec訓練的過程與Word2vec相似(見圖4)。
4 實驗與結果分析
4.1 實驗數據概述
Twitter是世界著名的微博平臺,使用人數眾多,在Twitter中用戶發表的微博文本為Tweets,本文使用從Twitter中采集的Tweets作為實驗數據。在Twitter中以“H7N9”為主題采集數據,具體查詢式為“h7n9 lang:en since:2014-03-08 until:2015-03-08”,從2014年3月8日到 2015年3月8日在Twitter中進行搜索,一共采集了87382條Tweets,其中Hashtag被使用的總次數為81305次,將這些數據作為訓練集(具體的信息見表1)。
[2] Zappavigna M. Discourse of Twitter and social media: How we use language to create affiliation on the web [M]. A&C Black, 2012.
[3] Ivanova M. Understanding microblogging hashtags for learning enhancement [J]. Form@ re-Open Journal per la formazione in rete, 2013, 11(74): 17-23.
[4] Dixon K. Feminist Online Identity: Analyzing the Presence of Hashtag Feminism [J]. Journal of Arts and Humanities, 2014, 3(7): 34-40.
[5] Komori L. We shouldn't have to smoke and hide The legalize hashtag as a platform for collective identity and collective action framing [D].University of Alberta, 2013.
[6] Skalbeck R V. Anatomy of a Conference Twitter Hashtag:#AALL2010[J/OL].[2015-05-16].http://scholarship.law.georgetown.
edu/digitalpreservation_publications/5.
[7] Potts L, Seitzinger J, Jones D, et al. Tweeting disaster: hashtag constructions and collisions [C].Proceedings of the Proceedings of the 29th ACM international conference on Design of communication, ACM, 2011: 235-240.
[8] Li Z, Zhou D, Juan Y-F, et al. Keyword extraction for social snippets [C].Proceedings of the Proceedings of the 19th international conference on World wide web, ACM, 2010: 1143-1144.
[9] Mazzia A, Juett J. Suggesting hashtags on twitter[R].Machine Learning, Computer Science and Engineering, University of Michigan, 2009.
[10] Shin Y, Lee S-J, Park J. Composition pattern oriented tag extraction from short documents using a structural learning method [J]. Knowledge and information systems, 2014, 38(2): 447-468.
[11] She J, Chen L. Tomoha: Topic model-based hashtag recommendation on twitter [C].Proceedings of the Proceedings of the companion publication of the 23rd international conference on World wide web companion, International World Wide Web Conferences Steering Committee, 2014: 371-372.
[12] Ma Z, Sun A, Yuan Q, et al. Tagging Your Tweets: A Probabilistic Modeling of Hashtag Annotation in Twitter [C].Proceedings of the Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management, ACM, 2014: 999-1008.
[13] Zhang Q, Gong Y, Sun X, etal.Time-aware Personalized Hashtag Recommendation on Social Media[J/OL].[2015-05-16].
http://p.nus.edu.sg/~antho/C/C14/C14-1021.pdf.
[14] Ding Z, Qiu X, Zhang Q, et al. Learning topical translation model for microblog hashtag suggestion[C].Proceedings of the Proceedings of the Twenty-Third international joint conference on Artificial Intelligence, AAAI Press, 2013: 2078-2084.
[15] 張慶國, 章成志, 薛德軍, 等. 適用于隱含主題抽取的 K 最近鄰關鍵詞自動抽取[J]. 情報學報, 2009, (2):163-168.
[16] Xiao F, Noro T, Tokuda T. News-topic oriented hashtag recommendation in Twitter based on characteristic co-occurrence word detection [M]. Web Engineering. Springer,2012: 16-30.
[17] Tariq A, Karim A, Gomez F, et al. Exploiting Topical Perceptions over Multi-Lingual Text for Hashtag Suggestion on Twitter [C].Proceedings of the FLAIRS Conference, 2013.
[18] Zangerle E, Gassler W, Specht G. On the impact of text similarity functions on hashtag recommendations in microblogging environments [J]. Social Network Analysis and Mining, 2013, 3(4): 889-898.
[19] Otsuka E, Wallace S A, Chiu D. Design and evaluation of a Twitter hashtag recommendation system [C].Proceedings of the Proceedings of the 18th International Database Engineering & Applications Symposium, ACM, 2014: 330-333.
[20] Yan X, Zhao H. Chinese microblog topic detection based on the latent semantic analysis and structural property [J]. Journal of Networks, 2013, 8(4): 917-923.
[21] Liang D, Yong-ping D. Application of LDA Model in Microblog User Recommendation [J]. Computer Engineering, 2014, 5(002).
[22] Tomar A, Godin F, Vandersmissen B, et al. Towards Twitter hashtag recommendation using distributed word representations and a deep feed forward neural network [C].Proceedings of the Advances in Computing, Communications and Informatics (ICACCI, 2014 International Conference on, IEEE, 2014: 362-368.
[23] Lucas Vergeest. Using N-grams and Word Embeddings for Twitter Hashtag Suggestion[D]. Holland Tilburg:Tilburg University, 2014.
[24] Cover T, Hart P. Nearest neighbor pattern classification [J]. Information Theory, IEEE Transactions on, 1967, 13(1): 21-27.
[25] Salton G, Wong A, Yang C-S. A vector space model for automatic indexing [J]. Communications of the ACM, 1975, 18(11): 613-620.
[26] Dumais S, Platt J, Heckerman D, et al. Inductive learning algorithms and representations for text categorization [C].Proceedings of the Proceedings of the seventh international conference on Information and knowledge management, ACM, 1998: 148-155.
[27] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J].The Journal of machine Learning research,2003(3):993-1022.
[28] Hofmann T. Probabilistic latent semantic indexing [C].Proceedings of the Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, ACM, 1999: 50-57.
[29] Turian J, Ratinov L, Bengio Y. Word representations: a simple and general method for semi-supervised learning [C].Proceedings of the Proceedings of the 48th annual meeting of the association for computational linguistics, Association for Computational Linguistics, 2010: 384-394.
[30] Hinton, McClelland. Distributed representations[A].D.E. Rumelhart & J.L. McCleland(Eds.), Parallel distributed processing: Explorations in the microstructure of cognition{M}. Cambridge, MA: MIT Press, 1986:77-109.
[28] Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model [J]. The Journal of Machine Learning Research, 2003(3):1137-1155.
[31] Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model [C].Proceedings of the INTERSPEECH 2010, 11th Annual Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, September 26-30, 2010, 2010: 1045-1048.
[32] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.
[33] Le Q V, Mikolov T. Distributed representations of sentences and documents[J]. arXiv preprint arXiv:1405.4053, 2014.
[34] Kywe S M, Hoang T-A, Lim E-P, et al. On recommending hashtags in twitter networks [M]. Social Informatics. Springer. 2012: 337-350.
[35] ehek R, Sojka P. Software framework for topic modelling with large corpora[C]. Proceedings of the LREC 2010 Workshop on new Challenges for NLP Frameworks, Valletta, Malta: ELRA, 2010: 45-50.
關鍵詞:彝文;自動分詞;分詞算法;難點分析;發展方向
中圖分類號:TP391.1文獻標識碼:A文章編號:1009-3044(2012) 04-0944-03
Status of the Research and Difficulties in Word Segmentation Technology
WANG Cheng-ping
(Nationalities Languages Information Processing Experiment Center, Southwest University for Nationalities, Chengdu 610041, China)
Abstract: Yi word automatic segmentation is a basic Yi language information processin research. The article first analyzes the characteristics of Yi language. Second, the concept of word of Yi and application, and a variety of Yi segmentation algorithm has done a systematic introduction. Then combined with the characteristics of Yi Yi automatic segmentation to achieve the difficulties faced where the word Yi pointed out the future direction of technology.
Key words: Yi language; automatic segmentation; segmentation algorithm; difficulties analysis; development direction
彝文屬于是大字符集,因此,彝文信息處理就增加了大字符集處理和字串到詞串處理這兩大塊任務。彝文信息處理應用系統只要涉及到檢索、機器翻譯、文摘、校對等就需要以詞為基本單位。彝文信息處理應用系統只要涉及到檢索、機器翻譯、文摘、校對等就需要以詞為基本單位。然而由于彝文本身的復雜性,使得彝文分詞成為了語言分詞技術中的一個難點。
1彝文的特點
字形上,彝文大部分是獨體字,是不可再分的文字;音節上,彝文是單音節的文字,一個字代表一個音節,也即是一個具有獨立意義的詞;語法上,彝語是以詞序和虛詞為表達語法意義的主要手段。
彝文同漢文一樣,每個字的大小基本相同,漢文被稱為“方塊字”,彝文被稱為“石塊字”。而且,字與字之間有明顯的分界,字與詞或詞與詞之間也沒有明顯的界限,不按詞分寫。此外彝語中的詞沒有固定或明顯的詞頭、詞尾和性、數、格變化等分詞標志。彝文和漢文的這些相同的特點,決定了在彝文信息處理領域彝文同樣面臨著分詞技術問題。
2彝文分詞概念與研究方法
2.1彝文分詞概念
彝文分詞屬于自然語言理解技術的范疇,是語義理解的首要環節,是按照特定的規范,將彝文語句中具有確定的語義或語法功能的詞和詞組按分詞單位進行劃分一種技術,它是彝文文本分類、自動標注、信息檢索、機器翻譯、語音識別與合成等領域的基礎。從信息處理過程來看,可以把彝文自動分詞看作是用計算機自動識別彝文文本中的詞,并在詞與詞之間加入明顯切分標記的過程。而從應用需求來看,彝文自動分詞的主要目的是確定自然語言處理的基本分析單位,為進一步開展彝文的自動分析進而為實現機器翻譯、篇章理解、自動文摘、文本校對、自動標引等應用處理系統做好前期準備工作。
2.2彝文信息處理自動分詞技術研究方法
目前彝文自動分詞研究采用的方法歸納起來主要有以下三種類型:
2.2.1機械分詞法
主要有最大匹配法、逆向最大匹配法、逐詞匹配法、部件詞典法、詞頻統計法、設立標志法、并行分詞法、詞庫劃分和聯想匹配法等,如:西南民族大學民族語言文字信息處理實驗中心就采用了正向最大匹配法來設計與開發了“基于既定詞表的彝文自動分詞系統”,分詞正確率達到了85%以上。
2.2.2語義分詞法
引入了語義分析,對自然語言自身的語言信息進行更多的處理,如擴充轉移網絡法、知識分詞語義分析法、鄰接約束法、綜合匹配法、后綴分詞法、特征詞庫法、約束矩陣法、語法分析法等,如:西南民族大學民族語言文字信息處理實驗中心就采用了彝語語法分析法與綜合匹配法來設計與開發了“基于語料特征的彝文自動分詞系統”,分詞正確率達到了95%以上,也是目前彝文自動分詞技術研究的一個代表。
2.2.3人工智能法
是對信息進行智能化處理的一種模式,又稱理解分詞法,主要有兩種處理方式:一種是基于心理學的符號處理方法。模擬人腦的功能,像專家系統。即希望模擬人腦的功能,構造推理網絡,經過符號轉換,從而可以進行解釋性處理。一種是基于生理學的模擬方法。神經網絡旨在模擬人腦的神經系統機構的運作機制來實現一定的功能。目前西南民族大學民族語言文字信息處理實驗中心正在研發的“信息處理用彝文智能分詞系統”就采用了此方法。
這三種方法又可分為兩大類:一類是基于規則的,目前大多數彝文自動分詞方法都采用此方法,如:基于既定詞表的彝文自動分詞系統;一類是基于語料庫的,如:基于語料特征的彝文自動分詞系統。基于規則的分詞算法的計算模型均是概率論中的馬爾可夫過程又稱元語法、隱馬爾可夫過程和通信中的信道噪聲模型。但無論是馬爾可夫過程還是信道噪聲模型,最后都歸結為計算彝文詞頻的統計信息,串頻和互信息是詞頻的另一種表現形式。
4結束語
由于在彝語中詞與詞之間沒有明顯的切分標志,因此在彝文信息處理中彝文分詞這一研究領域應運而生,并成為彝文信息處理中的基礎課題之一。彝文自動分詞技術在彝文信息檢索、文字識別、機器翻譯,語音識別與合成等領域中將有著廣泛的應用前景。本文主要是對現有彝文的各類分詞算法做出了系統的介紹,同時結合彝文的特,從語言學和計算機技術兩個不同學科角度分析了實現彝文自動分詞的難點所在,為以后信息處理彝文自動分詞技術研究工作奠定了一個良好的基礎。
參考文獻:
[1]馮志偉.計算機中文信息處理[M].北京:北京出版社,2001:20-145.
[2]沙馬拉毅.計算機彝文信息處理[M].北京:電子工業出版社,2000:21-67.
[3]陳小荷.現代漢語自動分析[M].北京:北京語言文化大學出版社,2000:35-80.
[4]鄧宏濤.中文自動分詞系統的設計模型[J].計算機與數字工程,2005(4):138-140.
[5]孫鐵利,劉延吉.中文分詞技術的研究現狀與困難[J].信息技術,2009(7):187-189.