1.一種基于雙向迭代和自動構建更新語料庫的垃圾評論過濾方法,其特征在于,包括
如下步驟:
(1)獲取產品的評論文本以構建語料庫,并對語料庫進行初始劃分形成垃圾評論文本
集和正常評論文本集;
(2)利用貝葉斯過濾器對所述垃圾評論文本集和正常評論文本集中的評論文本進行垃
圾評論判別,并根據垃圾評論判別結果更新垃圾評論文本集和正常評論文本集;
所述步驟(2)中對正常評論文本集和垃圾評論文本集中每一條評論文本進行垃圾評論
判別時進行如下操作:
分別計算該評論文本屬于正常評論文本集和垃圾評論文本集的類后驗概率:
若屬于垃圾評論文本集的類后驗概率大于或等于屬于正常評論文本集的類后驗概率,
則判定該評論文本為垃圾評論文本;
否則,判定為正常評論文本;
通過如下步驟分別計算該評論文本屬于正常評論文本集和垃圾評論文本集的類后驗
概率:
(2-1)對垃圾評論文本集進行垃圾評論關鍵詞抽取,形成垃圾評論關鍵詞詞集;
所述步驟(2-1)具體包括如下步驟:
(2-21)根據垃圾評論文本集中所有評論文本構建相應的實詞詞集;
(2-22)計算垃圾評論文本集與正常評論文本集的類先驗概率,并根據計算結果采用信
息增益方法計算實詞詞集中各個實詞的權值,并提取權值大于預設閾值的實詞作為垃圾評
論關鍵詞形成垃圾評論關鍵詞詞集;
所述步驟(2-22)中根據如下公式計算實詞詞集中第i個實詞w
i的權值η(w
i):
η ( w i ) = Σ j ∈ { 0 , 1 } , o ∈ { 0 , 1 } P ( C j , w i o ) log P ( C j , w i o ) P ( C j ) P ( w i o ) , ]]>
![]()
其中,1≤i≤n
word,n
word表示實詞詞集中實詞的總個數;
j=0或1,當j=0時,評論文本集C
j表示垃圾評論文本集,當j=1時,評論文本集C
j表示
正常評論文本集;
o=0或1,且:
當o=0時,
![]()
表示實詞w
i不出現,
![]()
表示評論文本集C
j中不出現實詞w
i的評論文
本條數與語料庫中評論文本條數的比值,
![]()
表示語料庫中不出現實詞w
i的評論文本的
條數與語料庫中評論文本條數的比值,
當o=1時,
![]()
表示實詞w
i出現,
![]()
表示評論文本集C
j中出現實詞w
i的評論文本條
數與語料庫中評論文本條數的比值,
![]()
表示語料庫中出現實詞w
i的評論文本的條數與
語料庫中評論文本條數的比值;
P(C
j)表示評論文本集C
j的類先驗概率,根據如下公式計算:
P ( C j ) = 1 + | D C j | 2 + | D C | , ]]>
![]()
其中,
![]()
表示評論文本集C
j中評論文本的條數,|D
C|表示語料庫中評論文本的條數;
(2-2)根據垃圾評論關鍵詞詞集抽取該評論文本的特征詞,并生成相應的特征詞序列;
(2-3)利用相應的特征詞序列分別計算該評論文本屬于垃圾評論文本集和正常評論文
本集的類后驗概率;
所述步驟(2-3)中針對當前評論文本d
x進行如下操作:
(2-31)利用相應的特征詞序列根據如下公式分別計算當前評論文本d
x屬于正常評論文
本集和垃圾評論文本集的類條件概率P(d
x|C
j):
P ( d x | C j ) = Π n = 1 N P ( w n | C j ) , ]]>
![]()
其中,j=0或1,當j=0時,評論文本集C
j表示垃圾評論文本集,當j=1時,評論文本集C
j表示正常評論文本集,
n=1,2……,N,N為特征詞序列中特征詞的個數,
P(w
n|C
j)表示為相應的特征詞序列中關鍵詞w
n在垃圾評論文本集中的類條件概率,根
據如下公式計算:
P ( w n | C j ) = 1 + w n j 2 + | D C j | , ]]>
![]()
其中,
![]()
表示評論文本集C
j中出現關鍵詞w
n的評論文本條數,
![]()
表示評論文本集C
j中評論文本的條數;
(2-32)根據如下公式分別計算當前評論文本d
x屬于垃圾評論文本集和正常評論文本集
的類后驗概率:
P ( C j | d x ) = P ( C j ) × P ( d x | C j ) P ( d x ) , ]]>
![]()
其中,P(C
j|d
x)表示當前評論文本d
x屬于評論文本集C
j的類后驗概率,
P(d
x)為評論文本d
x的全概率,
P(C
j)為評論文本集C
j的類先驗概率:
P ( C j ) = 1 + | D C j | 2 + | D C | , ]]>
![]()
其中,
![]()
表示評論文本集C
j中評論文本的條數,|D
C|表示語料庫中評論文本的條數;
(3)迭代執行步驟(2),直至相鄰兩次迭代得到的垃圾評論文本集和正常評論文本集不
再變化為止,并判定最后一次迭代得到的垃圾評論文本集中的評論文本為垃圾評論文本。
2.如權利要求1所述的基于雙向迭代和自動構建更新語料庫的垃圾評論過濾方法,其
特征在于,所述步驟(1)中利用正則表達式對語料庫中的評論文本進行垃圾評論判別以完
成初始劃分。
3.如權利要求1所述的基于雙向迭代和自動構建更新語料庫的垃圾評論過濾方法,其
特征在于,所述步驟(2-22)中預設閾值為0.04~0.05。