永久免费黄色大片-乱老胖熟妇60XXXXXX-亚洲成人手机AV-久久鬼色-三级片视频网站在线观看-韩日成人午夜

您現在的位置： 首頁 > 技術轉讓 > 基于雙向迭代和自動構建更新語料庫的垃圾評論過濾方法

基于雙向迭代和自動構建更新語料庫的垃圾評論過濾方法

專利類型：發明專利
有效期：不限
發布日期：2022-09-10
技術成熟度：通過小試

交易價格： ￥面議

法律狀態核實
簽署交易協議
代辦官方過戶
交易成功

專利推薦

■ 一種薏苡仁多種活性成分的提取分離方法

■ 海蘆筍降三萜皂苷化合物及其制備方法和用途

■ 一種適用于有機農業的藥肥及其制備工藝

■ 樟芝子實體三萜類組合物、制備與分析方法

■ 從胡蘆巴中分離制備黃酮苷和二苯乙烯苷類化合物的方法

■ 一種同時測定固體保健食品中非法添加的多種化學藥物的方法

■ 一種由鹵水提取電池級鋰的工藝及裝置

專利技術詳情
專利技術附圖
服務流程
過戶資料

技術(專利)類型 發明專利
申請號/專利號 CN201510417206.9
技術(專利)名稱 基于雙向迭代和自動構建更新語料庫的垃圾評論過濾方法
項目單位 浙江理工大學
發明人 張宇,劉妙
行業類別
技術成熟度 通過小試
交易價格 ￥面議
聯系人 趙鵬博
發布時間 2022-09-10

01

項目簡介

本發明公開了一種基于雙向迭代和自動構建更新語料庫的垃圾評論過濾方法，包括：獲取產品的評論文本以構建語料庫，并對語料庫進行初始劃分形成垃圾評論文本集和正常評論文本集；利用貝葉斯過濾器對正常評論文本集和垃圾評論文本集中的評論文本進行垃圾評論判別，并更新垃圾評論文本集和正常評論文本集；利用貝葉斯過濾器迭代地進行垃圾評論判別，直至相鄰兩次迭代得到的結果不再變化為止，并判定最后一次迭代得到的垃圾評論文本集中的評論文本為垃圾評論文本。本發明的垃圾評論過濾方法迭代地利用貝葉斯過濾器進行垃圾評論判別，能夠自動識別出新的垃圾評論文本，實現垃圾評論文本集和正常評論文本集的自動更新，從而獲得更加準確的判別結果。
展開
02

說明書

1.一種基于雙向迭代和自動構建更新語料庫的垃圾評論過濾方法，其特征在于，包括
如下步驟：
(1)獲取產品的評論文本以構建語料庫，并對語料庫進行初始劃分形成垃圾評論文本
集和正常評論文本集；
(2)利用貝葉斯過濾器對所述垃圾評論文本集和正常評論文本集中的評論文本進行垃
圾評論判別，并根據垃圾評論判別結果更新垃圾評論文本集和正常評論文本集；
所述步驟(2)中對正常評論文本集和垃圾評論文本集中每一條評論文本進行垃圾評論
判別時進行如下操作：
分別計算該評論文本屬于正常評論文本集和垃圾評論文本集的類后驗概率：
若屬于垃圾評論文本集的類后驗概率大于或等于屬于正常評論文本集的類后驗概率，
則判定該評論文本為垃圾評論文本；
否則，判定為正常評論文本；
通過如下步驟分別計算該評論文本屬于正常評論文本集和垃圾評論文本集的類后驗
概率：
(2-1)對垃圾評論文本集進行垃圾評論關鍵詞抽取，形成垃圾評論關鍵詞詞集；
所述步驟(2-1)具體包括如下步驟：
(2-21)根據垃圾評論文本集中所有評論文本構建相應的實詞詞集；
(2-22)計算垃圾評論文本集與正常評論文本集的類先驗概率，并根據計算結果采用信
息增益方法計算實詞詞集中各個實詞的權值，并提取權值大于預設閾值的實詞作為垃圾評
論關鍵詞形成垃圾評論關鍵詞詞集；
所述步驟(2-22)中根據如下公式計算實詞詞集中第i個實詞w_i的權值η(w_i)：
η ( w i ) = Σ j &Element; { 0 , 1 } , o &Element; { 0 , 1 } P ( C j , w i o ) log P ( C j , w i o ) P ( C j ) P ( w i o ) , ]]>其中，1≤i≤n_word，n_word表示實詞詞集中實詞的總個數；
j＝0或1，當j＝0時，評論文本集C_j表示垃圾評論文本集，當j＝1時，評論文本集C_j表示
正常評論文本集；
o＝0或1，且：
當o＝0時，表示實詞w_i不出現，表示評論文本集C_j中不出現實詞w_i的評論文
本條數與語料庫中評論文本條數的比值，表示語料庫中不出現實詞w_i的評論文本的
條數與語料庫中評論文本條數的比值，
當o＝1時，表示實詞w_i出現，表示評論文本集C_j中出現實詞w_i的評論文本條
數與語料庫中評論文本條數的比值，表示語料庫中出現實詞w_i的評論文本的條數與
語料庫中評論文本條數的比值；
P(C_j)表示評論文本集C_j的類先驗概率，根據如下公式計算：
P ( C j ) = 1 + | D C j | 2 + | D C | , ]]>其中，表示評論文本集C_j中評論文本的條數，|D_C|表示語料庫中評論文本的條數；
(2-2)根據垃圾評論關鍵詞詞集抽取該評論文本的特征詞，并生成相應的特征詞序列；
(2-3)利用相應的特征詞序列分別計算該評論文本屬于垃圾評論文本集和正常評論文
本集的類后驗概率；
所述步驟(2-3)中針對當前評論文本d_x進行如下操作：
(2-31)利用相應的特征詞序列根據如下公式分別計算當前評論文本d_x屬于正常評論文
本集和垃圾評論文本集的類條件概率P(d_x|C_j)：
P ( d x | C j ) = Π n = 1 N P ( w n | C j ) , ]]>其中，j＝0或1，當j＝0時，評論文本集C_j表示垃圾評論文本集，當j＝1時，評論文本集C_j
表示正常評論文本集，
n＝1,2……,N，N為特征詞序列中特征詞的個數，
P(w_n|C_j)表示為相應的特征詞序列中關鍵詞w_n在垃圾評論文本集中的類條件概率，根
據如下公式計算：
P ( w n | C j ) = 1 + w n j 2 + | D C j | , ]]>其中，表示評論文本集C_j中出現關鍵詞w_n的評論文本條數，
表示評論文本集C_j中評論文本的條數；
(2-32)根據如下公式分別計算當前評論文本d_x屬于垃圾評論文本集和正常評論文本集
的類后驗概率：
P ( C j | d x ) = P ( C j ) × P ( d x | C j ) P ( d x ) , ]]>其中，P(C_j|d_x)表示當前評論文本d_x屬于評論文本集C_j的類后驗概率，
P(d_x)為評論文本d_x的全概率，
P(C_j)為評論文本集C_j的類先驗概率：
P ( C j ) = 1 + | D C j | 2 + | D C | , ]]>其中，表示評論文本集C_j中評論文本的條數，|D_C|表示語料庫中評論文本的條數；
(3)迭代執行步驟(2)，直至相鄰兩次迭代得到的垃圾評論文本集和正常評論文本集不
再變化為止，并判定最后一次迭代得到的垃圾評論文本集中的評論文本為垃圾評論文本。
2.如權利要求1所述的基于雙向迭代和自動構建更新語料庫的垃圾評論過濾方法，其
特征在于，所述步驟(1)中利用正則表達式對語料庫中的評論文本進行垃圾評論判別以完
成初始劃分。
3.如權利要求1所述的基于雙向迭代和自動構建更新語料庫的垃圾評論過濾方法，其
特征在于，所述步驟(2-22)中預設閾值為0.04～0.05。

展開

專利技術附圖

服務流程

過戶資料

買賣雙方需提供資料
平臺提供
過戶后您將獲得

買家
賣家

公司
企業營業執照
企業營業執照

專利注冊證原件

個人
身份證

個體戶營業執照
身份證

專利注冊證原件

專利代理委托書

轉讓申請書

轉讓協議

手續合格通知書

專利證書

專利利登記簿副本

安全保障

品類齊全

海量資源庫，平臺整合幾十萬閑置資源。
交易保障

完善的資金保障體系確保買賣雙方資金安全。
專人跟進

專業交易顧問全程服跟進,確保交易流暢。
快速響應

專業在線/電話客服服務，快速響應貼心服務。
售后無憂

資質過硬,國內大知識產權服務平臺。

-我要咨詢-

專利類型：

專利號：

聯系人：

專利名稱： *

聯系電話： *

驗證碼：

報價：

摘要：

提交

關于我們 | 聯系我們

傳真：0435-3213171 電話：18801213919 郵箱：lizhiwen@bayuegua.com 地址：吉林省通化市東昌區新華大街1003號（通化市科技成果轉化中心）

舉報電話：0435-5112631 舉報郵箱：chenwenbo@bayuegua.com

備案號ICP備18003140號-1

永久免费黄色大片-乱老胖熟妇60XXXXXX-亚洲成人手机AV-久久鬼色-三级片视频网站在线观看-韩日成人午夜

基于雙向迭代和自動構建更新語料庫的垃圾評論過濾方法

專利推薦

01

02

專利技術附圖

服務流程

過戶資料

安全保障

品類齊全

交易保障

專人跟進

快速響應

售后無憂