本書對自然語言處理中的兩種代表性的短文本信息挖掘進行研究:關系抽取和彈幕評論挖掘。針對關系抽取任務,從精度、效率、魯棒性及前沿探索四個方面進行分析并提出對應的解決方法。針對彈幕評論挖掘任務,充分地利用彈幕的實時性、交互性、高噪聲等性質,提出適用于彈幕評論的語義分析模型。針對目標任務的信息缺陷,本書從多角度研究和設計對應的深度學習算法以提高信息挖掘的精度。
更多科學出版社服務,請掃碼獲取。
目錄
前言
致謝
第1章深度學習1
1.1深度學習簡介1
1.2深度學習經典模型3
1.2.1卷積神經網絡3
1.2.2循環(huán)神經網絡4
1.2.3注意力模型5
1.2.4膠囊網絡6
1.2.5遷移學習與多任務學習7
1.2.6對抗學習及生成對抗網絡.8
1.2.7主動學習9
思考題.10
第2章短文本信息挖掘11
2.1短文本信息挖掘簡介11
2.2關系抽取簡介.12
2.2.1關系抽取定義13
2.2.2神經關系抽取14
2.2.3遠程監(jiān)督的關系抽取15
2.2.4關系抽取前沿16
2.2.5研究意義及挑戰(zhàn)17
2.3彈幕評論挖掘簡介19
2.3.1基于無監(jiān)督學習的文本分析方法.21
2.3.2基于神經網絡監(jiān)督學習的文本分析方法25
2.4研究內容及結構27
2.4.1關系抽取27
2.4.2彈幕評論挖掘29
思考題.31
第3章相關工作32
3.1關系抽取研究.32
3.1.1監(jiān)督學習32
3.1.2遠程監(jiān)督35
3.2彈幕評論挖掘研究37
3.2.1基于評論挖掘的關鍵詞抽取方法.37
3.2.2基于評論挖掘的推薦系統(tǒng)38
3.2.3基于評論挖掘的劇透檢測方法.38
思考題.39
第4章關系抽取模型的精度提升40
4.1概述40
4.2多標簽關系抽取40
4.3基于注意力的膠囊網絡模型42
4.3.1特征提取層——Bi-LSTM網絡43
4.3.2特征聚集層——基于注意力的膠囊網絡.44
4.3.3關系預測層——基于滑動窗口的損失函數46
4.4實驗47
4.4.1數據集47
4.4.2實驗設置47
4.4.3實驗效果49
4.4.4案例分析52
4.5本章小結53
思考題.53
第5章關系抽取模型的效率優(yōu)化55
5.1概述55
5.2神經關系抽取模型的效率陷阱55
5.3基于句內問答的關系抽取模型57
5.3.1網絡結構58
5.3.2復雜度分析61
5.4實驗63
5.4.1數據集63
5.4.2實驗設置64
5.4.3實驗效果65
5.4.4案例分析67
5.5本章小結67
思考題.68
第6章關系抽取模型的魯棒性增強69
6.1概述69
6.2遠程監(jiān)督的噪聲分布分析70
6.3詞匯級別噪聲解決方法.74
6.4句子級別噪聲解決方法.76
6.5先驗知識級別噪聲解決方法78
6.6數據分布級別噪聲解決方法80
6.7多級別噪聲協(xié)同解決方法81
6.8實驗82
6.8.1數據集及評價指標83
6.8.2詞匯級別降噪相關實驗83
6.8.3句子級別降噪相關實驗85
6.8.4先驗知識級別降噪相關實驗88
6.8.5數據分布級別降噪相關實驗89
6.8.6多級別抗噪聲相關實驗91
6.9本章小結93
思考題.93
第7章關系抽取模型的前沿初探94
7.1概述94
7.2錯誤標注負樣本問題95
7.3GAN驅動的半遠程監(jiān)督學習框架96
7.3.1半遠程監(jiān)督關系抽取原理96
7.3.2GAN驅動的半監(jiān)督關系抽取算法98
7.4基于主動學習的無偏測評方法.100
7.4.1無偏測評原理100
7.4.2無偏測評算法101
7.5實驗.104
7.5.1數據集及評價指標104
7.5.2GAN驅動的半遠程監(jiān)督關系抽取相關實驗105
7.5.3基于主動學習的無偏測評方法相關實驗.109
7.6本章小結115
思考題115
第8章彈幕視頻標簽提取116
8.1概述.116
8.2語義關系圖的構建與圖聚類算法117
8.2.1語義關系圖的構建117
8.2.2基于圖聚類算法的彈幕主題劃分119
8.2.3復雜度分析124
8.3語義權重分析與標簽提取125
8.3.1基于圖迭代算法的評論影響力計算125
8.3.2視頻標簽提取127
8.4實驗.128
8.4.1實驗參數設定與數據集構建128
8.4.2實驗結果133
8.5本章小結138
思考題138
第9章彈幕推薦系統(tǒng)140
9.1概述.140
9.2基于模型的協(xié)同過濾算法141
9.2.1問題描述142
9.2.2基于文本的推薦模型142
9.2.3圖文融合模型144
9.2.4基于羊群效應的注意力機制146
9.3實驗.148
9.3.1實驗參數設定與數據集構建148
9.3.2實驗結果149
9.4本章小結151
思考題151
第10章彈幕劇透檢測153
10.1概述153
10.2問題定義與符號描述.155
10.2.1問題定義155
10.2.2符號描述156
10.3劇透檢測模型156
10.3.1單詞級注意力編碼器157
10.3.2相似度網絡158
10.3.3句子級語義方差注意力機制160
10.3.4數字嵌入方法162
10.4實驗162
10.4.1數據集構建162
10.4.2數據集處理與評價指標163
10.4.3模型性能比較164
10.4.4注意力機制的可視化167
10.5本章小結168
思考題168
第11章總結與展望169
11.1短文關系抽取總結169
11.1.1貢獻和創(chuàng)新點170
11.1.2現有問題討論171
11.2彈幕評論挖掘研究總結172
11.3展望174
思考題176
參考文獻177
彩圖