文本智能處理作為中文信息處理的關(guān)鍵領(lǐng)域,展現(xiàn)出廣闊前景;Python以其強(qiáng)大的生態(tài)和易用性,已成為主流編程工具。然而,初學(xué)者如何系統(tǒng)掌握Python并將其有效應(yīng)用于文本處理仍面臨著挑戰(zhàn),本書旨在為初學(xué)者提供一條清晰實(shí)用的學(xué)習(xí)路徑。本書面向初學(xué)者,系統(tǒng)梳理了用Python進(jìn)行中文文本智能處理的完整路徑。前4章夯實(shí)語(yǔ)言基礎(chǔ)—數(shù)據(jù)結(jié)構(gòu)、流程控制、正則表達(dá)式與規(guī)范編程范式;第5章及以后深入應(yīng)用—語(yǔ)料庫(kù)構(gòu)建、網(wǎng)絡(luò)爬蟲、數(shù)據(jù)可視化,覆蓋分詞、向量化、相似度、分類聚類、情感分析及深度學(xué)習(xí),配套案例代碼,理實(shí)結(jié)合,快速上手。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
2000.9-2004.6 中南民族大學(xué),漢語(yǔ)言文學(xué)本科
2004.9-2007.6 華中師范大學(xué),攻讀語(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué)專業(yè)碩士研究生
2007.9-2010.6 華中師范大學(xué),攻讀語(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué)專業(yè)博士研究生
2016.9-2017.6 武漢大學(xué)自然語(yǔ)言處理重點(diǎn)實(shí)驗(yàn)室,訪問(wèn)學(xué)者2010.7-2017.7 信陽(yáng)師范學(xué)院
2017.8-至今 四川外國(guó)語(yǔ)大學(xué)教授1. 國(guó)家社科基金青年項(xiàng)目"面向信息處理的漢語(yǔ)復(fù)句句法語(yǔ)義關(guān)系判定研究",負(fù)責(zé)人,課題編號(hào)14CYY035(結(jié)項(xiàng)證號(hào)20202887,本書依托項(xiàng)目);
2. 教育部人文社科研究基金青年項(xiàng)目"漢語(yǔ)有標(biāo)復(fù)句層次關(guān)系自動(dòng)識(shí)別研究",負(fù)責(zé)人,編號(hào)12YJC740110(結(jié)項(xiàng)證號(hào)2016JXZ3190)
教育部學(xué)位中心評(píng)審專家
目錄
第1章 緒論 1
1.1 NLP概述 1
1.2 NLP基本流程 5
1.3 NLP的編程環(huán)境搭建 7
第2章 Python編程的數(shù)據(jù)結(jié)構(gòu) 16
2.1 數(shù)字 16
2.2 字符串 19
2.3 列表 24
2.4 元組 29
2.5 集合 31
2.6 字典 33
2.7 數(shù)據(jù)類型轉(zhuǎn)換 37
第3章 程序語(yǔ)句結(jié)構(gòu) 40
3.1 順序結(jié)構(gòu) 40
3.2 分支結(jié)構(gòu) 41
3.3 循環(huán)結(jié)構(gòu) 44
3.4 其他語(yǔ)句結(jié)構(gòu) 48
3.5 綜合應(yīng)用案例 53
第4章 正則表達(dá)式 56
4.1 初識(shí)正則表達(dá)式 56
4.2 正則表達(dá)式函數(shù) 56
4.3 正則表達(dá)式的元字符 62
4.4 正則表達(dá)式的應(yīng)用 66
第5章 文本詞匯層面的處理(上) 71
5.1 中文分詞簡(jiǎn)介 71
5.2 中文分詞的主要方法 72
5.3 中文分詞工具jieba 77
5.4 文本詞性標(biāo)注 81
5.5 本章小結(jié) 84
第6章 文本詞匯層面的處理(下) 87
6.1 文本關(guān)鍵詞提取 87
6.2 命名實(shí)體識(shí)別 93
6.3 任務(wù):中文命名實(shí)體識(shí)別 95
6.4 文本語(yǔ)義角色標(biāo)記 102
第7章 圖形繪制與詞云圖的生成 111
7.1 Matplotlib與圖形繪制 111
7.2 詞云圖的生成 114
7.3 利用詞頻數(shù)據(jù)生成詞云圖 118
7.4 本章小結(jié) 121
第8章 文本向量化和文本語(yǔ)義相似度 126
8.1 文本向量化的概念 126
8.2 文本離散表示 126
8.3 文本分布式表示 138
8.4 文本語(yǔ)義相似度計(jì)算 141
第9章 文本分類與文本聚類 152
9.1 文本挖掘 152
9.2 文本分類常用算法 154
9.3 文本聚類常用算法 161
9.4 文本分類與文本聚類的步驟 171
9.5 任務(wù):垃圾短信分類 172
9.6 任務(wù):新聞文本聚類 175
9.7 本章小結(jié) 179
第10章 文本情感分析 182
10.1 文本情感分析簡(jiǎn)介 182
10.2 情感分析的常用方法 183
10.3 常用的情感分類模型 192
10.4 任務(wù):基于情感詞典的情感分析 197
第11章 爬蟲技術(shù) 201
11.1 網(wǎng)絡(luò)爬蟲簡(jiǎn)介 201
11.2 運(yùn)用正則表達(dá)式爬取網(wǎng)頁(yè)數(shù)據(jù) 205
11.3 運(yùn)用XPath爬取網(wǎng)絡(luò)小說(shuō) 208
11.4 運(yùn)用bs4爬取網(wǎng)頁(yè)數(shù)據(jù) 214
11.5 動(dòng)態(tài)網(wǎng)頁(yè)數(shù)據(jù)獲取 217
第12章 NLP中的深度學(xué)習(xí)技術(shù) 227
12.1 前饋神經(jīng)網(wǎng)絡(luò) 227
12.2 循環(huán)神經(jīng)網(wǎng)絡(luò) 230
12.3 LSTM網(wǎng)絡(luò) 232
12.4 深度學(xué)習(xí)工具 234
12.5 基于LSTM網(wǎng)絡(luò)的文本分類與文本情感分析 237
第13章 語(yǔ)料庫(kù)的構(gòu)建與應(yīng)用 255
13.1 語(yǔ)料庫(kù)的概念 255
13.2 語(yǔ)料庫(kù)的種類與構(gòu)建原則 256
13.3 NLTK及其常用功能 259
13.4 語(yǔ)料庫(kù)資源的獲取 264
13.5 任務(wù):語(yǔ)料庫(kù)的構(gòu)建與使用 265
附錄 NLTK詞性標(biāo)注對(duì)照表 270
后記 272