本書的特色有三:
● 一是聚焦于語料庫(kù)。所有的代碼、代碼段或代碼塊均圍繞語料庫(kù)這一主題展開,所處理的對(duì)象是語料庫(kù)研究過程需要面對(duì)的各種相關(guān)問題。
● 二是語言 技術(shù) 法律三位一體。這意味著案例的解釋都包含了三方面的要素,而非從純粹的技術(shù)角度出發(fā)。所選擇的語料也多是法律文本,目的是為了呈現(xiàn)法律文本的語篇特征,即以法律文本通過技術(shù)研究獲取其語言學(xué)方面的特征信息。
● 三是深入淺出,易學(xué)易用。本書強(qiáng)調(diào)編程并非是工科專業(yè)的專利,文科生同樣可以學(xué)會(huì)編程,而且能夠編寫出更為細(xì)膩、更利于語言學(xué)處理的代碼。再者,閱讀本書至少可習(xí)得一種能力即讀懂代碼的能力,就像學(xué)會(huì)一門自然語言一樣。
第1章 緒論
1.1 語料庫(kù)與Python
1.1.1 語料庫(kù)的若干維度
1.1.2 語料庫(kù)的技術(shù)實(shí)現(xiàn)
1.2 本書概要
上篇 語料文本的基礎(chǔ)性代碼
第2章 語料文本的讀取及其運(yùn)行結(jié)果的輸出
2.1 概述
2.2 語料文本的讀取
2.2.1 讀取NLTK固有語料庫(kù)
2.2.2 讀取自制語料庫(kù)
2.2.3 讀取非獨(dú)立存儲(chǔ)的語料文本
2.2.4 讀取docx格式的語料文本
2.2.5 讀取xlsx格式的語料文本
2.3 語料文本運(yùn)行結(jié)果的輸出
2.3.1 操作界面直接輸出結(jié)果
2.3.2 輸出txt文件格式
2.3.3 輸出xlsx文件格式
2.4 中文語料文本的讀取和結(jié)果輸出
2.4.1 自制語料庫(kù)
2.4.2 非獨(dú)立存儲(chǔ)的語料文本
第3章 語料庫(kù)應(yīng)用的基礎(chǔ)性代碼
3.1 概述
3.2 停用詞的使用
3.2.1 不同語種的停用詞
3.2.2 自有停用詞的設(shè)置
3.3 文本降噪代碼
3.3.1 具體代碼的功用
3.3.2 組合使用代碼的功用
3.3.3 降噪與文本計(jì)數(shù)
3.4 語料文本的語言學(xué)處理代碼
3.4.1 字母大小寫轉(zhuǎn)換
3.4.2 詞形還原
3.4.3 文本分句或分詞
3.4.4 詞性標(biāo)注
3.5 語料庫(kù)詞頻排序
3.5.1 簡(jiǎn)單詞頻排序
3.5.2 降噪處理后詞頻排序
3.5.3 清除停用詞后排序
3.6 語料庫(kù)檢索與統(tǒng)計(jì)
3.6.1 上下文關(guān)鍵詞檢索
3.6.2 類符形符比
3.6.3 N連詞提取
3.6.4 指定詞檢索與統(tǒng)計(jì)
3.7 中文語料文本的處理方法
3.7.1 上下文關(guān)鍵詞檢索
3.7.2 中文停用詞
第4章 數(shù)據(jù)可視化
4.1 概述
4.2 表格繪制
4.3 圖形繪制
4.3.1 詞頻圖形繪制
4.3.2 柱狀圖和點(diǎn)狀圖繪制
4.4 詞云圖繪制
4.4.1 英文文本詞云圖
4.4.2 中文文本詞云圖
第5章 代碼運(yùn)行錯(cuò)誤分析
5.1 概述
5.2 錯(cuò)誤分析案例
5.2.1 輸入輸出錯(cuò)誤(IOError)
5.2.2 對(duì)象屬性錯(cuò)誤(AttributeError)
5.2.3 數(shù)據(jù)類型錯(cuò)誤(TypeError)
5.2.4 變量名稱錯(cuò)誤(NameError)
5.2.5 索引錯(cuò)誤(IndexError)
5.2.6 縮進(jìn)錯(cuò)誤(IndentationError)
5.2.7 參數(shù)類型錯(cuò)誤(ValueError)
5.2.8 語法錯(cuò)誤(SyntaxError)
5.2.9 Unicode解碼錯(cuò)誤(UnicodeDecodeError)
5.2.10 關(guān)鍵字錯(cuò)誤(KeyError)
中篇 基礎(chǔ)性代碼的組合使用
第6章 算法、代碼與編程
6.1 篇章結(jié)構(gòu)
6.2 算法和代碼
6.2.1 算法
6.2.2 代碼
6.3 選擇不同代碼的影響
6.3.1 分詞處理方式對(duì)后續(xù)文本分析的影響
6.3.2 不同的降噪效果
6.3.3 鏈表、字符串、元組和字典對(duì)比
6.3.4 停用詞的功用
6.4 Python與既有語料庫(kù)工具的關(guān)系
第7章 基礎(chǔ)性代碼的語料庫(kù)組合應(yīng)用
7.1 以Excel文件格式輸出術(shù)語(類符)
7.1.1 簡(jiǎn)單輸出術(shù)語
7.1.2 按詞頻輸出術(shù)語
7.2 以Excel文件格式輸出表格
7.3 語篇詞匯密度的計(jì)算
7.4 語篇詞匯復(fù)雜性的計(jì)算
7.5 語篇詞長(zhǎng)分布的計(jì)算
7.6 NLTK固有語料庫(kù)
7.6.1 總統(tǒng)就職演說語料庫(kù)
7.6.2 華爾街雜志語料庫(kù)
7.6.3 其他相關(guān)語料庫(kù)介紹
下篇 Python探索路徑
第8章 Python的語料庫(kù)拓展應(yīng)用
8.1 概述
8.2 單語語料導(dǎo)入Excel工作簿
8.3 KWIC檢索功能的拓展
8.4 語篇詞形還原
8.5 術(shù)語提取效果的改進(jìn)
8.6 語篇段落對(duì)齊
8.7 應(yīng)用語言學(xué)文獻(xiàn)計(jì)量研究的數(shù)據(jù)提取
8.8 專業(yè)通用詞的提取路徑探索
附錄1 與本書相關(guān)的加載模塊與函數(shù)命令對(duì)應(yīng)表
附錄2 Python2 和Python3部分代碼對(duì)比
附錄3 部分NLTK固有語料庫(kù)
附錄4 漢英對(duì)照術(shù)語表
索引