《NLTK基础教程》关键介绍怎样根据NLTK库与一些Python库的融合进而完成繁杂的NLP每日任务和深度学习运用。本书共分成10章。第1章对NLP开展了简易介绍。第二章、第三章和第四章关键介绍一些通用性的预处理技术、专归属于NLP行业的预处理技术及其取名实体识别技术等。第五章以后的內容侧重于介绍怎样搭建一些NLP运用,涉及到文本分类、计算机科学和数据处理方法、社交网络发掘和规模性文本挖掘等层面。
目录
- 第1章自然语言处理简介1
- 1.1为什么要学习NLP2
- 1.2先从Python开始吧5
- 1.2.1列表5
- 1.2.2自助功能6
- 1.2.3正则表达式8
- 1.2.4字典9
- 1.2.5编写函数10
- 1.3向NLTK迈进11
- 1.4练习16
- 1.5小结17
- 第2章文本的歧义及其清理18
- 2.1何谓文本歧义18
- 2.2文本清理20
- 2.3语句分离器21
- 2.4标识化处理22
- 2.5词干提取23
- 2.6词形还原24
- 2.7停用词移除25
- 2.8罕见词移除26
- 2.9拼写纠错26
- 2.10练习27
- 2.11小结28
- 第3章词性标注29
- 3.1何谓词性标注29
- 3.1.1Stanford标注器32
- 3.1.2深入了解标注器33
- 3.1.3顺序性标注器35
- 3.1.4Brill标注器37
- 3.1.5基于机器学习的标注器37
- 3.2命名实体识别(NER)38
- 3.3练习40
- 3.4小结41
- 第4章文本结构解析43
- 4.1浅解析与深解析43
- 4.2两种解析方法44
- 4.3为什么需要进行解析44
- 4.4不同的解析器类型46
- 4.4.1递归下降解析器46
- 4.4.2移位—归约解析器46
- 4.4.3图表解析器46
- 4.4.4正则表达式解析器47
- 4.5依存性文本解析48
- 4.6语块分解50
- 4.7信息提取53
- 4.7.1命名实体识别(NER)53
- 4.7.2关系提取54
- 4.8小结55
- 第5章NLP应用56
- 5.1构建第一个NLP应用57
- 5.2其他NLP应用60
- 5.2.1机器翻译60
- 5.2.2统计型机器翻译61
- 5.2.3信息检索62
- 5.2.4语音识别64
- 5.2.5文本分类65
- 5.2.6信息提取66
- 5.2.7问答系统67
- 5.2.8对话系统67
- 5.2.9词义消歧67
- 5.2.10主题建模68
- 5.2.11语言检测68
- 5.2.12光符识别68
- 5.3小结68
- 第6章文本分类70
- 6.1机器学习71
- 6.2文本分类72
- 6.3取样操作74
- 6.3.1朴素贝叶斯法76
- 6.3.2决策树79
- 6.3.3随机梯度下降法80
- 6.3.4逻辑回归81
- 6.3.5支持向量机81
- 6.4随机森林算法83
- 6.5文本聚类83
- 6.6文本中的主题建模84
- 6.7参考资料87
- 6.8小结87
- 第7章Web爬虫88
- 7.1Web爬虫88
- 7.2编写第一个爬虫程序89
- 7.3Scrapy库中的数据流92
- 7.3.1Scrapy库的shell93
- 7.3.2目标项98
- 7.4生成网站地图的蜘蛛程序99
- 7.5目标项管道100
- 7.6参考资料102
- 7.7小结102
- 第8章NLTK与其他Python库的搭配运用104
- 8.1NumPy104
- 8.1.1多维数组105
- 8.1.2基本运算106
- 8.1.3从数组中提取数据107
- 8.1.4复杂矩阵运算108
- 8.2SciPy112
- 8.2.1线性代数113
- 8.2.2特征值与特征向量113
- 8.2.3稀疏矩阵114
- 8.2.4优化措施115
- 8.3pandas117
- 8.3.1读取数据117
- 8.3.2数列119
- 8.3.3列转换121
- 8.3.4噪声数据121
- 8.4matplotlib123
- 8.4.1子图绘制123
- 8.4.2添加坐标轴124
- 8.4.3散点图绘制125
- 8.4.4条形图绘制126
- 8.4.53D绘图126
- 8.5参考资料126
- 8.6小结127
- 第9章Python中的社交媒体挖掘128
- 9.1数据收集128
- 9.2数据提取132
- 9.3地理可视化134
- 9.3.1影响力检测135
- 9.3.2Facebook135
- 9.3.3有影响力的朋友139
- 9.4小结141
- 第10章大规模文本挖掘142
- 10.1在Hadoop上使用Python的不同方式142
- 10.1.1Python的流操作143
- 10.1.2Hive/Pig下的UDF143
- 10.1.3流封装器143
- 10.2Hadoop上的NLTK144
- 10.2.1用户定义函数(UDF)144
- 10.2.2Python的流操作146
- 10.3Hadoop上的Scikit—learn147
- 10.4PySpark150
- 10.5小结153