当前位置:主页 > 书籍配套资源 > Python配套资源
《精通Python自然语言处理》配套资源

《精通Python自然语言处理》配套资源

  • 更新:2021-11-09
  • 大小:222.83 KB
  • 类别:Python
  • 作者:[印度]、Deepti、Chopra,
  • 出版:人民邮电出版社
  • 格式:PDF

  • 资源介绍
  • 相关推荐

编辑推荐

自然语言处理(NLP)是有关计算语言学与人工智能的研究领域之一。NLP主要关注人机交互,它提供了计算机和人类之间的无缝交互,使得计算机在机器学习的帮助下理解人类语言。本书详细介绍如何使用Python执行各种自然语言处理(NLP)任务,并帮助读者掌握利用Python设计和构建基于NLP的应用的zui佳实践。本书引导读者应用机器学习工具来开发各种各样的模型。对于训练数据的创建和主要NLP应用的实现,例如命名实体识别、问答系统、语篇分析、词义消歧、信息检索、情感分析、文本摘要以及指代消解等,本书都进行了清晰的介绍。本书有助于读者使用NLTK创建NLP项目并成为相关领域的专家。通过阅读本书,你将能够:● 实现字符串匹配算法以及标准化技术;● 实现统计语言建模技术;● 深刻理解词干提取器、词形还原器、形态分析器以及形态生成器的开发;● 开发搜索引擎并实现词性标注和统计建模(包含n-gram方法)等相关概念;● 熟悉诸如树型库建设、CFG建设、CYK以及Earley线图解析算法等相关概念;● 开发基于NER的系统并理解和应用情感分析的相关概念;● 理解并实现信息检索和文本摘要等相关概念;● 开发语篇分析系统以及基于指代消解的系统。

内容简介

自然语言处理是计算语言学和人工智能之中与人机交互相关的领域之一。 本书是学习自然语言处理的一本综合学习指南,介绍了如何用Python实现各种NLP任务,以帮助读者创建基于真实生活应用的项目。全书共10章,分别涉及字符串操作、统计语言建模、形态学、词性标注、语法解析、语义分析、情感分析、信息检索、语篇分析和NLP系统评估等主题。本书适合熟悉Python语言并对自然语言处理开发有一定了解和兴趣的读者阅读参考。

作者简介

对自然语言处理理论和算法感兴趣的读者,Python程序员对自然语言处理理论和算法感兴趣的读者,Python程序员对自然语言处理理论和算法感兴趣的读者,Python程序员

目录

  • 第1章 字符串操作1
  • 1.1 切分1
  • 1.1.1 将文本切分为语句2
  • 1.1.2 其他语言文本的切分2
  • 1.1.3 将句子切分为单词3
  • 1.1.4 使用TreebankWordTokenizer执行切分4
  • 1.1.5 使用正则表达式实现切分5
  • 1.2 标准化8
  • 1.2.1 消除标点符号8
  • 1.2.2 文本的大小写转换9
  • 1.2.3 处理停止词9
  • 1.2.4 计算英语中的停止词10
  • 1.3 替换和校正标识符11
  • 1.3.1 使用正则表达式替换单词11
  • 1.3.2 用另一个文本替换文本的示例12
  • 1.3.3 在执行切分前先执行替换操作12
  • 1.3.4 处理重复字符13
  • 1.3.5 去除重复字符的示例13
  • 1.3.6 用单词的同义词替换14
  • 1.3.7 用单词的同义词替换的示例15
  • 1.4 在文本上应用Zipf定律15
  • 1.5 相似性度量16
  • 1.5.1 使用编辑距离算法执行相似性度量16
  • 1.5.2 使用Jaccard系数执行相似性度量18
  • 1.5.3 使用Smith Waterman距离算法执行相似性度量19
  • 1.5.4 其他字符串相似性度量19
  • 1.6 小结20
  • 第2章 统计语言建模21
  • 2.1 理解单词频率21
  • 2.1.1 为给定的文本开发MLE25
  • 2.1.2 隐马尔科夫模型估计32
  • 2.2 在MLE模型上应用平滑34
  • 2.2.1 加法平滑34
  • 2.2.2 Good Turing平滑35
  • 2.2.3 Kneser Ney平滑40
  • 2.2.4 Witten Bell平滑41
  • 2.3 为MLE开发一个回退机制41
  • 2.4 应用数据的插值以便获取混合搭配42
  • 2.5 通过复杂度来评估语言模型42
  • 2.6 在语言建模中应用Metropolis-Hastings算法43
  • 2.7 在语言处理中应用Gibbs采样法43
  • 2.8 小结46
  • 第3章 形态学:在实践中学习47
  • 3.1 形态学简介47
  • 3.2 理解词干提取器48
  • 3.3 理解词形还原51
  • 3.4 为非英文语言开发词干提取器52
  • 3.5 形态分析器54
  • 3.6 形态生成器56
  • 3.7 搜索引擎56
  • 3.8 小结61
  • 第4章 词性标注:单词识别62
  • 4.1 词性标注简介62默认标注67
  • 4.2 创建词性标注语料库68
  • 4.3 选择一种机器学习算法70
  • 4.4 涉及n-gram的统计建模72
  • 4.5 使用词性标注语料库开发分块器78
  • 4.6 小结80
  • 第5章 语法解析:分析训练资料81
  • 5.1 语法解析简介81
  • 5.2 Treebank建设82
  • 5.3 从Treebank提取上下文无关文法规则87
  • 5.4 从CFG创建概率上下文无关文法93
  • 5.5 CYK线图解析算法94
  • 5.6 Earley线图解析算法96
  • 5.7 小结102
  • 第6章 语义分析:意义很重要103
  • 6.1 语义分析简介103
  • 6.1.1 NER简介107
  • 6.1.2 使用隐马尔科夫模型的NER系统111
  • 6.1.3 使用机器学习工具包训练NER117
  • 6.1.4 使用词性标注执行NER117
  • 6.2 使用Wordnet生成同义词集id119
  • 6.3 使用Wordnet进行词义消歧122
  • 6.4 小结127
  • 第7章 情感分析:我很快乐128
  • 7.1 情感分析简介128
  • 7.1.1 使用NER执行情感分析134
  • 7.1.2 使用机器学习执行情感分析134
  • 7.1.3 NER系统的评估141
  • 7.2 小结159
  • 第8章 信息检索:访问信息160
  • 8.1 信息检索简介160
  • 8.1.1 停止词删除161
  • 8.1.2 使用向量空间模型进行信息检索163
  • 8.2 向量空间评分及查询操作符关联170
  • 8.3 使用隐性语义索引开发IR系统173
  • 8.4 文本摘要174
  • 8.5 问答系统176
  • 8.6 小结177
  • 第9章 语篇分析:理解才是可信的178
  • 9.1 语篇分析简介178
  • 9.1.1 使用中心理论执行语篇分析183
  • 9.1.2 指代消解184
  • 9.2 小结188
  • 第10章 NLP系统评估:性能分析189
  • 10.1 NLP系统评估要点189
  • 10.1.1 NLP工具的评估(词性标注器、词干提取器及形态分析器)190
  • 10.1.2 使用黄金数据执行解析器评估200
  • 10.2 IR系统的评估201
  • 10.3 错误识别指标202
  • 10.4 基于词汇搭配的指标202
  • 10.5 基于句法匹配的指标207
  • 10.6 使用浅层语义匹配的指标207
  • 10.7 小结208

资源下载

资源下载地址1:https://box.lenovo.com/l/RJJeMB

相关资源

网友留言