当前位置:主页 > 书籍配套资源 > NLTK配套资源
《NLTK基础教程:用NLTK和Python库构建机器学习应用》配套资源

《NLTK基础教程:用NLTK和Python库构建机器学习应用》配套资源

  • 更新:2021-11-09
  • 大小:26.71 KB
  • 类别:NLTK
  • 作者:Nitin,Hardeniya,哈登尼亚
  • 出版:人民邮电出版社
  • 格式:PDF

  • 资源介绍
  • 相关推荐

编辑推荐

自然语言处理(NLP)属于人工智能与计算机语言学的交叉领域,处理的是计算机与人类语言之间的交互问题。随着人机交互需求的日益增长,计算机具备处理当前主要自然语言的能力已经成为了一个必然趋势。NLTK正是这一领域中一个强大而稳健的工具包。
在这本书中,我们首先会介绍一些与NLP相关的知识。然后,我们会探讨一些与数据科学相关的任务,通过这些任务来学习如何从零开始构建自定义的标识器和解析器。在此过程中,我们将会深度探索NLP领域的基本概念,为这一领域各种开源的Python工具和库提供具有实践意义的见解。接下来,我们将会介绍如何分析社交媒体网站,发现热门话题,进行舆情分析。zui后,我们还会介绍一些用于处理大规模文本的工具。
在阅读完本书之后,您将会对NLP与数据科学领域中的概念有一个充分的了解,并能将这些知识应用到日常工作中。
如果您是NLP或机器学习相关领域的爱好者,并有一些文本处理的经验,那么本书就是为你量身定做的。此外,这本书也是专业Python程序员快速学习NLTK库的理想选择。

通过本书,你将学会:
■ 了解自然语言的复杂性以及机器对它们的处理方式。
■ 如何利用标识化处理手段清理文本歧义,并利用分块操作更好地处理数据。
■ 探索不同标签类型的作用,并学习如何将句子标签化。
■ 如何根据自己的需要来创建自定义的解析器和标识器。
■ 如何构建出具有拼写检查、搜索、机器翻译以及问答系统等功能的实用程序。
■ 如何通过信息爬取与捕获的手段对相关数据内容进行检索。
■ 如何通过特性的提取与选取,构建出针对不同文本的分类系统。
■ 如何使用各种第三方Python库,如pandas、scikit-learn、matplotlib、gensim。
■ 如何对社交媒体网站进行分析,包括发掘热门话题、舆情分析等。

内容简介

NLTK 库是当前自然语言处理(NLP)领域zui为流行、使用zui为广泛的库之一, 同时Python语言经过一段时间的发展也已逐渐成为主流的编程语言之一。
本书主要介绍如何通过NLTK库与一些Python库的结合从而实现复杂的NLP任务和机器学习应用。全书共分为10章。第1章对NLP进行了简单介绍。第2章、第3章和第4章主要介绍一些通用的预处理技术、专属于NLP领域的预处理技术以及命名实体识别技术等。第5章之后的内容侧重于介绍如何构建一些NLP应用,涉及文本分类、数据科学和数据处理、社交媒体挖掘和大规模文本挖掘等方面。
本书适合 NLP 和机器学习领域的爱好者、对文本处理感兴趣的读者、想要快速学习NLTK的zishenPython程序员以及机器学习领域的研究人员阅读。

作者简介

NitiHardeniya 数据科学家,拥有4年以上从业经验,期间分别任职于Fidelity、Groupon和[24]7等公司,其业务横跨各个不同的领域。此外,他还拥有IIIT-H的计算语言学硕士学位,并且是5项客户体验专利的作者。

目录

  • 第1章 自然语言处理简介t1
  • 1.1 为什么要学习NLPt2
  • 1.2 先从Python开始吧t5
  • 1.2.1 列表t5
  • 1.2.2 自助功能t6
  • 1.2.3 正则表达式t8
  • 1.2.4 字典t9
  • 1.2.5 编写函数t10
  • 1.3 向NLTK迈进t11
  • 1.4 练习t16
  • 1.5 小结t17
  • 第2章 文本的歧义及其清理t18
  • 2.1 何谓文本歧义t18
  • 2.2 文本清理t20
  • 2.3 语句分离器t21
  • 2.4 标识化处理t22
  • 2.5 词干提取t23
  • 2.6 词形还原t24
  • 2.7 停用词移除t25
  • 2.8 罕见词移除t26
  • 2.9 拼写纠错t26
  • 2.10 练习t27
  • 2.11 小结t28
  • 第3章 词性标注t29
  • 3.1 何谓词性标注t29
  • 3.1.1 Stanford标注器t32
  • 3.1.2 深入了解标注器t33
  • 3.1.3 顺序性标注器t35
  • 3.1.4 Brill标注器t37
  • 3.1.5 基于机器学习的标注器t37
  • 3.2 命名实体识别(NER)t38
  • 3.3 练习t40
  • 3.4 小结t41
  • 第4章 文本结构解析t43
  • 4.1 浅解析与深解析t43
  • 4.2 两种解析方法t44
  • 4.3 为什么需要进行解析t44
  • 4.4 不同的解析器类型t46
  • 4.4.1 递归下降解析器t46
  • 4.4.2 移位-归约解析器t46
  • 4.4.3 图表解析器t46
  • 4.4.4 正则表达式解析器t47
  • 4.5 依存性文本解析t48
  • 4.6 语块分解t50
  • 4.7 信息提取t53
  • 4.7.1 命名实体识别(NER)t53
  • 4.7.2 关系提取t54
  • 4.8 小结t55
  • 第5章 NLP应用t56
  • 5.1 构建第一个NLP应用t57
  • 5.2 其他NLP应用t60
  • 5.2.1 机器翻译t60
  • 5.2.2 统计型机器翻译t61
  • 5.2.3 信息检索t62
  • 5.2.4 语音识别t64
  • 5.2.5 文本分类t65
  • 5.2.6 信息提取t66
  • 5.2.7 问答系统t67
  • 5.2.8 对话系统t67
  • 5.2.9 词义消歧t67
  • 5.2.10 主题建模t68
  • 5.2.11 语言检测t68
  • 5.2.12 光符识别t68
  • 5.3 小结t68
  • 第6章 文本分类t70
  • 6.1 机器学习t71
  • 6.2 文本分类t72
  • 6.3 取样操作t74
  • 6.3.1 朴素贝叶斯法t76
  • 6.3.2 决策树t79
  • 6.3.3 随机梯度下降法t80
  • 6.3.4 逻辑回归t81
  • 6.3.5 支持向量机t81
  • 6.4 随机森林算法t83
  • 6.5 文本聚类t83
  • 6.6 文本中的主题建模t84
  • 6.7 参考资料t87
  • 6.8 小结t87
  • 第7章 Web爬虫t88
  • 7.1 Web爬虫t88
  • 7.2 编写第一个爬虫程序t89
  • 7.3 Scrapy库中的数据流t92
  • 7.3.1 Scrapy库的shellt93
  • 7.3.2 目标项t98
  • 7.4 生成网站地图的蜘蛛程序t99
  • 7.5 目标项管道t100
  • 7.6 参考资料t102
  • 7.7 小结t102
  • 第8章 NLTK与其他Python库的搭配运用t104
  • 8.1 NumPyt104
  • 8.1.1 多维数组t105
  • 8.1.2 基本运算t106
  • 8.1.3 从数组中提取数据t107
  • 8.1.4 复杂矩阵运算t108
  • 8.2 SciPyt112
  • 8.2.1 线性代数t113
  • 8.2.2 特征值与特征向量t113
  • 8.2.3 稀疏矩阵t114
  • 8.2.4 优化措施t115
  • 8.3 pandast117
  • 8.3.1 读取数据t117
  • 8.3.2 数列t119
  • 8.3.3 列转换t121
  • 8.3.4 噪声数据t121
  • 8.4 matplotlibt123
  • 8.4.1 子图绘制t123
  • 8.4.2 添加坐标轴t124
  • 8.4.3 散点图绘制t125
  • 8.4.4 条形图绘制t126
  • 8.4.5 3D绘图t126
  • 8.5 参考资料t126
  • 8.6 小结t127
  • 第9章 Python中的社交媒体挖掘t128
  • 9.1 数据收集t128
  • 9.2 数据提取t132
  • 9.3 地理可视化t134
  • 9.3.1 影响力检测t135
  • 9.3.2 Facebookt135
  • 9.3.3 有影响力的朋友t139
  • 9.4 小结t141
  • 第10章 大规模文本挖掘t142
  • 10.1 在Hadoop上使用Python的不同方式t142
  • 10.1.1 Python的流操作t143
  • 10.1.2 Hive/Pig下的UDFt143
  • 10.1.3 流封装器t143
  • 10.2 Hadoop上的NLTKt144
  • 10.2.1 用户定义函数(UDF)t144
  • 10.2.2 Python的流操作t146
  • 10.3 Hadoop上的Scikit-learnt147
  • 10.4 PySparkt150
  • 10.5 小结t153

资源下载

资源下载地址1:https://box.lenovo.com/l/103BBI

相关资源

网友留言