当前位置:主页 > 计算机电子书 > 人工智能 > NLP技术下载
文本上的算法:深入浅出自然语言处理

文本上的算法:深入浅出自然语言处理 PDF 清晰完整版

  • 更新:2023-07-24
  • 大小:76.2 MB
  • 类别:NLP技术
  • 作者:路彦雄
  • 出版:人民邮电出版社
  • 格式:PDF

  • 资源介绍
  • 相关推荐

《文本上的算法:深入浅出自然语言处理》是一本深入浅出的自然语言处理(NLP)技术入门教程。本书采用生动形象的方式,以深度学习技术为主题,详细讲解了NLP的理论、方法和技术。这本书广受读者好评,因其清晰易懂的解释和详细的示例而受到读者的喜爱,使读者能够更好地了解和应用NLP技术。无论是初学者还是有经验的开发者,都能从这本书中获得知识和启发,对NLP技术有更深入的理解。

文本上的算法:深入浅出自然语言处理

文本上的算法:深入浅出自然语言处理电子书封面

读者评价

看了前2章,如果相关的知识点懂的话,这本书是一个很好的梳理和总结,如果不懂的话呢,那就要去看“更原理性”的其他书了。与周志华的《机器学习》和《统计学习方法》这样的书比起来呢,本书不是通过公式讲算法/模型的原理,而是讲大概的流程及具体的实际应用示例,毕竟这本书不厚,哈哈。
同行衬托,阿里的几个工程师也出了一套书,至少文风上,腾讯的nlp系列略胜一筹。
概要总结。不适合入门,适合有实际经验的阅读。不够深入

内容介绍

本书结合作者多年学习和从事自然语言处理相关工作的经验,力图用生动形象的方式深入浅出地介绍自然语言处理的理论、方法和技术。本书抛弃掉繁琐的证明,提取出算法的核心,帮助读者尽快地掌握自然语言处理所必备的知识和技能。本书主要分两大部分。第一部分是理论篇,包含前3章内容,主要介绍一些基础的数学知识、优化理论知识和一些机器学习的相关知识。第二部分是应用篇,包含第4章到第8章,分别针对计算性能、文本处理的术语、相似度计算、搜索引擎、推荐系统、自然语言处理和对话系统等主题展开介绍和讨论。本书适合从事自然语言处理相关研究和工作的读者参考,尤其适合想要了解和掌握机器学习或者自然语言处理技术的读者阅读。

目录

  • 理 论 篇
  • 第 1章 你必须知道的一些基础知识3
  • 1.1 概率论 3
  • 1.2 信息论 4
  • 1.3 贝叶斯法则 7
  • 1.4 问题与思考 10
  • 第 2章 我们生活在一个寻求*优解的世界里11
  • 2.1 *优化问题 11
  • 2.2 *大似然估计 *大后验估计 15
  • 2.3 梯度下降法 17
  • 2.4 问题与思考 22
  • 第3章 让机器可以像人一样学习23
  • 3.1 何谓机器学习 23
  • 3.2 逻辑回归 因子分解机 29
  • 3.3 *大熵模型 条件随机场 34
  • 3.4 主题模型 40
  • 3.5 深度学习 50
  • 3.6 其他模型 88
  • 3.7 问题与思考 97
  • 应 用 篇
  • 第4章 如何计算得更快101
  • 4.1 程序优化 101
  • 4.2 分布式系统 105
  • 4.3 Hadoop 107
  • 4.4 问题与思考 114
  • 第5章 你要知道的一些术语115
  • 5.1 tf df idf 115
  • 5.2 IG CHI MI 116
  • 5.3 PageRank 118
  • 5.4 相似度计算 119
  • 5.5 问题与思考 125
  • 第6章 搜索引擎是什么玩意儿126
  • 6.1 搜索引擎原理 126
  • 6.2 搜索引擎架构 129
  • 6.3 搜索引擎核心模块 130
  • 6.4 搜索广告 148
  • 6.5 问题与思考 153
  • 第7章 如何让机器猜得更准155
  • 7.1 基于协同过滤的推荐算法 156
  • 7.2 基于内容的推荐算法 158
  • 7.3 混合推荐算法 159
  • 7.4 问题与思考 163
  • 第8章 理解语言有多难164
  • 8.1 自然语言处理 164
  • 8.2 对话系统 176
  • 8.3 语言的特殊性 186
  • 8.4 问题与思考 190
  • 结语191
  • 参考文献193

资源下载

资源下载地址1:https://pan.baidu.com/s/1yUwnHEz5WD6k8nLTgaAwHA

相关资源

网友留言

网友NO.40150
焦曼妮

网格算法 基于网格的方法(grid-based methods),这种方法首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。 代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法; 模型算法 基于模型的方法(model-based methods),基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。 通常有两种尝试方向:统计的方案和神经网络的方案。

网友NO.45805
贡千城

密度算法 基于密度的方法(density-based methods),基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。 这个方法的指导思想就是,只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中去。 代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等; 2014年,基于密度的算法,science上发表的一篇新的算法:clustering by fast search and find of density 图论聚类法 图论聚类方法解决的第一步是建立与问题相适应的图,图的节点对应于被分析数据的最小单元,图的边(或弧)对应于最小处理单元数据之间的相似性度量。因此,每一个最小处理单元数据之间都会有一个度量表达,这就确保了数据的局部特性比较易于处理。图论聚类法是以样本数据的局域连接特征作为聚类的主要信息源,因而其主要优点是易于处理局部数据的特性。

网友NO.31173
黎茂学

聚类概念 聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。 算法用途 在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且,聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。 聚类分析的算法可以分为划分法(Partitioning Methods)、层次法(Hierarchical Methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的方法(Model-Based Methods)。