本书是一本关于大数据搜索引擎原理分析及编程实现的精彩著作。它深入探讨了大数据时代背景下的搜索引擎解决方案,为读者提供了一套完整的技术架构、算法体系及效果评估。本书以模块化的方式进行组织,详尽地介绍了搜索引擎的原理和编程实现。作者对大数据搜索引擎的工作原理进行了深入剖析,使读者能够全面了解搜索引擎的内部机制。本书还提供了一系列实际案例和代码示例,帮助读者从理论到实践,进一步掌握搜索引擎的编程技巧。无论是对初学者还是有一定经验的技术人员来说,本书都是一本值得阅读和参考的权威之作。
大数据搜索引擎原理分析及编程实现 电子书封面
读者评价
提供了一套完整的大数据时代背景下的搜索引擎解决方案,详尽地介绍了搜索引擎的技术架构、算法体系及取得的成果,并以模块化的方式进行组织
看后对搜索引擎处理海量数据有些了解,希望再版能多些编程实现的例子.
大数据是目前时髦的东西,技术高,难得较大,但必须学习、了解到东西。搜索引擎与大数据结合是目前市场要求的。
内容介绍
1、适合对自然语言处理及机器学习应用领域有兴趣的读者。
2、适合对现代搜索引擎相关算法有兴趣的读者。
3、适合对大数据分析、数据挖掘应用有兴趣的读者。
4、适合互联网行业的不同层次从业者。
5、适合从事搜索引擎优化的网络营销读者。
6、适合高校中学习计算机、软件工程等相关专业的读者。
本书向读者提供了一套完整的大数据时代背景下的搜索引擎解决方案,详尽地介绍了搜索引擎的技术架构、算法体系及取得的效果,以模块化的方式进行组织。着重介绍了机器学习在搜索引擎中的应用,包括中文分词、聚类、分类等核心的机器学习算法,并结合示例加以介绍和分析,使读者可以更好地理解机器学习在搜索引擎中的价值。还阐述了大数据给搜索引擎带来的新特性,结合目前大数据分析的主流工具,在搜索引擎中构建知识图谱,以及进行日志反馈学习机制,使得搜索引擎更加智能。本书适合作为互联网行业从业者的技术参考书,也适合作为搜索引擎爱好者的参考读物。
目录
- 第1章 引论 1
- 第2章 搜索引擎原理与技术 12
- 第3章 自然语言处理框架 28
- 第4章 构建大数据存储引擎 88
- 第5章 构建分布式实时计算 104
- 第6章 分布式可扩展爬虫 119
- 第7章 大数据构建知识图谱 154
- 第8章 索引构建机制 190
- 第9章 搜索服务构建 223
- 第10章 基于用户日志的反馈学习 290
对于搜索引擎,我们几乎每天都要用到,这个也是集体智慧算法中最重要的算法之一。其中Google的pagerank算法是引领搜索引擎前进的一大重要算法。当然,这儿学习的是小数据搜索。 1.获取数据,建立索引 这儿用的是sqlite数据库,因为它轻量。没有c/s架构,直接可以用。因为中文的分词也是一门科学,所以这儿用的是英文文档来实现简单的搜索引擎。这儿的网页全部来源于维基百科。 获取数据的过程就是对所有的网页进行抓取,分析,将文章中的单词全部拆分出来,然后建立数据库,将我们需要的信息存放进数据库。这儿涉及了python 网页解析的beautifulsoup模块的使用,就自己理解。关于获取数据这块,自己理解理解就行了。因为我敲完了代码,发现集体智慧编程里面的那个网页已经找不到了。完全没法解析,没法获取数据。不过这个获取数据这个过程挺重要的。
三类书籍 和 两类知识: 书:【1】有一些书是对某一新知识领域的介绍,将此知识领域从头到尾、从内而外剖开了分析,吸收这些知识主要在于“记忆”,(也有“领会”)。【2】而有一些好书,往往整本书就是在阐述一句或几句话,一个或数个思想,这些就是这本书最重要的部分,主要在于“领会”。【3】还有一些书可能就像是工具,例如字典,遇到问题去查就好,主要在“查找”。也有各种类型掺杂的书。这几类书各有其方向、着重点,阅读时方法也不尽相同。 知识:【1】对于各种林林总总的技术,无论是它的安装步骤、使用说明还是其疑难杂症,电子书、在网络中的文章及FAQ中总是会有解决办法;或者技术它存有尚未解决的问题、待修复的BUG,也大部分能在网上找到答案,(不能找到的就等你来发明和创造了,诺贝尔奖就靠你咯!)。上面这些都属于“techknowledge(技术)”的范畴,就像第一类或第三类书,主要在于“记忆”或“查找”。【2】可是,还有一些思想上的、认知上的东西,网上是很难获取的,也很不容易表达清楚,它们应该归类于“Thinking(思想)”,像是第二类书籍,重点在于“领会”。在分享“techknowledge(技术)”的同时,我更希望把这些“Thinking(思想)”分享出来。 以下是我在部署ElasticSearch集群时的经验总结,它们大体属于第一类知识“techknowledge(技术)”。但其中也穿插一些我个人的理解。敬请指正。