《信息科学技术学术著作丛书:大数据搜索与挖掘》主要以作者十余年在工业控制网搜索与挖掘领域所作的研究与应用工作为内容,全面介绍我们在工业控制网信息预处理、挖掘(包括:工业控制网络分析、新特征抽取、分类等)、搜索等方面的研究成果,并介绍在工业网,包括中国邮政、中国证监会、四维图新等单位的实际应用案例。专著突出自己的研究成果为主,理论与实践并重,强调技术工程实现与实际应用。
目录
- 序
- 前言
- 第1章绪论
- 1.1大数据
- 1.2云计算及Hadoop简介
- 1.3Web搜索、全文索引与Lucene简介
- 1.3.1Web搜索
- 1.3.2全文索引
- 1.3.3Lucene简介
- 1.4大数据挖掘
- 1.5本书主要内容及其知识点
- 1.6本章小结
- 参考文献
- 第2章大数据搜索挖掘综述
- 2.1常用的信息检索模型
- 2.1.1传统布尔检索与扩展布尔检索模型
- 2.1.2向量空间模型
- 2.1.3概率检索模型
- 2.1.4语言模型
- 2.2自然语言理解与处理概述
- 2.3中文词法分析中的分词处理
- 2.3.1基于词典和规则的汉字分词
- 2.3.2基于大规模语料库的统计学习的分词方法
- 2.3.3规则和统计方法相结合的汉字分词方法
- 2.4未登录词及其识别
- 2.4.1命名实体及其识别
- 2.4.2未登录词与新词识别
- 2.5有意义串及其识别
- 2.6词典组织与管理
- 2.6.1基于Trie索引树的词典管理
- 2.6.2基于哈希表的词典管理
- 2.7文本分类
- 2.8文本聚类
- 2.8.1文本表示
- 2.8.2相似度度量
- 2.8.3聚类算法体系
- 2.9话题识别与跟踪
- 2.10句子及其检索
- 2.10.1传统的文档检索方法
- 2.10.2信息过滤方法
- 2.10.3分类方法
- 2.10.4语义比较方法
- 2.10.5隐马尔可夫模型方法
- 2.10.6自动文摘方法
- 2.11句子级新信息检测
- 2.11.1词重叠度
- 2.11.2区间相关度
- 2.11.3余弦冗余度
- 2.11.4命名实体触发方法
- 2.11.5统计机器翻译模型
- 2.11.6LexRank方法
- 2.12本章小结
- 参考文献
- 第3章大数据检索与分词
- 3.1概述
- 3.2分词对中文信息检索的影响
- 3.3分词精度与检索性能的关系
- 3.4大数据应用环境下中文信息检索的分词算法及其特点
- 3.4.1分词算法的时间性能要求高
- 3.4.2分词正确率的提高并不一定带来检索性能的提高
- 3.4.3分词切分粒度需在查询扩展层面进行相关处理
- 3.4.4未登录词识别的准确率要比召回率更重要
- 3.5基于双数组Trie树优化算法的词典
- 3.5.1双数组Trie树算法介绍及其优化
- 3.5.2利用优化的双数组Trie树算法组织词典
- 3.5.3实验结果与分析
- 3.6本章小结
- 参考文献
- 第4章基于层次隐马尔可夫模型的浅层词法分析
- 4.1概述
- 4.2英文浅层分析的实现
- 4.2.1英文断句与词汇切分
- 4.2.2词性标注
- 4.2.3词干抽取与词形还原。
- 4.3停用词处理与特征词选择
- 4.3.1停用词处理
- 4.3.2特征词选择
- 4.4基于层次隐马尔可夫模型的汉语浅层分析及其应用
- 4.4.1层次隐马尔可夫模型
- 4.4.2基于类的隐马尔可夫分词算法
- 4.4.3N最短路径的切分排歧策略
- 4.4.4未登录词的隐马尔可夫识别方法
- 4.5汉语词法分析系统ICTCLAS性能实验与分析
- 4.5.1词法分析与层次隐马尔可夫模型
- 4.5.2ICTCLAS在973评测中的测试结果
- 4.5.3第一届国际分词大赛的评测结果
- 4.6基于单字位置成词概率识别未登录词的算法
- 4.6.1字的位置成词概率
- 4.6.2局部二元串频统计
- 4.6.3有关未登录词识别的实验结果
- 4.7本章小结
- 参考文献
- 第5章大数据语言新特征发现
- 5.1概述
- 5.2基于上下文邻接分析和语言模型的有意义串提取
- 5.2.1上下文邻接分析
- 5.2.2语言模型分析
- 5.2.3重复串发现及处理流程
- 5.2.4实验设计及结果分析
- 5.3基于局部性原理的低频有意义串提取
- 5.3.1有意义串的局部性
- 5.3.2局部性度量
- 5.3.3算法流程
- 5.3.4实验结果与分析
- 5.4基于伪相关反馈模型的有意义串提取
- 5.4.1算法的基本思想
- 5.4.2相关度的定义
- 5.4.3位置成词概率PWP的更新
- 5.4.4算法流程
- 5.4.5实验结果及分析
- 5.5本章小结
- 参考文献
- 第6章大数据聚类与分类
- 6.1概述
- 6.2基于关键词提取的搜索结果聚类
- 6.2.1相关术语简介
- 6.2.2关键词提取
- 6.2.3基于关键词的检索结果聚类方法
- 6.2.4实验结果及分析
- 6.3基于K—means算法的有意义串主题聚类算法
- 6.4基于邻接串种类的有意义串语境聚类
- 6.5有意义串对分类的改进
- 6.6本章小结
- 参考文献
- ……
- 第7章大数据文本自动摘要
- 第8章JZSearch大数据精准搜索引擎
- 第9章面向大数据的句子检索与新颖性监测
- 第10章人物追踪中的数据预处理与属性抽取
- 第11章人物模型组织与基于事件的信息处理
- 附录AICTCLAS/NLPIR2014汉语分词系统介绍
- 附录BNLPIR大数据搜索与挖掘共享开发平台