文本处理是现阶段互联网内容运用(如百度搜索引擎、强烈推荐模块)的核心技术。这书包含了文本处理定义和技术性的好几个层面,包含文字归一化处理、检索、字符串配对、信息内容提取、取名实体线鉴别、归类、聚类分析法、标识转化成、引言、问与答等。这书的特性取决于根据案例来了解文本处理的这种定义和技术性,用户运用目前的开源系统专用工具就能够自身保持这种案例。
掌控文字的重要是根据OpenNLP清理文字统计数据获取重要信息内容,连同文字內容一块儿储存到Lucene中,根据Lucene本身的查寻工作能力发觉与难题或查寻配对的內容,依据这一基本原理加上点深度学习的全过程,能够保持全自动归类、全自动打标识、简易问答系统。
目录
- 第1章 开始驾驭文本
- 1.1 驾驭文本重要的原因
- 1.2 预览:一个基于事实的问答系统
- 1.2.1 嗨,弗兰肯斯坦医生
- 1.3 理解文本很困难
- 1.4 驾驭的文本
- 1.5 文本及智能应用:搜索及其他
- 1.5.1 搜索和匹配
- 1.5.2 抽取信息
- 1.5.3 对信息分组
- 1.5.4 一个智能应用
- 1.6 小结
- 1.7 相关资源
- 第2章 驾驭文本的基础
- 2.1 语言基础知识
- 2.1.1 词语及其类别
- 2.1.2 短语及子句
- 2.1.3 词法
- 2.2 文本处理常见工具
- 2.2.1 字符串处理工具
- 2.2.2 词条及切词
- 2.2.3 词性标注
- 2.2.4 词干还原
- 2.2.5 句子检测
- 2.2.6 句法分析和文法
- 2.2.7 序列建模
- 2.3 从常见格式文件中抽取内容并做预处理
- 2.3.1 预处理的重要性
- 2.3.2 利用Apache Tika抽取内容
- 2.4 小结
- 2.5 相关资源
- 第3章 搜索
- 3.1 搜索和多面示例:Amazon.com
- 3.2 搜索概念入门
- 3.2.1 索引内容
- 3.2.2 用户输入
- 3.2.3 利用向量空间模型对文档排名
- 3.2.4 结果展示
- ……
- 第4章 模糊字符串匹配
- 第5章 命名实体识别
- 第6章 文本聚类
- 第7章 分类及标注
- 第8章 构建示例问答系统
- 第9章 未驾驭的文本:探索未来前沿