《计算机科学丛书:数据集成原理》主要讨论数据集成技术,共分为三部分。第一部分主要关注数据集成领域的基本知识,如查询表达式、数据源描述、异构数据与模式的匹配、模式操作、查询应答、Web数据抽取以及集成数据的存储。第二部分主要关注扩展的数据表示,扩展的数据表示可以获得标准关系数据模型无法表示的一些特性,如层次型(XML)、基于知识表示的本体构建、不确定性以及数据溯源。第三部分介绍解决特定集成问题的创新架构,主要包括多样的Web数据源集成、基于关键字搜索的结构化数据集成、对等数据集成和支持协同的集成等。最后介绍了数据集成技术的主要研究方向。
目录
- 出版者的话
- 中文版序
- 译者序
- 前言
- 第1章 绪论
- 1.1 什么是数据集成
- 1.2 数据集成面临的挑战
- 1.2.1 系统原因
- 1.2.2 逻辑原因
- 1.2.3 社会和管理原因
- 1.2.4 设定预期
- 1.3 数据集成架构
- 1.3.1 数据集成系统的组成部分
- 1.3.2 数据集成实例
- 1.4 全书概览
- 参考文献注释
- 第一部分 数据集成技术基础
- 第2章 查询表达式及运算
- 2.1 数据库概念回顾
- 2.1.1 数据模型
- 2.1.2 完整性约束
- 2.1.3 查询和应答
- 2.1.4 合取查询
- 2.1.5 datalog查询
- 2.2 查询展开
- 2.3 查询包含与等价
- 2.3.1 形式化定义
- 2.3.2 合取查询的包含
- 2.3.3 合取查询的并集
- 2.3.4 带有比较谓词的合取查询
- 2.3.5 带有否定的合取查询
- 2.3.6 包语义、分组和聚集
- 2.4 基于视图计算查询
- 2.4.1 问题定义
- 2.4.2 视图与查询计算的相关性
- 2.4.3 查询重写的可能长度
- 2.4.4 桶算法和MiniCon算法
- 2.4.5 逻辑方法:逆规则算法
- 2.4.6 算法比较
- 2.4.7 基于视图的查询应答
- 参考文献注释
- 第3章 数据源描述
- 3.1 概述和必要条件
- 3.2 模式映射语言
- 3.2.1 模式映射语言规则
- 3.2.2 全局视图
- 3.2.3 局部视图
- 3.2.4 全局-局部视图
- 3.2.5 元组生成依赖
- 3.3 访问模式限制
- 3.3.1 构建访问模式限制
- 3.3.2 生成可执行计划
- 3.4 中介模式上的完整性约束
- 3.4.1 带有完整性约束的LAV
- 3.4.2 带有完整性约束的GAV
- 3.5 结果完备性
- 3.5.1 局部完备性
- 3.5.2 结果完备性检测
- 3.6 数据级的异构性
- 3.6.1 标度差异性
- 3.6.2 相同实体的多重表示
- 参考文献注释
- 第4章 字符串匹配
- 4.1 问题描述
- 4.2 相似度度量
- 4.2.1 基于序列的相似度度量
- 4.2.2 基于集合的相似度度量
- 4.2.3 混合相似度度量
- 4.2.4 语音相似度度量
- 4.3 可扩展的字符串匹配
- 4.3.1 字符串上的倒排索引
- 4.3.2 大小过滤
- 4.3.3 前缀过滤
- 4.3.4 位置过滤
- 4.3.5 边界过滤
- 4.3.6 其他相似度度量方法的可扩展技术
- 参考文献注释
- 第5章 模式匹配与模式映射
- 5.1 问题定义
- 5.1.1 语义映射
- 5.1.2 语义匹配
- 5.1.3 模式匹配与模式映射
- 5.2 模式匹配和模式映射的挑战
- 5.3 匹配和映射系统概述
- 5.3.1 模式匹配系统
- 5.3.2 模式映射系统
- 5.4 匹配器
- 5.4.1 名字匹配器
- 5.4.2 实例匹配器
- 5.5 组合匹配预测
- 5.6 施加域完整性约束
- 5.6.1 域完整性约束
- 5.6.2 搜索匹配组合空间
- 5.7 匹配选择器
- 5.8 匹配重用
- 5.8.1 学习匹配
- 5.8.2 学习器
- 5.8.3 训练元学习器
- 5.9 多对多匹配
- 5.10 由匹配到映射
- 参考文献注释
- 第6章 通用模式操作
- 6.1 模型管理操作
- 6.2 合并操作
- 6.3 模型生成操作
- 6.4 逆映射操作
- 6.5 模型管理系统
- 参考文献注释
- 第7章 数据匹配
- 7.1 问题定义
- 7.2 规则匹配
- 7.3 学习匹配
- 7.4 聚类匹配
- 7.5 概率匹配
- 7.5.1 贝叶斯网络
- 7.5.2 基于朴素贝叶斯的数据匹配
- 7.5.3 特征相关性
- 7.5.4 文本中的实体指代匹配
- 7.6 协同匹配
- 7.6.1 基于聚类的协同匹配
- 7.6.2 协同匹配文档中的实体指代
- 7.7 数据匹配的可扩展性
- 7.7.1 规则匹配扩展
- 7.7.2 其他匹配方法的扩展
- 参考文献注释
- 第8章 查询处理
- 8.1 背景:DBMS查询处理
- 8.1.1 选择查询执行计划
- 8.1.2 执行查询计划
- 8.2 背景:分布式查询处理
- 8.2.1 数据放置和转移
- 8.2.2 两阶段连接
- 8.3 数据集成查询处理
- 8.4 生成初始查询计划
- 8.5 互联网数据的查询执行
- 8.5.1 多线程、流水线、数据流架构
- 8.5.2 有自治数据源的接口
- 8.5.3 故障处理
- 8.6 自适应查询处理
- 8.7 事件驱动自适应策略
- 8.7.1 数据源故障和延迟处理
- 8.7.2 处理流水线操作结束时突发的基数问题
- 8.8 性能驱动的自适应策略
- 8.8.1 Eddy:基于队列的计划选择
- 8.8.2 校正查询处理:基于代价的重新优化
- 参考文献注释
- 第9章 包装器
- 9.1 引言
- 9.1.1 包装器的构建
- 9.1.2 包装器构建面临的挑战
- 9.1.3 构建方法的分类
- 9.2 手动的包装器构建
- 9.3 基于学习的包装器构建
- 9.3.1 HLRT包装器
- 9.3.2 Stalker包装器
- 9.4 无模式的包装器学习
- 9.4.1 建模数据源模式TS和抽取程序EW
- 9.4.2 推导数据模式TS和抽取程序EW
- 9.5 交互的包装器构建
- 9.5.1 使用Stalker交互标记页面
- 9.5.2 使用Poly识别正确的抽取规则
- 9.5.3 用Lixto创建抽取规则
- 参考文献注释
- 第10章 数据仓库与缓存
- 10.1 数据仓库
- 10.1.1 数据仓库设计
- 10.1.2 ETL:抽取/转换/加载
- 10.2 数据交换:描述性仓库
- 10.2.1 数据交换设置
- 10.2.2 数据交换解
- 10.2.3 通用解
- 10.2.4 核心通用解
- 10.2.5 查询物化信息库
- 10.3 缓存及部分物化
- 10.4 本地、外部数据的直接分析
- 参考文献注释
- 第二部分 扩展数据表示集成
- 第11章 XML
- 11.1 数据模型
- 11.2 XML结构和模式定义
- 11.2.1 文档类型定义
- 11.2.2 XML模式
- 11.3 查询语言
- 11.3.1 先驱:DOM和SAX
- 11.3.2 XPath:XML查询原语
- 11.3.3 XQuery:XML查询能力
- 11.4 XML查询处理
- 11.4.1 XML路径匹配
- 11.4.2 XML输出
- 11.4.3 XML查询优化
- 11.5 XML模式映射
- 11.5.1 嵌套映射
- 11.5.2 带嵌套映射的查询重写
- 参考文献注释
- 第12章 本体和知识表示
- 12.1 数据集成中的知识表示举例
- 12.2 描述逻辑
- 12.2.1 描述逻辑的语法
- 12.2.2 描述逻辑的语义
- 12.2.3 描述逻辑的推理
- 12.2.4 描述逻辑和数据库推理的比较
- 12.3 语义Web
- 12.3.1 资源描述框架
- 12.3.2 RDF模式
- 12.3.3 Web本体语言
- 12.3.4 RDF查询:SPARQL语言
- 参考文献注释
- 第13章 不确定性数据集成
- 13.1 不确定性表示
- 13.1.1 概率数据表示
- 13.1.2 从不确定性到概率
- 13.2 不确定模式映射建模
- 13.2.1 概率映射
- 13.2.2 概率映射的语义
- 13.2.3 表语义
- 13.2.4 元组语义
- 13.3 不确定性和数据溯源
- 参考文献注释
- 第14章 数据溯源
- 14.1 溯源的两种表示方法
- 14.1.1 使用数据标注表示溯源
- 14.1.2 使用数据关系图表示溯源
- 14.1.3 两种表示方法的可交换性
- 14.2 数据溯源的应用
- 14.3 溯源半环
- 14.3.1 半环形式化模型
- 14.3.2 半环模型的应用
- 14.4 溯源的存储
- 参考文献注释
- 第三部分 新型集成系统
- 第15章 Web数据集成
- 15.1 Web数据的用途
- 15.2 深层网络
- 15.2.1 垂直搜索
- 15.2.2 深层网络浅层化
- 15.3 主题门户网站
- 15.4 Web数据的轻量级集成
- 15.4.1 发现Web中的结构化数据
- 15.4.2 导入数据
- 15.4.3 合并多个数据集
- 15.4.4 重用他人工作成果
- 15.5 “即付即用”数据管理
- 参考文献注释
- 第16章 关键字搜索:按需集成
- 16.1 结构化数据中的关键字搜索
- 16.1.1 数据图
- 16.1.2 关键字匹配和评分模型
- 16.2 结果排名计算
- 16.2.1 图扩展算法
- 16.2.2 基于阈值的合并
- 16.3 数据集成中的关键字搜索
- 16.3.1 以可扩展的方式自动地构建边
- 16.3.2 可扩展的查询应答
- 16.3.3 通过学习算法调整边和节点的权重
- 参考文献注释
- 第17章 对等数据集成
- 17.1 对等节点和映射
- 17.2 映射的语义
- 17.3 PDMS查询应答的复杂性
- 17.3.1 有环PDMS
- 17.3.2 对等映射中的比较谓词
- 17.4 查询重写算法
- 17.5 组合映射
- 17.6 采用松散映射进行对等数据管理
- 17.6.1 基于相似度的映射
- 17.6.2 映射表
- 参考文献注释
- 第18章 支持协同的集成
- 18.1 协同因何而不同
- 18.2 处理校正和反馈
- 18.2.1 直接向下传播的用户更新
- 18.2.2 回溯传播的反馈或更新
- 18.3 协同标注与表达
- 18.3.1 映射作为标注:轨迹
- 18.3.2 评论和讨论作为标注
- 18.4 动态数据:协同数据共享
- 18.4.1 基本架构
- 18.4.2 映射更新与物化实例
- 18.4.3 冲突协调
- 参考文献注释
- 第19章 数据集成的未来
- 19.1 不确定性、溯源和清理
- 19.2 众包和“人计算”
- 19.3 构建大规模结构化Web数据库
- 19.4 轻量级集成
- 19.5 集成数据可视化
- 19.6 社交媒体集成
- 19.7 基于集群和云的并行处理与缓存
- 参考文献
- 索引