《面向大数据的高效能垃圾文本分类》全面介绍了大数据时代垃圾信息的爆发态势和文本特性,并根据信息文档的多域结构特性和文本Token频率分布的幂律特性,提出了多域学习的思想。研究了一整套面向大数据的高效能垃圾文本分类方法。
《面向大数据的高效能垃圾文本分类》共分7章,第1章分析大数据时代垃圾信息态势,第2章概述垃圾信息过滤方法,第3章研究电子邮件文档和手机短信文档的文本特性,第4章研究多域学习总体框架,第5章提出基于Token频率索引的文本分类算法,第6章研究有监督反馈代价问题,第7章设计面向大数据的高效能垃圾文本过滤系统。
《面向大数据的高效能垃圾文本分类》可以作为普通高等院校、科研机构大数据计算技术相关专业高年级本科生或研究生的实验教材,也可供网络信息技术公司高级研究人员参考。
目录
- 第1章 大数据与垃圾信息
- 1.1 大数据时代的垃圾信息
- 1.1.1 大数据和垃圾信息爆发
- 1.1.2 垃圾信息过滤研究项目
- 1.1.3 垃圾信息过滤研究意义
- 1.2 垃圾信息范畴
- 1.2.1 垃圾电子邮件
- 1.2.2 垃圾手机短信
- 1.2.3 广义垃圾信息
- 1.2.4 文本垃圾信息
- 1.3 文本垃圾信息态势
- 1.3.1 国际垃圾邮件态势
- 1.3.2 我国垃圾邮件态势
- 1.3.3 我国垃圾手机短信态势
- 1.4 研究动机与内容
- 1.4.1 科学问题与挑战
- 1.4.2 研究内容与结构
- 1.4.3 研究成果
- 本章小结
- 第2章 垃圾信息过滤方法概述
- 2.1 基于协议的垃圾信息过滤
- 2.1.1 基于SMTP的方法
- 2.1.2 基于IP的方法
- 2.2 基于内容的垃圾信息过滤
- 2.2.1 基于规则的方法
- 2.2.2 基于统计的方法
- 2.2.3 神经网络方法
- 2.2.4 集成学习方法
- 2.3 垃圾信息过滤性能评价方法
- 2.3.1 当前性能评价方法
- 2.3.2 ROC曲线评价方法
- 2.3.3 整体性能评价方法
- 本章小结
- 第3章 信息文档的文本统计特性
- 3.1 信息文档的正文特性
- 3.1.1 电子邮件和手机短信语料
- 3.1.2 正文文本长度特性
- 3.1.3 正文和TokeN重复特性
- 3.2 信息文档的结构特性
- 3.2.1 信息文档格式
- 3.2.2 域间文本特征
- 3.3 Token频率分布的幂律特性
- 3.3.1 幂律
- 3.3.2 邮件文档和邮件域文档
- 3.3.3 短信文档和短信域文档
- 本章小结
- 第4章 面向垃圾信息过滤的多域学习文本分类
- 4.1 问题描述与框架
- 4.1.1 形式化描述
- 4.1.2 多域学习框架
- 4.2 分割策略
- 4.2.1 自然域文档分割策略
- 4.2.2 特定属性域文档分割策略
- 4.3 组合策略
- 4.3.1 均权组合策略
- 4.3.2 支持向量模型权组合策略
- 4.3.3 域分类器历史性能权组合策略I.
- 4.3.4 域文档信息量权组合策略
- 4.3.5 复合权组合策略
- 4.4 实验结果
- 4.4.1 TREC07P上的bogo实验
- 4.4.2 TREC07P上的tftS3F实验
- 4.4.3 CSMS-P上的bogo实验
- 4.4.4 CSMS-P上的tftS3F实验
- 本章小结
- 第5章 面向垃圾信息过滤的时空高效文本分类
- 5.1 基于Token频率索引的文本分类算法
- 5.1.1 统计原理
- 5.1.2 Token频率索引
- 5.1.3 算法描述
- 5.2 算法复杂度分析
- 5.2.1 时间复杂度
- 5.2.2 空间复杂度
- 5.3 基于多类别Token频率索引的文本分类算法
- 5.3.1 Token频率统计特性
- 5.3.2 多类别Token频率索引
- 5.3.3 算法描述
- 5.4 实验结果
- 5.4.1 TREC07P上的ffibtc实验
- 5.4.2 CSMS-P上的ffibtc实验
- 5.4.3 TanCorp-12上的mtfibtc实验
- 本章小结
- 第6章 面向垃圾信息过滤的主动学习文本分类
- 6.1 问题描述与框架
- 6.1.1 形式化描述
- 6.1.2 主动多域学习框架
- 6.2 主动学习策略
- 6.2.1 时序优先主动学习策略
- 6.2.2 先验区间主动学习策略
- 6.2.3 基于方差的非确定采样主动学习策略
- 6.3 实验结果
- 6.3.1 TREC07P上的10000反馈tfibtc.cs5实验
- 6.3.2 TREC07P上的1000反馈ffibtc.cs5实验
- 6.3.3 CSMS-P上的10000反馈tfibtc.cs5实验
- 6.3.4 CSMS-P上的1000反馈tfibtc.cs5实验
- 本章小结
- 第7章 面向大数据的高效能垃圾文本过滤系统
- 7.1 研究结论
- 7.1.1 多域学习框架的有效性
- 7.1.2 NFD和ASFD分割策略的有效性
- 7.1.3 复合权组合策略的最优性
- 7.1.4 基于TFI的文本分类算法的时空高效性
- 7.1.5 基于方差的非确定采样主动学习策略的有效性
- 7.2 高效能垃圾文本过滤系统设计
- 7.2.1 多Cluster垃圾文本过滤系统
- 7.2.2 多语种大数据深度舆情系统
- 7.2.3 个性化垃圾邮件过滤系统
- 本章小结
- 参考文献