当前位置:主页 > 计算机电子书 > 大数据分析 > 大数据分析下载
大数据基础编程、实验和案例教程

大数据基础编程、实验和案例教程 PDF 高质量版

  • 更新:2023-07-12
  • 大小:55.6 MB
  • 类别:大数据分析
  • 作者:林子雨
  • 出版:清华大学出版社
  • 格式:PDF

  • 资源介绍
  • 相关推荐

这本书《大数据基础编程、实验和案例教程》以大数据分析全流程为主线,详细介绍了数据采集、数据存储与管理、数据处理与分析、数据可视化等环节典型软件的安装、使用和基础编程方法。通过丰富的案例实验,读者可以快速掌握大数据编程的基本技能。本书的内容循序渐进,讲解清晰,适合初学者入门学习。书中提供的实战案例也具有一定的参考价值,可以帮助读者更好地理解和应用知识。如果你对大数据和大数据编程感兴趣,那么这本书是一个不错的选择。

大数据基础编程、实验和案例教程

大数据基础编程、实验和案例教程电子书封面

读者评价

林老师的书开了国内高校大数据书籍的先河,个人认为非常不错,配合教材使用,买来看看,做实验能少走弯路,减少调试时间。强烈推荐。就是缺少完整的项目案例,有点遗憾。

本书是搭配林老师写的大数据技术原理与应用的实验书。实验目的与步骤写的清晰明了,关键之处做了总结和说明,适合初学者使用与参考实践

和大数据原理与应用一起买的,这本纸张比前一本好,希望对学习有作用吧!

内容介绍

本书以大数据分析全流程为主线,介绍了数据采集、数据存储与管理、数据处理与分析、数据可视化等环节典型软件的安装、使用和基础编程方法。本书内容涵盖操作系统(Linux和Windows)、开发工具(Eclipse)以及大数据相关技术、软件(Sqoop、Kafka、Flume、Hadoop、HDFS、MapReduce、HBase、Hive、Spark、MySQL、MongoDB、Redis、R、Easel.ly、D3、魔镜、ECharts、Tableau)等。同时,本书还提供了丰富的课程实验和综合案例,以及大量免费的在线教学资源,可以较好地满足高等院校大数据教学实际需求。 本书是《大数据技术原理与应用——概念、存储、处理、分析与应用》的“姊妹篇”,可以作为高等院校计算机、信息管理等相关专业的大数据课程辅助教材,用于指导大数据编程实践;也可供相关技术人员参考。

目录

  • 第1章大数据技术概述/1
  • 1.1大数据时代/1
  • 1.2大数据关键技术/2
  • 1.3大数据软件/3
  • 1.3.1Hadoop/4
  • 1.3.2Spark/5
  • 1.3.3NoSQL数据库/5
  • 1.3.4数据可视化/6
  • 1.4内容安排/7
  • 1.5在线资源/8
  • 1.5.1在线资源一览表/9
  • 1.5.2下载专区/9
  • 1.5.3在线视频/10
  • 1.5.4拓展阅读/11
  • 1.5.5大数据课程公共服务平台/11
  • 1.6本章小结/12第2章Linux系统的安装和使用/13
  • 2.1Linux系统简介/13
  • 2.2Linux系统安装/13
  • 2.2.1下载安装文件/14
  • 2.2.2Linux系统的安装方式/14
  • 2.2.3安装Linux虚拟机/15
  • 2.2.4生成Linux虚拟机镜像文件/36
  • 2.3Linux系统及相关软件的基本使用方法/38
  • 2.3.1Shell/38
  • 2.3.2root用户/38
  • 2.3.3创建普通用户/38〖2〗〖4〗大数据基础编程、实验和案例教程目录〖3〗2.3.4sudo命令/39
  • 2.3.5常用的Linux系统命令/40
  • 2.3.6文件解压缩/40
  • 2.3.7常用的目录/41
  • 2.3.8目录的权限/41
  • 2.3.9更新APT/41
  • 2.3.10切换中英文输入法/43
  • 2.3.11vim编辑器的使用方法/43
  • 2.3.12在Windows系统中使用SSH方式登录Linux系统/44
  • 2.3.13在Linux中安装Eclipse/48
  • 2.3.14其他使用技巧/49
  • 2.4关于本书内容的一些约定/49
  • 2.5本章小结/50第3章Hadoop的安装和使用/51
  • 3.1Hadoop简介/51
  • 3.2安装Hadoop前的准备工作/52
  • 3.2.1创建hadoop用户/52
  • 3.2.2更新APT/52
  • 3.2.3安装SSH/52
  • 3.2.4安装Java环境/53
  • 3.3安装Hadoop/55
  • 3.3.1下载安装文件/55
  • 3.3.2单机模式配置/56
  • 3.3.3伪分布式模式配置/57
  • 3.3.4分布式模式配置/66
  • 3.3.5使用Docker搭建Hadoop分布式集群/75
  • 3.4本章小结/87第4章HDFS操作方法和基础编程/88
  • 4.1HDFS操作常用Shell命令/88
  • 4.1.1查看命令使用方法/88
  • 4.1.2HDFS目录操作/90
  • 4.2利用HDFS的Web管理界面/92
  • 4.3HDFS编程实践/92
  • 4.3.1在Eclipse中创建项目/93
  • 4.3.2为项目添加需要用到的JAR包/94
  • 4.3.3编写Java应用程序/96
  • 4.3.4编译运行程序/98
  • 4.3.5应用程序的部署/100
  • 4.4本章小结/102第5章HBase的安装和基础编程/103
  • 5.1安装HBase/103
  • 5.1.1下载安装文件/103
  • 5.1.2配置环境变量/104
  • 5.1.3添加用户权限/104
  • 5.1.4查看HBase版本信息/104
  • 5.2HBase的配置/105
  • 5.2.1单机模式配置/105
  • 5.2.2伪分布式配置/107
  • 5.3HBase常用Shell命令/109
  • 5.3.1在HBase中创建表/109
  • 5.3.2添加数据/110
  • 5.3.3查看数据/110
  • 5.3.4删除数据/111
  • 5.3.5删除表/112
  • 5.3.6查询历史数据/112
  • 5.3.7退出HBase数据库/112
  • 5.4HBase编程实践/113
  • 5.4.1在Eclipse中创建项目/113
  • 5.4.2为项目添加需要用到的JAR包/116
  • 5.4.3编写Java应用程序/117
  • 5.4.4编译运行程序/123
  • 5.4.5应用程序的部署/124
  • 5.5本章小结/124第6章典型NoSQL数据库的安装和使用/125
  • 6.1Redis安装和使用/125
  • 6.1.1Redis简介/125
  • 6.1.2安装Redis/125
  • 6.1.3Redis实例演示/127
  • 6.2MongoDB的安装和使用/128
  • 6.2.1MongDB简介/129
  • 6.2.2安装MongoDB/129
  • 6.2.3使用Shell命令操作MongoDB/130
  • 6.2.4Java API编程实例/136
  • 6.3本章小结/139第7章MapReduce基础编程/140
  • 7.1词频统计任务要求/140
  • 7.2MapReduce程序编写方法/141
  • 7.2.1编写Map处理逻辑/141
  • 7.2.2编写Reduce处理逻辑/141
  • 7.2.3编写main方法/142
  • 7.2.4完整的词频统计程序/143
  • 7.3编译打包程序/144
  • 7.3.1使用命令行编译打包词频统计程序/145
  • 7.3.2使用Eclipse编译运行词频统计程序/145
  • 7.4运行程序/154
  • 7.5本章小结/156第8章数据仓库Hive的安装和使用/157
  • 8.1Hive的安装/157
  • 8.1.1下载安装文件/157
  • 8.1.2配置环境变量/158
  • 8.1.3修改配置文件/158
  • 8.1.4安装并配置MySQL/159
  • 8.2Hive的数据类型/161
  • 8.3Hive基本操作/162
  • 8.3.1创建数据库、表、视图/162
  • 8.3.2删除数据库、表、视图/163
  • 8.3.3修改数据库、表、视图/164
  • 8.3.4查看数据库、表、视图/165
  • 8.3.5描述数据库、表、视图/165
  • 8.3.6向表中装载数据/166
  • 8.3.7查询表中数据/166
  • 8.3.8向表中插入数据或从表中导出数据/166
  • 8.4Hive应用实例: WordCount/167
  • 8.5Hive编程的优势/167
  • 8.6本章小结/168第9章Spark的安装和基础编程/169
  • 9.1基础环境/169
  • 9.2安装Spark/169
  • 9.2.1下载安装文件/169
  • 9.2.2配置相关文件/170
  • 9.3使用 Spark Shell编写代码/171
  • 9.3.1启动Spark Shell/171
  • 9.3.2读取文件/172
  • 9.3.3编写词频统计程序/174
  • 9.4编写Spark独立应用程序/174
  • 9.4.1用Scala语言编写Spark独立应用程序/175
  • 9.4.2用Java语言编写Spark独立应用程序/178
  • 9.5本章小结/182第10章典型的可视化工具的使用方法/183
  • 10.1Easel.ly信息图制作方法/183
  • 10.1.1信息图/183
  • 10.1.2信息图制作基本步骤/183
  • 10.2D3可视化库的使用方法/186
  • 10.2.1D3可视化库的安装/187
  • 10.2.2基本操作/187
  • 10.3可视化工具Tableau使用方法/194
  • 10.3.1安装Tableau/195
  • 10.3.2界面功能介绍/195
  • 10.3.3Tableau简单操作/197
  • 10.4使用“魔镜”制作图表/202
  • 10.4.1“魔镜”简介/202
  • 10.4.2简单制作实例/202
  • 10.5使用ECharts图表制作/206
  • 10.5.1ECharts简介/206
  • 10.5.2ECharts图表制作方法/206
  • 10.5.3两个实例/210
  • 10.6本章小结/217第11章数据采集工具的安装和使用/218
  • 11.1Flume/218
  • 11.1.1安装Flume/218
  • 11.1.2两个实例/220
  • 11.2Kafka/225
  • 11.2.1Kafka相关概念/225
  • 11.2.2安装Kafka/225
  • 11.2.3一个实例/225
  • 11.3Sqoop/227
  • 11.3.1下载安装文件/227
  • 11.3.2修改配置文件/228
  • 11.3.3配置环境变量/228
  • 11.3.4添加MySQL驱动程序/228
  • 11.3.5测试与MySQL的连接/229
  • 11.4实例: 编写Spark程序使用Kafka数据源/230
  • 11.4.1Kafka准备工作/230
  • 11.4.2Spark准备工作/232
  • 11.4.3编写Spark程序使用Kafka数据源/234
  • 11.5本章小结/239第12章大数据课程综合实验案例/241
  • 12.1案例简介/241
  • 12.1.1案例目的/241
  • 12.1.2适用对象/241
  • 12.1.3时间安排/241
  • 12.1.4预备知识/241
  • 12.1.5硬件要求/242
  • 12.1.6软件工具/242
  • 12.1.7数据集/242
  • 12.1.8案例任务/242
  • 12.2实验环境搭建/243
  • 12.3实验步骤概述/244
  • 12.4本地数据集上传到数据仓库Hive/245
  • 12.4.1实验数据集的下载/245
  • 12.4.2数据集的预处理/246
  • 12.4.3导入数据库/249
  • 12.5Hive数据分析/253
  • 12.5.1简单查询分析/253
  • 12.5.2查询条数统计分析/255
  • 12.5.3关键字条件查询分析/256
  • 12.5.4根据用户行为分析/258
  • 12.5.5用户实时查询分析/259
  • 12.6Hive、MySQL、HBase数据互导/260
  • 12.6.1Hive预操作/260
  • 12.6.2使用Sqoop将数据从Hive导入MySQL/261
  • 12.6.3使用Sqoop将数据从MySQL导入HBase/265
  • 12.6.4使用HBase Java API把数据从本地导入到HBase中/269
  • 12.7利用R进行数据可视化分析/275
  • 12.7.1安装R/275
  • 12.7.2安装依赖库/277
  • 12.7.3可视化分析/278
  • 12.8本章小结/283第13章实验/284
  • 13.1实验一: 熟悉常用的Linux操作和Hadoop操作/284
  • 13.1.1实验目的/284
  • 13.1.2实验平台/284
  • 13.1.3实验步骤/284
  • 13.1.4实验报告/286
  • 13.2实验二: 熟悉常用的HDFS操作/286
  • 13.2.1实验目的/286
  • 13.2.2实验平台/286
  • 13.2.3实验步骤/287
  • 13.2.4实验报告/287
  • 13.3实验三: 熟悉常用的HBase操作/288
  • 13.3.1实验目的/288
  • 13.3.2实验平台/288
  • 13.3.3实验步骤/288
  • 13.3.4实验报告/290
  • 13.4实验四: NoSQL和关系数据库的操作比较/290
  • 13.4.1实验目的/290
  • 13.4.2实验平台/290
  • 13.4.3实验步骤/290
  • 13.4.4实验报告/293
  • 13.5实验五: MapReduce初级编程实践/294
  • 13.5.1实验目的/294
  • 13.5.2实验平台/294
  • 13.5.3实验步骤/294
  • 13.5.4实验报告/297附录A大数据课程实验答案/298
  • A.1实验一: 熟悉常用的Linux操作和Hadoop操作/298
  • A.1.1实验目的/298
  • A.1.2实验平台/298
  • A.1.3实验步骤/298
  • A.2实验二: 熟悉常用的HDFS操作/303
  • A.2.1实验目的/303
  • A.2.2实验平台/303
  • A.2.3实验步骤/303
  • A.3实验三: 熟悉常用的HBase操作/323
  • A.3.1实验目的/323
  • A.3.2实验平台/323
  • A.3.3实验步骤/323
  • A.4实验四: NoSQL和关系数据库的操作比较/331
  • A.4.1实验目的/331
  • A.4.2实验平台/331
  • A.4.3实验步骤/332
  • A.5实验五: MapReduce初级编程实践/349
  • A.5.1实验目的/349
  • A.5.2实验平台/349
  • A.5.3实验步骤/350附录BLinux系统中的MySQL安装及常用操作/360
  • B.1安装MySQL/360
  • B.2MySQL常用操作/363参考文献/367

资源下载

资源下载地址1:https://pan.baidu.com/s/1Uht9UcLkEcXfo2H7Rk0yZA

资源下载地址2:https://pan.quark.cn/s/f6ce557e7c4d

相关资源

网友留言

网友NO.22483
冷子薇

有不少人对于应该如何学习大数据充满了疑惑和顾虑,今天就为大家分享一下陈同学的大数据学习心得,希望能对大家有一些帮助。    现在大数据已经成为IT行业的一块香馍馍了,有很多人开始学习大数据了,我也不例外,我两个多月前开始在科多大数据学习大数据,因为是零基础,所以目前还在学习Java基础,学的时间也不算短了,有些感受想和大家一起分享一下。    学习大数据其实并不是一条很简单的道路,大数据行业不算轻松,但是努力了之后回报很大,但从薪资来说,就能让人很满意。所以一开始还是要做好准备,零基础的朋友不要被网上各种说难的言论吓到,只要你决定开始,跟着课程安排走,一般专业的培训机构课程的设置都是逐步递进的,一旦有什么不懂的就积极的向老师询问,及时把问题解决的,慢慢的你就会发现自己已经掌握了很多知识了,所以说一开始不要有畏难心理。    其次就是要多交流,和老师交流和同学交流,多交流才能更好地了解到自己的不足和欠缺,真的,不要怕丢脸,我们就是因为不懂才去学的,只有把自己的疑惑都提出来了,才能更好地学到知识,要不然什么都一知半解的,最后发现自己什么都没学会,这相当于浪费了自己的时间精力和学费,所以学知识一定要学透,不要怕问。    最后就是多练,选学习机构的时候,一定要看看他们的课程安排里面有没有实战课程,这一点很重要,比如我在科多大数据学的时候,课程中间有老师带着做一些实际的项目,我觉得来参加培训,实践真的比知识更重要,只有这样才能对自己今后要做的工作更清晰。

网友NO.40091
吕小妍

“大数据“,近几年来最火的词之一。虽然大数据这个词的正式产生也就10年左右,但对大数据分析却早就有之。早在互联网初期,就有很多公司通过计算机技术对大量的分析处理,比如各个浏览引擎。然而,大数据的真正提出却是源自2008.09.03 《Nature》专刊的一篇论文,紧接着,产业界也不断跟进,麦肯锡于2011.06 发布麦肯锡全球研究院报告,标志着大数据在产业界的真正兴起,随着白宫发布大数据研发法案,政府开始加入大数据的角逐。

网友NO.32757
许映安

数据培训如火如荼地进行着,想想自己在参加培训之前的犹豫,在加入科多大数据培训班的两个月之后,真心为自己当初的决定感到庆幸。这两个月的时间改变了我很多,刚入学时候的我,多么盼望着早日学成,步入社会迎接各种挑战。可是慢慢的我知道不能急于求成,心急吃不了热豆腐。还记得转折点是在于有一次周考结束后,看着自己的成绩是在是不如人意,正心灰意冷,心想着自己是否不适合这个行业,想要放弃的时候。老师找到我,开导我说像我这种跨行来到科多参加大数据培训的学员比比皆是。像我们这种零基础学员选择大数据,就要一步一步把基础学牢固,不要想着赶快学完,基础学不牢固在以后的学习中很容易就“崩”掉的