Spark 3.0大数据分析与挖掘：基于机器学习

发布时间：2022-11-06 14:00:53 所属栏目：大数据来源：互联网

导读： Spark作为新兴的、应用范围广泛的大数据处理开源框架，吸引了大量的大数据分析与挖掘从业人员进行相关内容的学习与开发，其中ML是Spark 3.0机器学习框架使用的核心。本书用于Spark 3.0 ML大

Spark作为新兴的、应用范围广泛的大数据处理开源框架，吸引了大量的大数据分析与挖掘从业人员进行相关内容的学习与开发，其中ML是Spark 3.0机器学习框架使用的核心。本书用于Spark 3.0 ML大数据分析与挖掘入门，配套示例源码、PPT课件、数据集、思维导图、开发环境和作者答疑服务。

本书共分13章，从Spark 3.0大数据分析概述、基础安装和配置开始，依次介绍ML的DataFrame、ML的基本概念，以及协同过滤、线性回归、分类、决策树与随机森林、聚类、关联规则、数据降维、特征提取和转换等数据处理方法；最后通过经典的鸢尾花分析实例，回顾前面的学习内容，实现了一个完整的数据分析与挖掘过程。

本书采取实例和理论相结合的方式，讲解细致直观，示例丰富，适合Spark 3.0机器学习初学者、大数据分析和挖掘人员，也适合高等院校和培训机构人工智能与大数据相关专业的师生教学参考。

内容简介

Spark作为新兴的、应用范围广泛的大数据处理开源框架，吸引了大量的大数据分析与挖掘从业人员进行相关内容的学习与开发，其中ML是Spark 3.0机器学习框架使用的核心。本书用于Spark 3.0 ML大数据分析与挖掘入门，配套示例源码、PPT课件、数据集、思维导图、开发环境和作者答疑服务。本书共……

前言

Spark在英文中是火花的意思，创作者希望能够像火花一样照亮大数据时代的数据挖掘。大数据时代是一个充满机会和挑战的时代，就像一座未经开发的金山，任何人都有资格去获得其中的宝藏，仅仅需要的就是有一把得心应手的工具——ML。本书目的本书的主要目的是介绍如何使用ML进行数据挖掘。ML是Spark 3.……

第1章 Spark大数据分析概述

当我们每天面对扑面而来的海量数据时，是战斗还是退却，是去挖掘其中蕴含的无限资源，还是让它们自生自灭？我们的答案是：“一切都取决于你自己”。对于海量而庞大的数据来说，在不同人眼里，既可以是一座亟待销毁的垃圾场，也可以是一个埋藏有无限珍宝的金银岛，这一切都取决于操控者的眼界与能力。本书的目的就是希望所有……

第2章 Spark 3.0安装和开发环境配置

本章将介绍Spark的单机版安装方法和开发环境配置。ML是Spark数据处理框架的一个主要组件，其运行必须有Spark的支持。本书以讲解和演示ML原理和示例为主，在安装上将详细介绍基于Intellij IDEA、在Windows 10操作系统上的单机运行环境，这也是Spark机器学习和调试的最常见形……

第3章 DataFrame详解

本章将着重介绍Spark 3.0最重要的核心部分：DataFrame。Spark的运行和计算都慢慢转向围绕DataFrame来进行。DataFrame可以看成一个简单的“数据矩阵（数据框）”或“数据表”，对其进行操作也只需要调用有限的数组方法即可。它与一般“表”的区别在于：DataFrame是分布式……

第4章 ML基本概念

在介绍完Spark基本组成部分与功能后，读者应该能够理解为什么会将Spark比喻成一个运行在分布式存储系统中的数据集合了。从本章开始，我们将接触到Spark机器学习库ML的使用，学习ML的基本数据类型的种类与用法，以及如何组合利用这些基本数据类型进行一些统计量的计算。这些是Spark数据分析和挖掘……

第5章协同过滤算法

本章将介绍本书的第一个ML算法—协同过滤算法。协同过滤算法是最常用的推荐算法，主要有两种具体形式：基于用户的推荐算法和基于物品的推荐算法。本章将介绍这两种算法的原理和实现方法。推荐算法的基础是基于两个对象之间的相关性。第4章已经介绍过欧几里得相似性的计算方法，这是一种使用较多的相似性计算方法。除此……

第6章线性回归理论与实战

回归分析（Regression Analysis）是一种统计分析方法，用来确定两种或两种以上变量间相互依赖的定量关系，运用十分广泛。回归分析可以按以下要素分类：·按照涉及的自变量的多少，分为回归和多重回归分析。·按照自变量的多少，分为一元回归分析和多元回归分析。·按照自变量和因变量之间的关系类……

第7章分类实战

本章开始进入ML算法中的一个新领域—分类算法。分类算法又称为分类器，是数据挖掘和机器学习领域中的一个非常重要的分支和方向。它原本是统计分析中的一个工具，近年来随着统计学应用的广泛推进而得到越来越多的应用。大数据的分类是分类算法的未来应用趋势。目前大数据搜索规则，ML中的分类算法在全部算法中占据了非常重要的部分，……

第8章决策树与随机森林

常用数据分类方法除了上一章介绍的几种方法之外，还有一个比较常用和有效的方法—决策树（Decision Tree, DT），它是一个分类算法的分支，也属于有监督学习中的方法。决策树是一种监管学习。所谓监管学习，就是给定一堆样本，每个样本都有一组属性和一个分类结果，也就是分类结果已知，通过学习这些样本……

第9章聚类

本章将介绍数据挖掘的一个重要分支——聚类。聚类是一种数据挖掘领域中常用的无监督学习算法。ML中聚类的算法目前有4种，其中最常用的是K-means算法，在多个领域中应用较为广泛。高斯混合聚类、快速迭代聚类和隐狄利克雷聚类在特定场合有特定的使用，本章将分别研究它们的算法和应用。本章主要知识点：·聚……

第10章关联规则

本章将介绍数据挖掘中最活跃和使用范围最广的研究方法—关联规则。关联规则是研究不同类型的物品相互之间关联关系的规则，最早是针对沃尔玛超市的购物数据分析诞生的，可以用来指导超市进行购销安排；之后应用于其他领域，例如医学病例的共同特征挖掘以及网络入侵检测等。挖掘频繁项、项集、子序列或其他子结构通常是分析……

第11章数据降维

随着互联网技术与数据收集能力的不断提高，人们借助各种手段和方法获取和存储数据的能力越来越强，这些数据呈现出数据量多、维数高、结构复杂的一些特点。数据降维是伴随大数据技术的蓬勃发展而诞生的一个新兴学科。数据降维又称为维数约简，从名称上看就是降低数据的维数。目前，ML中使用的降维方法主要有两种：奇异值……

第12章特征提取和转换

本章将介绍数据处理的另外一个重要内容—特征提取和转换。与数据降维相同，特征提取和转换也是处理大数据的一种常用方法和手段，其目的是创建新的能够代替原始数据的特征集，更加合理有效地展现数据的重要内容。特征提取指的是由原始数据集在一定算法操作后创建和生成的新的特征集，这种特征集能够较好地反映原始数据集的……

第13章 ML实战演练——鸢尾花分析

本章开始进入激动人心的部分，即ML的实战。如果前面的内容掌握得不好，那么需要你回过头去重新学会。所以，你真的准备好了吗？本章将会介绍若干个采用ML来分析处理数据的实例，主要内容包括：·数据预处理和分析·数据集的回归分析·决策树测试……

（编辑：广州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

元宇宙会存在品牌安全	单张GPU搞定GPT-3超参
社交媒体分析在未来业	智能座舱中的多模语音