大数据分析与可视化相关概念

发表于 2024-04-28 分类于大数据

在做大数据分析可视化大作业遇到的一些概念和算法。

前置知识

机器学习是人工智能的一个分支，它涉及开发算法和统计模型，使计算机系统能够从数据中学习并做出预测或决策，而无需进行明确的编程

在这种学习中，算法从标记的训练数据中学习，每个训练示例都配有正确的输出标签。算法的目标是学习如何预测新数据的标签。

在无监督学习中，算法处理未标记的数据，尝试找出数据中的模式或结构。常见的无监督学习任务包括聚类和降维。

强化学习是一种让算法通过与环境交互来学习的方法。算法通过执行动作并接收奖励或惩罚来学习，目标是最大化累积奖励。

机器学习的应用非常广泛，包括但不限于图像识别、语音识别、自然语言处理、推荐系统、自动驾驶汽车、游戏玩家、欺诈检测等。

机器学习的核心在于使用数据来改进系统的性能，而不需要人为地编写特定的规则来处理数据。随着数据量的增加和计算能力的提升，机器学习在许多领域变得越来越重要。

决策树是一种直观的决策支持工具，广泛应用于数据分析和机器学习中。它通过树状结构来表示决策过程中的分支选择，每个内部节点代表一个属性测试，每个分支代表一个测试结果，每个叶节点代表最终决策结果。

优点

缺点

交叉验证（Cross-validation），也称为“k折交叉验证”，是一种在机器学习和统计学中用于评估模型泛化能力的方法。它将数据集分成多个子集，每个子集作为一次独立的测试集，而剩余的子集合并作为训练集。这个过程重复进行多次并计算模型的平均性能指标，从而得到模型的评估结果。

数据集划分：将原始数据集随机划分为k个大小相等（或尽可能相等）的子集。
循环训练和测试：进行k次循环，每次循环中：
- 将其中一个子集作为测试集（validation set）。
- 将剩余的k-1个子集合并作为训练集（training set）。
- 使用训练集训练模型。
- 使用测试集评估模型的性能。
计算性能指标：在每次循环中，计算模型的性能指标（如准确率、召回率、F1分数等）。
求平均值：将k次循环中得到的性能指标求平均，得到模型的最终评估结果。

优点

缺点

简单交叉验证：每次只将一个子集作为测试集，其余作为训练集。
留一法交叉验证（Leave-One-Out Cross-Validation, LOOCV）：对于每个数据点，将其作为测试集，其余所有点作为训练集。这种方法适用于数据量较小的情况。
分层交叉验证（Stratified Cross-Validation）：在类别不平衡的情况下，确保每个子集中各类别的比例与原始数据集中的比例相同。
时间序列交叉验证（Time Series Cross-Validation）：对于时间序列数据，按照时间顺序划分子集，以保持数据的时间顺序性。

GridSearchCV 是 scikit-learn 库中的一个函数，用于通过遍历给定的参数网格，使用交叉验证来找到最佳的模型参数。

参数网格定义：首先，你需要定义一个参数字典，其中包含你想要优化的参数以及这些参数的可能值。
交叉验证：GridSearchCV 将使用交叉验证来评估每一组参数。对于参数网格中的每一个参数组合，它将执行以下操作：
- 将数据集分成多个子集（通常是k个子集）。
- 对于每一组参数，使用k-1个子集作为训练集，剩下的1个子集作为验证集。
- 使用训练集上的参数训练模型。
- 使用验证集评估模型的性能。
寻找最佳参数：GridSearchCV 将记录每一组参数的性能，并在所有参数组合中选择平均性能最好的一组参数。
返回最佳模型：最终，GridSearchCV 返回使用最佳参数训练的模型，以及这些最佳参数。

R2 分数，也称为决定系数，是衡量回归模型性能的指标。它基于模型预测值与实际值之间的相关程度。R2 分数的计算公式如下：

𝑅2=1−∑𝑖=1𝑛(𝑦𝑖−𝑦^𝑖)2∑𝑖=1𝑛(𝑦𝑖−𝑦ˉ)2R2=1−∑i=1n(y**i−yˉ)2∑i=1n(y**i−y^i)2

其中：

R2 分数的取值范围从 0 到 1：