【scikit-learn基础】–『预处理』之缺失值处理

数据的预处理是数据分析，或者机器学习训练前的重要步骤。
通过数据预处理，可以

提高数据质量，处理数据的缺失值、异常值和重复值等问题，增加数据的准确性和可靠性
整合不同数据，数据的来源和结构可能多种多样，分析和训练前要整合成一个数据集
提高数据性能，对数据的值进行变换，规约等（比如无量纲化），让算法更加高效

本篇介绍的缺失值处理，是数据预处理中非常重要的一步，因为很多机器学习算法都假设数据是完整的，算法的执行过程中没有考虑缺失值的影响。
所以，为了提高数据质量、改进数据分析结果、提高数据挖掘和机器学习的效果，缺失值处理必不可少。

1. 原理

处理缺失值的手段大致有4类：

删除存在缺失值数据行
填充缺失值
不处理缺失值
用深度学习方法处理

1.1. 删除缺失值数据

删除缺失值是最简单的一种处理方式，不过，在某些情况下，这可能会导致数据的大量丢失。
如果数据丢失过多，可能会改变数据的分布，影响模型的准确性。

所以，只有在缺失值占比很小的情况下，才会考虑使用这种处理方式。
删除缺失值用pandas库的方法即可，比如：

import pandas as pddf = pd.util.testing.makeMissingDataframe()print("删除前: {} 行".format(len(df)))df = df.dropna()print("删除后: {} 行".format(len(df)))# 运行结果删除前: 30 行删除后: 19 行

1.2. 填充缺失值

直接删除存在缺失值的数据行虽然简单，但是在实际应用中，使用的并不多。
实际情况下，使用最多的还是填充缺失值。

scikit-learn库中，填充缺失值的方式主要有：

1.2.1. 均值填充

均值填充就是用缺失值所在列的平均值来填充缺失值。

from sklearn.impute import SimpleImputerdata = np.array([[1, 2, 3], [4, np.nan, 6], [7, 8, np.nan]])print("均值填充前：\n{}".format(data))imp = SimpleImputer(missing_values=np.nan, strategy="mean")data = imp.fit_transform(data)print("均值填充后：\n{}".format(data))# 运行结果均值填充前：[[ 1.  2.  3.] [ 4. nan  6.] [ 7.  8. nan]]均值填充后：[[1.  2.  3. ] [4.  5.  6. ] [7.  8.  4.5]]

填充的5和4.5分别是第二列和第三列的平均值。

1.2.2. 中位数填充

中位数填充就是用缺失值所在列的中位数来填充缺失值。

from sklearn.impute import SimpleImputerdata = np.array([[1, 2, 3], [4, np.nan, 6], [7, 8, np.nan], [10, 11, 12]])print("中位数填充前：\n{}".format(data))imp = SimpleImputer(missing_values=np.nan, strategy="median")data = imp.fit_transform(data)print("中位数填充后：\n{}".format(data))# 运行结果中位数填充前：[[ 1.  2.  3.] [ 4. nan  6.] [ 7.  8. nan] [10. 11. 12.]]中位数填充后：[[ 1.  2.  3.] [ 4.  8.  6.] [ 7.  8.  6.] [10. 11. 12.]]

填充的8和6分别是第二列和第三列的中位数。

1.2.3. 众数填充

众数填充就是用缺失值所在列的众数数来填充缺失值。

from sklearn.impute import SimpleImputerdata = np.array([[1, 2, 3], [4, np.nan, 6], [7, 8, np.nan], [10, 8, 3]])print("众数填充前：\n{}".format(data))imp = SimpleImputer(missing_values=np.nan, strategy="most_frequent")data = imp.fit_transform(data)print("众数填充后：\n{}".format(data))# 运行结果众数填充前：[[ 1.  2.  3.] [ 4. nan  6.] [ 7.  8. nan] [10.  8.  3.]]众数填充后：[[ 1.  2.  3.] [ 4.  8.  6.] [ 7.  8.  3.] [10.  8.  3.]]

填充的8和3分别是第二列和第三列的众数。

1.2.4. 常量填充

常量填充就是用指定的常量来填充缺失值。

from sklearn.impute import SimpleImputerdata = np.array([[1, 2, 3], [4, np.nan, 6], [7, 8, np.nan]])print("常量填充前：\n{}".format(data))imp = SimpleImputer(missing_values=np.nan, fill_value=100, strategy="constant")data = imp.fit_transform(data)print("常量填充后：\n{}".format(data))# 运行结果常量填充前：[[ 1.  2.  3.] [ 4. nan  6.] [ 7.  8. nan]]常量填充后：[[  1.   2.   3.] [  4. 100.   6.] [  7.   8. 100.]]

缺失值用常量100填充了。

1.2.5. 插值填充

插值填充就是使用线性插值或多项式插值等方法，基于已知的数据点估计缺失值。

from sklearn.experimental import enable_iterative_imputerfrom sklearn.impute import IterativeImputerdata = np.array([[1, 2, 3], [4, np.nan, 6], [7, 8, np.nan]])print("插值填充前：\n{}".format(data))imp = IterativeImputer(max_iter=10, random_state=0)data = imp.fit_transform(data)print("插值填充后：\n{}".format(data))# 运行结果插值填充前：[[ 1.  2.  3.] [ 4. nan  6.] [ 7.  8. nan]]插值填充后：[[1.         2.         3.        ] [4.         5.00203075 6.        ] [7.         8.         8.99796726]]

1.2.6. K近邻填充

K近邻填充就是利用K近邻算法，找到与缺失值最近的K个数据点，用它们的值的平均数或中位数来填充缺失值。

from sklearn.impute import KNNImputer  data = np.array([[1, 2, 3], [4, np.nan, 6], [7, 8, np.nan], [10, 11, 12]])print("K近邻填充前：\n{}".format(data))imp = KNNImputer(n_neighbors=2)  data = imp.fit_transform(data)print("K近邻填充后：\n{}".format(data))# 运行结果K近邻填充前：[[ 1.  2.  3.] [ 4. nan  6.] [ 7.  8. nan] [10. 11. 12.]]K近邻填充后：[[ 1.  2.  3.] [ 4.  5.  6.] [ 7.  8.  9.] [10. 11. 12.]]

2. 作用

缺失值处理的主要作用包括：

提高数据完整性和准确性：如果数据中存在缺失值，可能会影响分析的准确性，甚至导致错误的结论。因此，通过填补缺失值，我们可以确保数据的完整性和准确性。
提升数据质量：缺失值可能会降低数据的质量，使得数据分析变得更为困难。通过处理缺失值，我们可以提升数据的质量，使得分析结果更加可靠。
提高算法性能：许多机器学习和数据挖掘算法在处理不完整数据时性能会下降。处理缺失值可以使得这些算法更好地运行，提高其性能。
减少信息丢失：在某些情况下，缺失值可能代表着某些信息的丢失。通过对这些缺失值进行处理，我们可以尽量减少信息丢失的数量。
消除或减少噪声：缺失值的存在可能会引入数据中的噪声，这种噪声可能会对数据分析产生干扰，甚至影响模型的训练效果。通过填补这些缺失值，我们可以消除或减少这种噪声。

3. 总结

在选择处理缺失值的方法时，需要考虑数据的性质、缺失值的比例、数据的分布以及具体的分析任务等因素。
同时，不同的方法可能适用于不同的场景，需要结合具体情况进行选择。

【scikit-learn基础】–『预处理』之缺失值处理

最新关注

热文推荐

228.【2023年华为OD机试真题（C卷）】传递悄悄话（优先搜索（DFS）-Java&Python&C++&JS实现）

SAP集成技术（十一）SAP混合集成平台

架构重构实践心得

C语言用数组名作函数参数

从零实现深度学习框架——再探多层双向RNN的实现

groovy XmlParser 递归遍历 xml 文件，修改并保存

【scikit-learn基础】–『预处理』之 缺失值处理

相关文章

最新关注

热文推荐

【scikit-learn基础】–『预处理』之缺失值处理