
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
数据处理是数据分析前需要进行的一个基本环节。今天我们来看看数据处理中包含了什么。我希望通过阅读本文,您将对数据处理有一个更好的理解。
数据预处理的主要内容包括:
数据清理
数据集成
数据转换
数据协议
数据清理主要是删除无关数据、重复数据、平滑噪声数据、过滤出与建模目的无关的数据、处理缺失值和异常值。
缺失值处理
除了明显的缺失值(单元格中没有值)外,还有一个不可见的缺失值。例如,如果要分析一个人从2018年初到现在的月收入,则添加一个根本没有收入的月份,此情况将不会显示在帐单管道中。如果要处理这些非收入月份的缺失值,必须首先查明哪些月份不在计费管道中。那么请看下面链接中的文章。文章将给出2018年初至今的连续日期。你只需要匹配就可以知道哪些月不在账单上。
处理缺失值的方法有三种:删除、插值和不处理。
重复值处理
在Pandas中,.duplicated()表示查找重复行。默认情况是判断所有列并返回布尔结果。对于完全没有重复项的行,返回False。对于具有重复项的行,出现一次的行返回False,其余行返回True。
对应于.duplicated(),.drop_duplicates()表示删除重复项,即删除布尔类型为True的所有行,默认为判断所有列
异常值处理
在数据清理过程中,异常值的处理取决于具体情况,是选择剔除还是替换为其他值。成都数据分析师培训班提示一些异常值可能包含某些信息,需要经过仔细考虑后加以考虑。