引言 数据集预处理是数据分析、机器学习项目中不可或缺一个环节,在数据集中,离群值存在大概会对后续数据分析、模型训练产生不利影响,于是,如何有效地检测、处理离群值变成数据预处理中重点难题,本文将祥明介绍几种常见离群值检测方法,并探讨如何应对这些离群值。
引言
数据集预处理是数据分析、机器学习项目中不可或缺一个环节,在数据集中,离群值存在大概会对后续数据分析、模型训练产生不利影响,于是,如何有效地检测、处理离群值变成数据预处理中重点难题,本文将祥明介绍几种常见离群值检测方法,并探讨如何应对这些离群值。
一、离群值检测方法
1. 统计学方法
统计学方法是离群值检测中最常用方法,首要涵盖以下几种:
〔1〕箱线图〔Boxplot〕
箱线图是一种通过四分位数来展示数据分布情况图表,可以直观地显示出数据中心势头、分布范围以及异常点,通过计算第一四分位数〔Q1〕、第三四分位数〔Q3〕、中位数〔M〕,可以确定下限〔Q1-1.5×IQR〕、上限〔Q3+1.5×IQR〕,超出此范围数据即被感觉是异常点。
〔2〕Z-Score准则化法
Z-Score准则化法是一种根据准则差准则化方法,通过计算每个数值与均值之间偏差与准则差比值得到Z-Score,往往情况下,倘若一个数值Z-Score超过某个阈值〔如3或-3〕,则感觉该数值为异常点。
〔3〕局部异常因子〔LOF〕
局部异常因子是一种根据密度方法,通过计算一个样本在其邻域中密度与整个数据集中密度之比来判断其是不是为异常点,倘若该比值得到结果明显小于其他样本,则感觉该样本是一个局部异常点。
2. 机器学习方法
除传统统计学方法外,近年来机器学习领域也发展出一些新离群值检测技术:
〔4〕随机森林算法
随机森林算法是一种集成学习方法,在构建决策树过程中会自动选择最优特征实行分裂,并且每个节点都会生成一个阈值用于判断是不是为异常点。
〔5〕持助向量机算法
持助向量机算法可以在高维空间中找到最优超平面将正常样本与其他样本区分开来,在训练过程中会自动识别出那些偏离超平面较远数据作为潜在异常点。
二、如何应对离群值
1. 删除法
删除法是最简单也是最直接一种处理方法,在发现某些观测数据存在较大偏差时可以直接将其从原始数据集中删除掉。
2. 聚类分析法
聚类分析法能够将相似对象聚集在一起形成簇,并将具有显著差异对象视为潜在离群值实行进一步研究。
3. 离散化或归一化处理
对于一些连续型变量而言,可以通过对其实行区间划分或者运用归一化等手段将其转化为分类型变量从而避免直接运用上述统计学或机器学习模型导致误判情况发生。
结论
笔者所述,在面对复杂多变数据集时咱们须要综合运用多种技术手段对其中存在潜在难题实行有效识别并采取相应措施加以搞定;同时也要注意不同场景下选择最适合自己方案以达到最佳效果;除这伴随大数据阶段到来将来还会有更多新型算法出现为搞定这一难题供应更加便捷高效工具持助。