本文內(nèi)容整理自醫(yī)咖會(huì)《在開始統(tǒng)計(jì)分析前,如何對數(shù)據(jù)進(jìn)行清洗或轉(zhuǎn)換?》專欄,小咖針對其中異常值處理相關(guān)內(nèi)容進(jìn)行了整理,可點(diǎn)擊左下角“閱讀原文”查看完整視頻。
異常值是什么?
在科研中,數(shù)據(jù)清洗首先要做的就是處理異常值。樣本中存在的一些數(shù)值明顯偏離的觀測值,就叫做異常值,這時(shí)候需要識(shí)別異常值是因?yàn)閿?shù)據(jù)錄入錯(cuò)誤、測量誤差、還是客觀存在的真實(shí)數(shù)值?如何在保留數(shù)據(jù)信息的基礎(chǔ)上,識(shí)別異常值,并對異常值進(jìn)行有效處理,是數(shù)據(jù)清洗中一個(gè)非常重要的環(huán)節(jié)。
在X范圍內(nèi),但不在Y范圍內(nèi)的異常值為Y的異常值,稱為離群值(圖A);反之則為X的異常值,稱為高杠桿點(diǎn)(圖B)。無論是哪種異常值,只要對相關(guān)性或回歸分析造成很大影響,就可以稱之為強(qiáng)影響點(diǎn)。圖C的點(diǎn)既是離群值又是高杠桿點(diǎn),但因其未改變分析結(jié)果,并不能稱為高影響點(diǎn),該數(shù)值很有可能是真實(shí)存在的。研究中,最需關(guān)注的是高影響點(diǎn)。
怎樣識(shí)別異常值?
比較直觀的一個(gè)識(shí)別異常值的方法是箱圖。箱圖中超出上下限的點(diǎn)均為異常值,并且標(biāo)注了異常值編號(hào),可以直接觀察相應(yīng)的患者尋找異常值來源。箱圖中距離箱體邊緣超過1.5倍箱體長度的數(shù)據(jù)點(diǎn)定義為異常值,超過3倍的數(shù)據(jù)點(diǎn)稱為極端值。
如何處理異常值?
有些異常值的影響非常大。如圖,在將異常值刪除后,相關(guān)系數(shù)和回歸系數(shù)均發(fā)生了較大的變化。所以需要進(jìn)行異常值的處理。
異常值通常有以下四種處理方法:
第一,需要核查數(shù)據(jù)是否存在收集或錄入錯(cuò)誤,及時(shí)進(jìn)行重新收集或者更正;
第二,如果異常值客觀存在,符合變化趨勢,可以考慮保留異常值。但可能會(huì)導(dǎo)致數(shù)值呈現(xiàn)偏態(tài)分布,這時(shí)可以使用非參數(shù)分析方法、用非最極端的值來代替極端異常值,對變量進(jìn)行轉(zhuǎn)化(如將數(shù)值分類轉(zhuǎn)化為等級變量),進(jìn)而縮小異常值帶來的影響。
第三,如果異常值不屬于上述情況,且占比很小,可以考慮直接剔除數(shù)據(jù)。剔除數(shù)據(jù)分為剔除該患者所有數(shù)據(jù),和僅剔除患者該單元數(shù)據(jù),選擇后者需將剔除數(shù)據(jù)視為缺失值,進(jìn)行插補(bǔ),并且報(bào)告該數(shù)值的詳細(xì)情況。
第四,如果異常值極大可能是真實(shí)存在的,可以考慮將其納入分析。這種數(shù)據(jù)通常極具研究性,單獨(dú)對該類人群進(jìn)行挖掘分析可能會(huì)得到一些比較意外的結(jié)果。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.