国产精品视频被艹_九九自拍视频精品_亚洲国产清纯系在线观看_十八禁深夜福利老司机视频_熟女日韩精品2区_午夜激情经典日韩_亚洲国产成人欧美在线观看_中文字幕人成乱码熟女超碰_大陆一级成人毛片_18禁在线看网站

返回列表
點云數(shù)據(jù)中的離群點

離群點主要表示在特定時間序列內(nèi),與序列平均值差距較大的極端大、小值,在實際應用中也將其稱作為野值。在研究中發(fā)現(xiàn),離群點的出現(xiàn)與多種因素有關,其中系統(tǒng)外部影響是一種重要的因素,然而與之相關的系統(tǒng)外部干擾并不是相同的,而是存在不同類型的問題。例如有數(shù)據(jù)記錄和計算的錯誤,此外其他偶然因素也會引起極端大值、極端小值的出現(xiàn)。所以在離群點分析過程中應該綜合考慮到各個影響因素。

基于之前的分析已經(jīng)明確了離群點產(chǎn)生的原因,其會對時間序列分析產(chǎn)生直接的影響,特別是會降低模型的擬合精度,因此在實際應用中分析人員并不期望序列中含有離群點,從這個角度來看很多分析人員為了改善模型的精度,往往會采取不同的方法將離群點去除。但是從相反的角度來看,離群點攜帶了有價值的信息,其能夠為采樣中錯誤分析提供依據(jù),如果是由于外部干擾引起的離群點,則能夠提示系統(tǒng)靈敏性等相關的信息。

隨著對離群點研究的增多,很多學者提出了不同的處理方法,目前在應用中一般將離群點劃分為四種不同的類型,主要包括加性離群點、樹水平位移離群點、暫時變更離群點以及更新離群點,各種離群點的特征存在一定的差異性,具體的介紹如下所示:

(1)加性離群點:這種類型的干擾僅僅對干擾出現(xiàn)時刻T的序列值產(chǎn)生影響,與之后的序列值無關。

(2)樹水平位移離群點:引起這種離群點的干擾會從影響的開始時刻T持續(xù)產(chǎn)生影響,具體表現(xiàn)為T時刻前后的序列均值出現(xiàn)的水平位移。

(3)暫時變更離群點:干擾在T時刻出現(xiàn)時會體現(xiàn)出一定的初始效應,在之后時刻的影響會呈現(xiàn)指數(shù)衰減。

(4)更新離群點:干擾除了影響XT外,會持續(xù)影響到之后時刻的值,它的其中系統(tǒng)動態(tài)模型是影響其作用方式的主要因素。

綜上所述,離群點與傳統(tǒng)的數(shù)據(jù)對象不同,可以認為是一種特殊的數(shù)據(jù)對象, 離群點檢驗就是通過多種檢測方法找出其行為不同于預期對象的數(shù)據(jù)點的過程。根據(jù)正常數(shù)據(jù)和離群點的假定分類,可以分為以下5種方法,具體的分析如下文所示:

(1)基于分布的方法

基于分布的檢測方法原理比較簡單,實施的難度較小,其在構建合適的數(shù)據(jù)分布模型后通過不和諧校驗(Discordancy Test)提取與模型分布規(guī)律不相符的數(shù)據(jù),由此可以得到對應的離群點。但是這種方法的準確性較低,并且在數(shù)據(jù)維度較大時提取離散點的難度更大。

(2)基于深度的方法

基于深度的檢測方法需要對各個數(shù)據(jù)對象設置一個方初始的深度值,由此建立與多層數(shù)據(jù)空間的對應關系,然后提取外層的對象即為離群點。這種方法應用到數(shù)據(jù)維度較小的情況時效果較好,但是對于多維數(shù)據(jù)的處理效果不佳。

(3)基于聚類的方法

先前人們只是根據(jù)經(jīng)驗來對事物進行分類,但是隨著分類目標的復雜度增加,數(shù)據(jù)量的增大,分類的要求逐步增大,如果只依賴于傳統(tǒng)的分類方法難以獲得較好的分類效果。很多學者進行了研究并提出了更先進的聚類技術,聚類分析的基本思想是根據(jù)樣本間的相似性來獲取數(shù)據(jù)的潛在規(guī)律,將對象分組成由相似對象構成的多個類別。總體判斷的依據(jù)是數(shù)據(jù)的相似度,如果相似度基本一致時則劃分為一類,相似度差距較大時則屬于不同的類。在實際聚類中則主要是將關聯(lián)性高的數(shù)據(jù)樣本歸為同一類,關聯(lián)性低的樣本歸為不同的類。因此結合聚類的原理可以進行檢測,由此能夠有效地獲得簇和離群點。

基于聚類技術來發(fā)現(xiàn)離群點可能是高度有效的。常用的模型有K-means等,基于聚類的離群點檢測思路如下:首先用聚類算法做聚類;然后對各個點與聚類中心的距離以及平均距離L進行計算;第三步用戶設定一個spec參數(shù);最后對類中心與各個點的距離s進行計算,由此可以判斷出是否為離群點。這種方法存在一定的不足,即如果大、小聚集簇的距離非常小時,難以準確地識別離群點。此方法的示意圖如圖2所示。

1.jpg

2基于聚類的方法

(4)基于距離的方法

基于距離的檢測方法需要先設置一個固定的距離參數(shù)L,以此分析各個點與設置點的距離的關系,當這個距離高于L時,則對應的點即為離群點。常用的模型為KNN(k近鄰),KNN算法的原理比較容易理解,用戶可以直接從訓練樣本內(nèi)獲得K個最接近的樣本,并對各個樣本所屬的類型進行劃分,最后將樣本最多的類別進行匯總,即可對待判定的樣本類型進行確定。K最近鄰分類算法的使用需要滿足一定的條件。此算法的優(yōu)勢在于分類結果的準確性高等,然而這種準確性依賴于高質量的樣本相似度計算結果,所以比較依賴于相似度的計算過程,不適合將其應用到大規(guī)模數(shù)據(jù)集的分類中。經(jīng)過分析,當樣本的數(shù)目比較大時使用這種方法往往能夠獲得更好地效果。根據(jù)這個原理,如果某樣本的k個相似度最高的大部分樣本都屬于相同的類別,則該樣本也屬于這個類別,其中K通常是不大于20的整數(shù)。通常用來度量最相似程度的距離有歐式距離和曼哈頓距離。如果數(shù)據(jù)集的規(guī)模較大,并且分布不均衡,則會降低算法的性能,此方法的具體流程如下所示。

2.jpg

3 基于距離的方法

(5)基于密度的方法

基于密度的檢測方法在檢測局部離群點時的應用效果較好,根據(jù)定點間的距離與點的數(shù)目進行分析,由此可以分析目標點與其他點的離群程度。在應用過程中需要先定義一個密度值,如果判斷是離群點,則其密度值與周邊正常點的密度相差很大。常用的模型有LOF,其原理如下所示:首先針對數(shù)據(jù)集內(nèi)的各個點計算局部離群因子LOF,如果計算的LOF與1之間的差值較大,則說明屬于離群點;如果與1之間的差值較小,則不屬于離群點。這種方法在應用中存在一定的不足之處,主要體現(xiàn)在選擇密度參數(shù)時的難度較大。

3.jpg

4基于密度的方法

通過上文對這5類離群點過濾方法的分析,我們可以得出每種過濾方法的優(yōu)缺點,如下表1所示。

1 離群點過濾方法對比

離群點過濾方法

優(yōu)點

缺點

基于分布的方法

操作簡單

準確性低

基于深度的方法

二維數(shù)據(jù)過濾效果好

不適用于三維數(shù)據(jù)的過濾

基于聚類的方法

過濾效果好

需要對點云簇進行分類,操作繁瑣

基于距離的方法

準確性高

對離表面較近的離群點效果較差

基于密度的方法

過濾速度快,操作簡單

需要合適的密度參數(shù)

 


網(wǎng)站編輯:小優(yōu)智能科技有限公司 發(fā)布時間:Oct 27,2022
給我們留言
驗證碼