国产精品视频被艹_九九自拍视频精品_亚洲国产清纯系在线观看_十八禁深夜福利老司机视频_熟女日韩精品2区_午夜激情经典日韩_亚洲国产成人欧美在线观看_中文字幕人成乱码熟女超碰_大陆一级成人毛片_18禁在线看网站

產(chǎn)品中心

了解詳情

應用場景

了解詳情

關于我們

了解詳情

資訊

了解詳情

離群點主要表示在特定時間序列內(nèi)，與序列平均值差距較大的極端大、小值，在實際應用中也將其稱作為野值。在研究中發(fā)現(xiàn)，離群點的出現(xiàn)與多種因素有關，其中系統(tǒng)外部影響是一種重要的因素，然而與之相關的系統(tǒng)外部干擾并不是相同的，而是存在不同類型的問題。例如有數(shù)據(jù)記錄和計算的錯誤，此外其他偶然因素也會引起極端大值、極端小值的出現(xiàn)。所以在離群點分析過程中應該綜合考慮到各個影響因素。

基于之前的分析已經(jīng)明確了離群點產(chǎn)生的原因，其會對時間序列分析產(chǎn)生直接的影響，特別是會降低模型的擬合精度，因此在實際應用中分析人員并不期望序列中含有離群點，從這個角度來看很多分析人員為了改善模型的精度，往往會采取不同的方法將離群點去除。但是從相反的角度來看，離群點攜帶了有價值的信息，其能夠為采樣中錯誤分析提供依據(jù)，如果是由于外部干擾引起的離群點，則能夠提示系統(tǒng)靈敏性等相關的信息。

隨著對離群點研究的增多，很多學者提出了不同的處理方法，目前在應用中一般將離群點劃分為四種不同的類型，主要包括加性離群點、樹水平位移離群點、暫時變更離群點以及更新離群點，各種離群點的特征存在一定的差異性，具體的介紹如下所示：

（1）加性離群點：這種類型的干擾僅僅對干擾出現(xiàn)時刻T的序列值產(chǎn)生影響，與之后的序列值無關。

（2）樹水平位移離群點：引起這種離群點的干擾會從影響的開始時刻T持續(xù)產(chǎn)生影響，具體表現(xiàn)為T時刻前后的序列均值出現(xiàn)的水平位移。

（3）暫時變更離群點：干擾在T時刻出現(xiàn)時會體現(xiàn)出一定的初始效應，在之后時刻的影響會呈現(xiàn)指數(shù)衰減。

（4）更新離群點：干擾除了影響XT外，會持續(xù)影響到之后時刻的值，它的其中系統(tǒng)動態(tài)模型是影響其作用方式的主要因素。

綜上所述，離群點與傳統(tǒng)的數(shù)據(jù)對象不同，可以認為是一種特殊的數(shù)據(jù)對象，離群點檢驗就是通過多種檢測方法找出其行為不同于預期對象的數(shù)據(jù)點的過程。根據(jù)正常數(shù)據(jù)和離群點的假定分類，可以分為以下5種方法，具體的分析如下文所示：

（1）基于分布的方法

基于分布的檢測方法原理比較簡單，實施的難度較小，其在構建合適的數(shù)據(jù)分布模型后通過不和諧校驗（Discordancy Test）提取與模型分布規(guī)律不相符的數(shù)據(jù)，由此可以得到對應的離群點。但是這種方法的準確性較低，并且在數(shù)據(jù)維度較大時提取離散點的難度更大。

（2）基于深度的方法

基于深度的檢測方法需要對各個數(shù)據(jù)對象設置一個方初始的深度值，由此建立與多層數(shù)據(jù)空間的對應關系，然后提取外層的對象即為離群點。這種方法應用到數(shù)據(jù)維度較小的情況時效果較好，但是對于多維數(shù)據(jù)的處理效果不佳。

（3）基于聚類的方法

先前人們只是根據(jù)經(jīng)驗來對事物進行分類，但是隨著分類目標的復雜度增加，數(shù)據(jù)量的增大，分類的要求逐步增大，如果只依賴于傳統(tǒng)的分類方法難以獲得較好的分類效果。很多學者進行了研究并提出了更先進的聚類技術，聚類分析的基本思想是根據(jù)樣本間的相似性來獲取數(shù)據(jù)的潛在規(guī)律，將對象分組成由相似對象構成的多個類別。總體判斷的依據(jù)是數(shù)據(jù)的相似度，如果相似度基本一致時則劃分為一類，相似度差距較大時則屬于不同的類。在實際聚類中則主要是將關聯(lián)性高的數(shù)據(jù)樣本歸為同一類，關聯(lián)性低的樣本歸為不同的類。因此結合聚類的原理可以進行檢測，由此能夠有效地獲得簇和離群點。

基于聚類技術來發(fā)現(xiàn)離群點可能是高度有效的。常用的模型有K-means等，基于聚類的離群點檢測思路如下：首先用聚類算法做聚類;然后對各個點與聚類中心的距離以及平均距離L進行計算;第三步用戶設定一個spec參數(shù)；最后對類中心與各個點的距離s進行計算，由此可以判斷出是否為離群點。這種方法存在一定的不足，即如果大、小聚集簇的距離非常小時，難以準確地識別離群點。此方法的示意圖如圖2所示。

圖2基于聚類的方法

（4）基于距離的方法

基于距離的檢測方法需要先設置一個固定的距離參數(shù)L，以此分析各個點與設置點的距離的關系，當這個距離高于L時，則對應的點即為離群點。常用的模型為KNN（k近鄰），KNN算法的原理比較容易理解，用戶可以直接從訓練樣本內(nèi)獲得K個最接近的樣本，并對各個樣本所屬的類型進行劃分，最后將樣本最多的類別進行匯總，即可對待判定的樣本類型進行確定。K最近鄰分類算法的使用需要滿足一定的條件。此算法的優(yōu)勢在于分類結果的準確性高等，然而這種準確性依賴于高質量的樣本相似度計算結果，所以比較依賴于相似度的計算過程，不適合將其應用到大規(guī)模數(shù)據(jù)集的分類中。經(jīng)過分析，當樣本的數(shù)目比較大時使用這種方法往往能夠獲得更好地效果。根據(jù)這個原理，如果某樣本的k個相似度最高的大部分樣本都屬于相同的類別，則該樣本也屬于這個類別，其中K通常是不大于20的整數(shù)。通常用來度量最相似程度的距離有歐式距離和曼哈頓距離。如果數(shù)據(jù)集的規(guī)模較大，并且分布不均衡，則會降低算法的性能，此方法的具體流程如下所示。

圖3 基于距離的方法

（5）基于密度的方法

基于密度的檢測方法在檢測局部離群點時的應用效果較好，根據(jù)定點間的距離與點的數(shù)目進行分析，由此可以分析目標點與其他點的離群程度。在應用過程中需要先定義一個密度值，如果判斷是離群點，則其密度值與周邊正常點的密度相差很大。常用的模型有LOF，其原理如下所示：首先針對數(shù)據(jù)集內(nèi)的各個點計算局部離群因子LOF，如果計算的LOF與1之間的差值較大，則說明屬于離群點；如果與1之間的差值較小，則不屬于離群點。這種方法在應用中存在一定的不足之處，主要體現(xiàn)在選擇密度參數(shù)時的難度較大。

圖4基于密度的方法

通過上文對這5類離群點過濾方法的分析，我們可以得出每種過濾方法的優(yōu)缺點，如下表1所示。

表1 離群點過濾方法對比

離群點過濾方法	優(yōu)點	缺點
基于分布的方法	操作簡單	準確性低
基于深度的方法	二維數(shù)據(jù)過濾效果好	不適用于三維數(shù)據(jù)的過濾
基于聚類的方法	過濾效果好	需要對點云簇進行分類，操作繁瑣
基于距離的方法	準確性高	對離表面較近的離群點效果較差
基于密度的方法	過濾速度快，操作簡單	需要合適的密度參數(shù)