.

Uwaga na wyniki izolowane! Strzeż się outlier-ów!

Uwaga na wyniki izolowane! Strzeż się outlier-ów !

Czytelniku, czy znasz zasadę praktycznej pewności?  - na pewno znasz i stosujesz. Zasada ta – dla przypomnienia – mówi, że zdarzenie któremu towarzyszy małe prawdopodobieństwo zajścia nie powinno się pojawić w jednym doświadczeniu. Innymi słowy – to co zdarza się rzadko nie powinno nas dotyczyć. Oto przykłady jej działania. Wszyscy jeździmy po drogach na których zdarzają się czasem przykre incydenty. Biorąc jednak pod uwagę nasilenie ruchu zdarza się to rzadko więc towarzyszy nam w drodze – i dobrze - praktyczna pewność, że taki incydent nas ominie i szczęśliwie dotrzemy do celu. I to jest przykład pozytywny. „Negatywny” wymiar tej zasady odnosi się m.in. do graczy w  Toto-Lotka – niestety, szansa na dużą wygraną jest tak mała, że lepiej sobie potencjalną wygraną głowy nie zawracać.

Wręcz analogiczna sytuacja towarzyszy analizie danych. Mamy zbiór danych, przedmiot naszej analizy – wyniki tej analizy mają dostarczyć ważnych informacji. Wśród tych danych mogą się znaleźć również takie których nie powinniśmy się spodziewać bowiem realizacjom takim towarzyszy inny układ czynników generujących zmienność w porównaniu
z pozostałymi wartościami znajdującymi się w zbiorze danych . Co to po prostu znaczy  – ktoś się pomylił w odczycie, ktoś się pomylił w zapisie, „padł” system pomiarowy. Czy mogą się takie sytuacje zdarzyć. Oczywiście, że mogą i się zdarzają. I wtedy właśnie pojawiają się w zbiorze danych wyniki izolowane, odskakujące (outliers). Koniecznie należy je przed przystąpieniem do właściwej analizy wyeliminować ponieważ – nie wyeliminowane – bardzo mocno wpływają na wyniki analizy.

Jak to zrobić, jak zidentyfikować wyniki izolowane ?

Jest na to kilka sposobów. Zacznijmy od najprostszego.

Jakaś wartość już na etapie rejestrowania danych nie „pasuje” nam do pozostałych  – myślimy sobie, to jest niemożliwe, co musiało się dodatkowego wydarzyć, żeby taka wartość w zbiorze zaistniała ! Jednym słowem, takie „ciężkie przypadki” widzimy gołym okiem.

Ale jak nie potrafimy zobaczyć tego od razu ?

Pierwszy sposób to metoda graficzna. Może to być wykres pojedynczych wartości (rys.1), wykres pudełkowy (rys.2) lub graficzny test zgodności z zadanym rozkładem (rys.3).

wykres pojedynczych wartości

Rys. 1 Wykres pojedynczych wartości – dane nie-przetworzone

wykres pudełkowy

Rys. 2 Wykres pudełkowy (box-plot)

graficzny test zgodności z zadanym rozkładem

Rys. 3 Graficzny test zgodności z rozkładem normalnym 

Sposób drugi zarezerwowany jest dla danych podlegających rozkładowi normalnemu – jest to reguła trzech odchyleń standardowych. Według tej reguły w zakresie plus/minus trzy odchylenia standardowe względem średniej powinny się mieścić praktycznie wszystkie realizacje; teoretyczna szansa na pojawienie się realizacji poza zakresem plus/minus trzy odchylenia standardowe wynosi tylko 0,0027, zatem – zgodnie z reguła praktycznej pewności – nie powinno się coś takiego zdarzyć , a jak już się zdarzyło to taka wartość jest „podejrzana”.

Sposób najlepszy i najpewniejszy to statystyczne testy identyfikacji wartości izolowanych tj. test Grubbsa lub test Dixona (rys.4).

test grubbsa

Rys. 4 Test Grubbsa

I jeszcze jedno – to my ostatecznie decydujemy czy mamy do czynienie z wynikiem izolowanym czy nie – analiza statystyczna może nam tylko w tym pomóc !.

Jak już pozbyliśmy się outlier-ów to przystępujemy do właściwej analizy danych.

Powodzenia!

Polecane szkolenia:

STATYSTYCZNE STEROWANIE PROCESEM SPC - SZKOLENIE PODSTAWOWE

STATYSTYCZNE STEROWANIE PROCESEM SPC – SZKOLENIE ZAAWANSOWANE