Jumat, 23 Oktober 2015

Langkah Mudah Mendeteksi Outlier Data

source : google


Kalian pasti benci dianggap outlier, sama saya juga gitu. Coba kalian bayangin kalau lagi diantara cewek-cewek yang kurus, okeh anggap saya “gendut” - jadi saya adalah outlier pada sekumpulan orang tersebut. Sakit dianggap outlier itu ? lebih baik ga usah disitu – hilang, aduh maaf baper. Okeh tapi tenang aja itu adalah fenomena alam yang wajar karena kalau ga ada orang kaya saya, ga akan ada orang kurus hahaha *ups. Okeh, kembali ke topik. Jadi sama juga dengan data. Terkadang saya menemukan data yang aneh – I mean its too higher or lower.  Nah, Dalam pengujian statistik biasanya kita harus identifikasi dulu apakah data outlier tadi merupakan efek dari suatu kondisi atau memang hanya human error. Setelah kita pastikan, kita baru bisa menentukan apakah outlier tersebut masuk dalam analisis atau tidak. Saya lebih sering memisahkan outlier dari analisis karena ditakutkan hasil analisis nya jadi bias (tidak valid). Nah, ada beberapa langkah mudah untuk mendeteksi outlier , saya menyebutnya “kekuatan kuartil”.

Langkah-langkahnya (Tukey) yaitu, kita cari nilai kuatil satu, dua dan tiga dari data. Biasanya data diurutkan terlebih dahulu lalu dibagi menjadi 2 bagian dan dibagi lagi jadi 4 bagian.



Saya menyebut kuartil satu = Q1, kuartil dua = Q2 atau biasanya nya disebut Median dan kuartil tiga = Q3. Nah, begitu dapat Q1, Q2 dan Q3 selanjutnya cari interquartile range (IQR) = Q3 – Q1.  Setelah dapat IQR kita bisa lanjutnya untuk menemukan outlier bawah dan outlier atas.

Outlier Bawah < Q1 – (1.5*IQR)

Outlier Atas > Q3 + (1.5*IQR)

Jika nilai nya sesuai dengan kriteria diatas maka sudah pasti data tersebut sebuah outlier.

Dari contoh diatas didapatkan bahwa,

========================
Q1 = 5 , Q2 = 8, dan Q3 = 10.
IQR = 10 - 5 = 5
Lower = 5 - (1.5*5) = -2.5
Upper = 5 + (1.5*5) = 12.5
========================

Karena semua data berada diantara rentang -2.5 hingga 12.5 maka tidak ada outlier pada data tersebut. Nah hasil itu aku dapet dengan cara manual. Ada cara cepatnya ternyata untuk mendeteksi outlier yaitu dengan menggunakan program R - Boxplot. Kriteria nya apabila ada titik data di luar jangkauan boxplot maka pada sampel data kita ada outlier nya. Cara nya cukup mudah yaitu dengan memasukan syntax dibawah ini :

X<c(data) #input data
Boxplot(X) #hasil boxplot

contoh boxplot hasil R untuk mendeteksi outlier :
source : google

Pada Gambar diatas terlihat ada 2 titik dibagian setelah Batas Atas, nah itu lah yang disebut data outlier (pencilan). Kemudian mari kita coba contoh kasus sebelumnya diselesaikan dengan R, berikut uraian nya saya jelaskan:

Syntax :
"x<-c(2,2,4,5,6,7,8,9,10,10,11,12,12)"
"summary(x)"
"boxplot(x)"

Output :




source : fani's analysis


Hasilnya juga sama ternyata contoh data yang saya buat bahwa tidak ada outlier. Gimana dengan data kamu ada outlier nya atau engga ? Cek ya...

Selamat belajar :)




Tidak ada komentar :

Posting Komentar

Related Posts Plugin for WordPress, Blogger...
 
Header Background Designed by Freepik