source : google
Kalian pasti benci dianggap outlier, sama saya juga gitu. Coba kalian bayangin kalau lagi
diantara cewek-cewek yang kurus, okeh anggap saya “gendut” - jadi saya adalah outlier pada sekumpulan orang tersebut.
Sakit dianggap outlier itu ? lebih
baik ga usah disitu – hilang, aduh maaf baper. Okeh tapi tenang aja itu adalah
fenomena alam yang wajar karena kalau ga ada orang kaya saya, ga akan ada orang
kurus hahaha *ups. Okeh, kembali ke topik. Jadi sama juga dengan data. Terkadang saya menemukan data yang aneh – I mean its too
higher or lower. Nah, Dalam
pengujian statistik biasanya kita harus identifikasi dulu apakah data outlier
tadi merupakan efek dari suatu kondisi atau memang hanya human error. Setelah kita pastikan, kita baru bisa menentukan apakah
outlier tersebut masuk dalam analisis atau tidak. Saya lebih sering memisahkan
outlier dari analisis karena ditakutkan hasil analisis nya jadi bias (tidak valid).
Nah, ada beberapa langkah mudah untuk mendeteksi outlier , saya menyebutnya “kekuatan kuartil”.
Langkah-langkahnya (Tukey) yaitu, kita cari nilai kuatil satu, dua dan tiga
dari data. Biasanya data diurutkan terlebih dahulu lalu dibagi menjadi 2 bagian
dan dibagi lagi jadi 4 bagian.
Saya menyebut kuartil satu = Q1, kuartil dua = Q2 atau biasanya
nya disebut Median dan kuartil tiga = Q3. Nah, begitu dapat Q1, Q2 dan Q3
selanjutnya cari interquartile range (IQR) = Q3 – Q1. Setelah dapat IQR kita bisa lanjutnya untuk
menemukan outlier bawah dan outlier atas.
Outlier Bawah < Q1 – (1.5*IQR)
Outlier Atas > Q3 + (1.5*IQR)
Jika nilai nya sesuai dengan kriteria diatas maka sudah pasti data tersebut sebuah outlier.
Dari contoh diatas didapatkan bahwa,
========================
Q1 = 5 , Q2 = 8, dan Q3 = 10.
IQR = 10 - 5 = 5
Lower = 5 - (1.5*5) = -2.5
Upper = 5 + (1.5*5) = 12.5
========================
Karena semua data berada diantara rentang -2.5 hingga 12.5 maka tidak ada outlier pada data tersebut. Nah hasil itu aku dapet dengan cara manual. Ada cara cepatnya ternyata untuk mendeteksi outlier yaitu dengan menggunakan program R - Boxplot. Kriteria nya apabila ada titik data di luar jangkauan boxplot maka pada sampel data kita ada outlier nya. Cara nya cukup mudah yaitu dengan memasukan syntax dibawah ini :
X<c(data) #input data
Boxplot(X) #hasil boxplot
contoh boxplot hasil R untuk mendeteksi outlier :
source : google
Pada Gambar diatas terlihat ada 2 titik dibagian setelah Batas Atas, nah itu lah yang disebut data outlier (pencilan). Kemudian mari kita coba contoh kasus sebelumnya diselesaikan dengan R, berikut uraian nya saya jelaskan:
Syntax :
"x<-c(2,2,4,5,6,7,8,9,10,10,11,12,12)"
"summary(x)"
"boxplot(x)"
"boxplot(x)"
Output :
source : fani's analysis
Hasilnya juga sama ternyata contoh data yang saya buat bahwa tidak ada outlier. Gimana dengan data kamu ada outlier nya atau engga ? Cek ya...
Selamat belajar :)
Tidak ada komentar :
Posting Komentar