Outliers adalah data yang menyimpang terlalu jauh dari data yang lainnya dalam suatu rangkaian data. Adanya data outliers ini akan membuat analisis terhadap serangkaian data menjadi bias, atau tidak mencerminkan fenomena yang sebenarnya. Istilah outliers juga sering dikaitkan dengan nilai esktrem, baik ekstrem besar maupun ekstrem kecil. Sebagai ilustrasi, jika ada empat mahasiswa, mahasiswa pertama mempunyai uang saku per bulan Rp. 500 ribu, mahasiswa kedua Rp. 600 ribu, mahasiswa ketiga Rp. 700 ribu, dan mahasiswa keempat karena merupakan anak orang kaya, mempunyai uang saku per bulan sampai dengan Rp. 5 juta. Secara sekilas tampak bahwa nilai 5 juta relatif jauh dibandingkan uang saku ketiga mahasiswa yang lain.
Kalau kita rata-ratakan uang saku keempat mahasiswa tersebut, maka rata-ratanya adalah sebesar (500 ribu + 600 ribu + 700 ribu + 5 juta)/4= 6,8 juta/4 = 1,7 juta. Tiga mahasiswa yang lain tentunya keberatan jika dinyatakan bahwa rata-rata uang saku mereka adalah Rp. 1,7 juta per bulan karena jauh sekali dari nilai yang sebenarnya. Contoh lain misalnya kita ingin merata-ratakan kekayaan seorang PNS usia 30 tahunan, dengan memasukkan seorang PNS yang kebetulan mempunyai kekayaan sekitar Rp. 25 Milliar…he he he he
Penangangan Data Outliers
Harus kita apakah data outliers? Apakah harus kita keluarkan? Atau ada treatment yang lain.