Pada dasarnya, Tahapan Eksplorasi merupakan tahapan opsional
dalam analisis regresi. Sehingga dalam beberapa buku, Tahap Eksplorasi atau
meng-explore data tidak termasuk dalam tahapan inti regresi (identifikasi,
estimasi, pengujian signifikansi, asumsi dan keseuaian model. red).
Ada dua jenis variabel dalam regresi :
1.
Variabel tak bebas (Dependent Variable)--> Y
Variabel yang nilainya ditentukan oleh
variabel lain. Diasumsikan bersifat random/stochastic. Nama lain dari Variabel
ini adalah variabel respon. Dalam model regresi, baik itu RLB maupun RLS
mensyaratkan bahwa Y harus berjenis data kuantitatif.
Data Y dapat berupa data observasi ataupun
data eksperimen. Data observasi merupakan data yang diperoleh tanpa kontrol
terhadap variabel X. Sedangkan Data eksperimen diperoleh dengan melakukan
kontrol terhadap variabel X.
2.
Variabel bebas (Independent Variable) --> X
Variabel yang nilainya ditentukan secara
bebas (variabel yang diduga mempengaruhi variabel tak bebas). Diasumsikan
bersifat fixed/ non stochastic.
Sebelum dilakukan regresi, kedua data tersebut seharusnya
terlebih dahulu di eksplore. Beberapa hal yang dapat dijumpai ketika melakukan
eksplorasi:
1.
Adanya data yang missing
Missing data adalah situasi dimana kita
tidak menemukan data yang kita inginkan. Misalnya: suatu unit analisis/unit
observasi memiliki nilai Variabel Y tetapi ketika ditelusuri ternyata tidak
ditemukan data untuk variabel X nya pada unit obsevasi tersebut ataupun sebaliknya.
Hal itu bisa terjadi karena beberapa hal:
a.
Lewat cacah
b.
Kesalahan pada saat pengentrian
Solusi yang dapat diberikan jika
ditemukan permasalahan seperti ini diantaranya:
a. Mengeliminasi unit analisis tersebut, sehingga
jumlah unit kita akan berkurang. Akibatnya secara statistik akan mengurangi
derajat bebas dan mengurangi akurasi dalam
pengestimasian parameter regresi nantinya.
b. Imputasi. Yaitu memperkirakan nilai dari data
yang missing tersebut, dengan harapan nilai yang kita masukkan mendekati nilai
yang sebenarnya (untuk penjelasan lebih lanjut mengenai imputasi akan
disampaikan di kemudian hari).
2.
Adanya data yang outlier
Data outlier merupakan satu atau beberapa
unit observasi yang memiliki nilai jauh dari pada umumnya. Misalnya: Terlalu
kecil atau bahkan terlalu besar. Ada banyak cara mendeteksi adanya outlier,
diantaranya:
1.
BOXPLOT
2.
STEAM-LEAF PLOT
3.
DOT PLOT
Note: Outlier
menjadi suatu hal yang krusial karena melakukan regresi dengan adanya data yang
outlier bisa jadi mengakibatkan kita menghasilkan model yang kurang tepat. Oleh
karena itu, outlier seringkali dieliminasi terlebih dahulu sebelum melakukan
regresi apabila kita cukup banyak memiliki unit observasi/analisis.
Setelah melakukan Eksplorasi, kita akan masuk ke Tahapan Identifikasi
Setelah melakukan Eksplorasi, kita akan masuk ke Tahapan Identifikasi
5 comments :
hallo2..
waah bahasanya tinggi okee feerr,, *jadi inget kuliah tingkat 2 Analisis Data Statistik walopun basic niaan, hehehe :D . Keep posting masbro
numpang lapak dkit laaa, mampir yee :
http://bagustrinuscahyo.wordpress.com/
kuliah yg kau ngulang tu gus ya?wkwkwkwk
adit
hohoho...monggo masbro.....sipz...lagi belajar guz,,,,dimana posisi??masih di bandung??
hohohoho......apo cito dit??
keren bg..
Post a Comment