Pernah
lihat situasi dimana Adjusted R-squared
dari model regresi dengan menggunakan data panel anda sangat besar?? Hingga
mencapai 0,9999 atau 99,99 persen?? Apa maknanya?? Apa itu baik untuk model
anda?? Atau justru sangat berbahaya terhadap interpretasi atau pemaknaannya??
Berbahaya??
Apa bahayanya memiliki Adjusted R-Squared
yang sangat besar bahkan mendekati 0,9999?? Oh iya, sebelumnya Adjusted R-squared nilainya berkisar dari 0 hingga 1. Dimana
semakin mendekati 1, maka menunjukkan variabel penjelas (X) yang kita miliki
semakin baik menjelaskan variasi dari variabel respon (Y). Contoh : Adjusted
R-squared modelnya adalah 0,8579. Maka
dapat disampaikan bahwa 85,79 persen variasi yang terjadi pada variabel Y dapat
terjelaskan oleh variabel X yang dimiliki, sedangkan sisanya dapat dijelaskan
oleh variabel lain.
Back to the topic, bagus dong Adjusted
R-squared nya besar, artinya variabel penjelas (X) yang dimiliki model
sangat mampu menjelaskan variasi yang terjadi pada variabel respon (Y) nya. Jadi
kalau 99,99 persen sudah mampu terjelaskan, berarti tidak butuh variabel
tambahan lain dong?? WOW…Luar biasa…Apa benar demikian?? Ciyus?? Hoho…melalui
tulisan singkat saya ini saya akan coba menyampaikan sebuah pandangan baru
terhadap nilai Adjusted R-squared
yang sangat besar tersebut.
Dengan
menggunakan data panel, maka konsekuensi yang harus kita lalui pertama sekali adalah
tahapan pemilihan model estimasi. Nah, misalkan terpilih model estimasi terbaik
adalah model fixed effect. Pada modelfixed effect, terdapat individual effect yang berkorelasi
dengan variabel penjelasnya untuk mengakomodir heterogenitas yang terjadi antar
individu ataupun cross-nya. Setiap efek individu tersebut merupakan parameter
yang tidak diketahui dan akan diestimasi dengan menggunakan teknik variabel dummy (LSDV).
Implikasi
dari pengestimasian efek individu tersebut adalah tentu saja R-Squared modelnya jadi membesar.
Menurut apa yang saya amati, pengakomodasian heterogenitas antar individu
dengan pengestimasian efek individunya (penggunaan fixed effect model) menyebabkan model estimasi yang terbentuk dapat
menghasilkan dugaan yang tidak jauh berbeda dengan observasinya. Tapi perlu
diingat bahwa, Adjusted R-squared
yang dihasilkan pada model fixed effect
kita merupakan Adjusted R-squared
yang sebenarnya semu.
Kenapa Semu?
Karena Variabel penjelas ataupun variabel X nya itu sebenarnya tidak
menjelaskan seutuhnya benar-benar sebesar Adjusted
R-squared tersebut. Pastilah sebenarnya tidak setinggi 0,9999 tersebut.
Variasi dari Dependen pada model tersebut sebenarnya juga dijelaskan oleh efek individu (variabel dummy pada
model fixed effect) yang bisa saja
menangkap variabel-variabel yang belum kita gunakan pada model
kita.
Lanjut,
dari apa yang saya baca juga. Fixedeffect model ini seperti pisau bermata dua. Disatu sisi, dia dapat
mengakomodir variasi ataupun heterogenitas dari variabel dependennya. Tetapi di
sisi lain, konsekuensi kita melakukan estimasi parameter (LSDV) model fixed effect adalah derajat bebas
kita berkurang.
Derajat
bebasnya berkurang, karena dengan menambah variabel dummy nya artinya kita
harus menambah paramater yang harus diestimasi, ya kan?? Perlu diingat bahwa
derajat bebas merupakan selisih dari jumlah observasi dikurangi dengan jumlah
variabel yang harus diestimasi. Implikasi derajat bebas berkurang tentu presisi
model kita menjadi berkurang, kurang efisien (Suatu saat saya akan coba
menjelaskan mengapa demikian).
Mungkin
dibutuhkan studi lebih lanjut untuk mengetahui seberapa besar nih sebenarnya peran
yang sesungguhnya dari variabel X (tanpa adanya peran efek individu) sebenarnya
dalam menjelaskan variabel Y-nya, tapi yang saya dan teman-teman musti yakini
adalah nilainya tentu saja bukan setinggi tersebut. Karena jika anda mampu
menjelaskan 99,99 persen variasi dari variabel Y, artinya estimasi anda untuk
periode yang selanjutnya seharusnya HAMPIR PASTI akan sama dengan yang
benar-benar ditakdirkan terjadi oleh Maha Besar, Right??. Padahal kan, belum tentu. Setuju??...*) - Renungan
statistik - Ferdi