StatistikA Pendidikan: multivariat

SELAMAT DATANG SOBAT...

Salam...

Selama ini, statistika sering diidentikkan dengan bidang yang lumayan sulit. Kesulitan dalam mempelajari statistika dikarenakan bidang ini terkait langsung dengan matematika. Bidang ilmu yang ketika mendengar namanya saja kebanyakan kita sudah kebakaran jenggot.. hehehe..

Ditengah situasi seperti itulah blog ini hadir. blog ini berusaha untuk menjembatani orang-orang yang mencari informasi yang berhubungan dengan statistik. Untuk lebih mempermudah analisis statistik, maka blog inipun memberikan panduan bagaimana melakukan analisis dengan menggunakan software SPSS.

Untuk lebih membuat blog ini lebih bermanfaat, sumbang saran dari pembaca sekalian sangat penulis harapkan dan kita akan sama-sama belajar... Ayo semangat!! Buat Indonesia melek dengan statistika.

Wassalam
Djunaidi L, Manado

Tampilkan postingan dengan label multivariat. Tampilkan semua postingan

Selasa, 15 September 2009

Uji F Parsial (Partial F Test)

Pada pengujian F partial kita akan menguji apakah penambahan variabel baru dapat meningkatkan nilai R-square secara signifikan atau tidak. misalnya dari data sebelumnya, kita dapat menyimpulkan bahwa variabel tinggi badan dan umur dapat memprediksi dengan ketepatan 78% variabel berat badan. Nah dengan menambah satu variabel lagi apakah nilai R-square akan meningkat secara signifikan?

Untuk menjawab pertanyaan ini dari data yang kita miliki kita akan menambah satu variabel lagi yaitu umur kuadrat (hanya sebagai contoh saja). Dengan demikian, data tersebut menjadi sebagai berikut:

Langkah pertama seperti biasa adalah merumuskan hipotesis nol.

H0 : penambahan variabel X* tidak menambah kemampuan memprediksi berat badan atau dapat juga ditulis secara matematis dengan H0: β* = 0

Untuk melakukan uji F parsial, kita akan memerlukan data-data tentang nilai2 regresi serta jumlah kuadrat. Setelah menghitung dengan MINITAB kita akan mendapatkan nilai2 sebagai berikut: (lampiran hasil analisis dengan MINITAB dapat dilihat disini atau pada postingan sebelum ini.

Regresi jumlah kuadrat dari variabel tinggi badan terhadai berat badan {JK (X1)} = 588,92

Regresi jumlah kuadrat dari variabel tinggi badan dan umur terhadap berat badan {JK(X1,X2)} = 692,82

Regresi jumlah kuadrat dari variabel tinggi badan, umur dan umur kuadrat terhadap berat badan {JK ( X1.X2.X3)} =693,06

Dengan nilai-nilai tersebut di atas, kita dapat menghitung jumlah kuadratnya yaitu:

JK (X2IX1) = regressi JK (X1,X2) – regresi JK (X1) = 692,82 – 588,92 = 103,90

JK (X3IX1,X2) = regresi JK (X1,X2,X3) – regresi JK (X1,X2) = 693,06 – 692,82 = 0,24

Nilai-nilai tersebut kita masukkan ke dalam table rangkuman anava sebagai berikut:

Untuk mendapatkan nilai MS (mean square) dapat didapatkan dari SS : df. Adapun nilai F didapat dari MS : residual.

Dengan demikian, dari table di atas kita akan dapatkan

Dari nilai dapat disimpulkan bahwa variabel tinggi badan dapat meramalkan variabel berat badan. Hal ini karena nilai F hitung sebesar 19,67 lebih besar dari F table pada tingkat signifikansi 95% sebesar 5,12. Adapun setelah ditambahkan variabel umur, maka nilai F hitung sebesar 4,78 lebih kecil dari F table pada tingkat signifikansi 95% sebesar 5,12. Akan tetapi nilai ini masih tetap signifikan pada tingkat signifikansi 90%. Hal ini karena nilai F table pada tingkat signifikansi 90% sebesar 3,36. Dengan demikian, penambahan variabel umur setelah kita variabel tinggi badan secara signifikan dapat memprediksi berat badan pada tingkat signifikansi 90%.

Hal ini berbeda jika kita menambahkan variabel umur kuadrat. F hitung yang dihasilkan dari menambahkan variabel ini lebih kecil dari F table pada tingkat signifikansi 90% yaitu hanya sebesar 0,01. Dengan demikian, H0 diterima sehingga dapat disimpulkan bahwa variabel tinggi badan dan umur dapat memprediksi berat badan seseorang. Akan tetapi penambahan variabel umur kuadrat tidak berpengaruh secara signifikan dalam memprediksi berat badan.

Lampiran Uji F Parsial

The regression equation is

berat badan = 6.2 + 1.07 tinggi badan

Predictor Coef SE Coef T P

Constant 6.19 12.85 0.48 0.640

tinggi badan 1.0722 0.2417 4.44 0.001

S = 5.47108 R-Sq = 66.3% R-Sq(adj) = 62.9%

Analysis of Variance

Source DF SS MS F P

Regression 1 588.92 588.92 19.67 0.001

Residual Error 10 299.33 29.93

Total 11 888.25

Unusual Observations

tinggi berat

Obs badan badan Fit SE Fit Residual St Resid

7 55.0 77.00 65.16 1.67 11.84 2.27R

R denotes an observation with a large standardized residual.

Regression Analysis: berat badan versus tinggi badan, umur

The regression equation is

berat badan = 6.6 + 0.722 tinggi badan + 2.05 umur

Predictor Coef SE Coef T P

Constant 6.55 10.94 0.60 0.564

tinggi badan 0.7220 0.2608 2.77 0.022

umur 2.0501 0.9372 2.19 0.056

S = 4.65984 R-Sq = 78.0% R-Sq(adj) = 73.1%

Analysis of Variance

Source DF SS MS F P

Regression 2 692.82 346.41 15.95 0.001

Residual Error 9 195.43 21.71

Total 11 888.25

Source DF Seq SS

tinggi badan 1 588.92

umur 1 103.90

Unusual Observations

tinggi berat

Obs badan badan Fit SE Fit Residual St Resid

7 55.0 77.00 66.77 1.60 10.23 2.34R

R denotes an observation with a large standardized residual.

Regression Analysis: berat badan versus tinggi badan, umur, umur kuadrat

The regression equation is

berat badan = 3.4 + 0.724 tinggi badan + 2.78 umur - 0.042 umur kuadrat

Predictor Coef SE Coef T P

Constant 3.44 33.61 0.10 0.921

tinggi badan 0.7237 0.2770 2.61 0.031

umur 2.777 7.427 0.37 0.718

umur kuadrat -0.0417 0.4224 -0.10 0.924

S = 4.93950 R-Sq = 78.0% R-Sq(adj) = 69.8%

Analysis of Variance

Source DF SS MS F P

Regression 3 693.06 231.02 9.47 0.005

Residual Error 8 195.19 24.40

Total 11 888.25

Source DF Seq SS

tinggi badan 1 588.92

umur 1 103.90

umur kuadrat 1 0.24

Unusual Observations

tinggi berat

Obs badan badan Fit SE Fit Residual St Resid

7 55.0 77.00 66.84 1.85 10.16 2.22R

R denotes an observation with a large standardized residual.

ANALISIS REGRESI BERGANDA

Ada beberapa email yang masuk ke saya yang menanyatakan tentang bagaimana melakukan analisis regresi berganda. Pada postingan-postingan terdahulu kita sudah pernah membahas tentang regresi linier sederhana. Pada regresi ini, kita hanya variabel independen dan variabel dependen satu. Akan tetapi dalam praktek dilapangan terkadang kita memiliki lebih dari satu variabel independen. Nah, bagaimana kita melakukan analisis regresi jika kita memiliki lebih dari satu variabel independen?

Untuk menjawab pertanyaan ini maka regresi yang akan kita pakai adalah regresi ganda. Secara matematis, regresi ganda dirumuskan dengan:

Y = a +b₁x₁ + b₂x₂ + … + b_Kx_K + E

Namun untuk lebih memudahkan perhitungan kita sebaiknya menggunakan software statistik. Jika menggunakan SPSS caranya sebenarnya sama saja dengan cara menghitung regresi linier sederhana. Oleh karena itu, pada postingan ini saya akan menggunakan software MINITAB versi 14.

Misalnya kita ingin meramal berapa berat badan seseorang jika kita memiliki data tentang tinggi badan dan umur. Untuk itu kita akan menggunakan data dari buku Applied Regression Analysis And Other Multivariable Methods karangan David G Kleinbaum dan kawan-kawan. Data tersebut kita masukkan ke dalam MINITAB seperti dibawah ini.

Selanjutanya analisis regresi ganda dilakukan dengan mengklik Stat > Regression > regression hingga muncul jendela Regression berikut ini

Setelah itu arahkan kursan pada kolom Response kemudian pilih berat badan setelah itu pilih Select. Arahkan kursor pada kolom Predictors, kemudian pilih tinggi badan kemudian pilih select. Klik pada umur dan pilih Select sehingga kedua variabel tersebut muncul di kolom Predictors. Setelah selesai, langsung klik OK hingga muncul analisis MINITAB seperti berikut ini.

Hasil analisis dengan MINITAB langsung memberikan persamaan matematis regresi dengan

berat badan = 6.6 + 0.722 tinggi badan + 2.05 umur

pada bagian analisi varian nilai p sebesar 0,001 menjelaskan bahwa pertambahan berat badan dapat dijelaskan dengan variabel tinggi badan serta umur seseorang. Meskipun demikian, kedua variabel ini hanya dapat menjelaskan 78% variabel berat badan seseorang. Hal ini dibuktikan dengan nilai R-sq sebesar 78%. Adapun 22% penyebab berat badan seseorang dijelaskan oleh variabel yang lain.

Analisis Regresi Linier dengan SPSS

Barangkali, kita sudah pernah mendengar kata regresi. Ya, regresi adalah salah satu metode dalam statistik untuk melakukan ramalan. Dalam khazanah pengetahuan modern, ada beberapa teknik yang digunakan untuk melakukan ramalan dan regresi adalah salah satunya. Nah, pada postingan kali ini, saya akan sedikit memberikan gambaran bagaimana melakukan perhitungan regresi linier berdasarkan SPSS.

Untuk menggunakan regresi khususnya regresi linier, ada beberapa persyaratan yang harus dipenuhi terlebih dahulu yaitu, eksistensi, independensi, linieritas, homoscedastisitas dan distribusi normal. Akan tetapi, syarat-syarat tersebut belum akan di bahas disini. Kita asumsikan dulu kelima syarat tadi telah terpenuhi. Untuk latihan kali ini, kita akan menggunakan data dari buku Essential Statistics karangan D.G. Rees halaman 233. Bagi yang memiliki bukunya, bisa menyamakan hasil yang diperoleh dari SPSS dengan perhitungan manual.

Misalnya kita mendapatkan data sample pendapatan pada tahun pertama dari 8 orang sales serta sekor test pada saat mereka mendaftar. Pertanyaannya adalah bagaimana kita bisa meramalkan pendapatan seorang sales jika dia memiliki sekor tertentu. Kita masukkan data yang kita miliki ke dalam program SPSS sebagai berikut. y = pendapatan tahun pertama dan x = sekor test.

1. Klik Analyze pada menu di bagian atas kemudian pilih Regression > Linier sehingga muncul kota dialog Linier Regression.

2. Masukkan y dibawah kolom Dependent dan x dibawah kolom Independent dengan mengklik tanda panah disebelah kiri kolom tersebut.

3. Jika kita menghendaki mendapatkan informasi selain persamaan regresi kita bisa mengklik Statistics dan mencentang informasi apa saja yang kita inginkan

4. Klik OK sehingga muncul output persamaan Regresi

Untuk mendapatkan persamaan regresi, perhatikan kotak Coeffisien hasil outputnya berikut ini:

Sebelum kita lanjutkan, kita tahu bahwa untuk regresi linier, persamaannya adalah
y = a + bx
a disebut dengan intercept dan b disebut dengan slope. Berdasarkan output diatas, a adalah 9,395 dan b adalah 1,904. Dengan demikian persamaan regresinya adalah;
y = 9,395 + 1,904x
Berdasarkan persamaan di atas, kita kemudian bisa membuat prediksi berapa penghasilan seorang sales pada tahun pertama jika memiliki skor test tertentu. Misalnya, jika seorang sales memiliki sekor test sebesar 90 maka pendapatannya adalah
y = 9,395 + 1,904(90)
y = 180,775
mudah kan???
Lalu bagaimana kita menginterpretasikan 180,775 tersebut? Tunggu pada postingan selanjutnya.

Pengantar Analisis Multivariat

Ketika ada terminologi multivariat, maka kita pasti akan berpikir ada terminologi univariat ataupun bivariat. Nah, dari namanya, maka multivariat sebenarnya berasal dari dua kata. “Multi” yang berarti “banyak” dan “variat” yang berarti variabel. Dengan demikian, multivariat adalah banyak variabel. Dari sini, kita sudah bisa menduga-duga apa arti univariat dan bivariat. ( dah bisa di duga kan?)

Analisis multivariat muncul karena masalah yang dihadapi peneliti semakin rumit. Misalnya, seorang guru yang meneliti prestasi seorang siswa. Dia ingin melihat faktor-faktor apa saja yang mempengaruhi prestasi siswa tersebut. Tentu saja akan ada banyak faktor yang mempengaruhinya seperti keturunan, lingkungan belajar, metode pengajaran dan lain sebagainya. Variabel-variabel tersebut perlu di analisis dengan menggunakan analisis multivariat.

Analisis multivariat secara umum terbagi atas dua macam: Model Dependen dan model Interdependen.

Model dependen berkenaan dengan hubungan antara variabel dependen dan variabel independen. Bisa kedua variabel tersebut multivariat atau salah satu dari keduanya. Nah sekiranya variabel dependen berskala ratio sedangkan variabel independen yang multivariat juga berskala interval/ratio, maka analisis multivariat yang tepat untuk memecahkan masalah ini adalah analisis regresi ganda (Multiple Regression Analysis). Sedangkan bila variabel dependen berskala nominal dan independen berskala interval/ratio, maka analisis yang sesuai adalah analisis regresi logistic (Logistic Regression Analysis).

Model interpenden adalah model analisis multivariat yang tidak membedakan variabel yang dianalisis apakah dependen atau independen. Bila semua variabel berskala interval atau ratio, maka ada 4 yaitu (1) analisis komponen utama (Principal Component Analysis), (2) analisis faktor (Faktor Analys), (3) Penskalaan Multidimensional Metrik (metric Multidimensional Scaling dan (4) analisis rumpun (Cluster Analysis). Sedang jika semua variabel yang dianalisis berskala nominal, maka model analisis yang sesuai adalah model log linear (Log linear model)

Selain model-model multivariat di atas, juga terdapat model yang lain seperti Analisis Regresi Ordinal, analisis regresi polikotomus, analisis regresi poisson dan analisis jalur. Analisis regresi ordinal adalah model regresi yang variabel dependen maupun independennya berskala ordinal. Sedang analisis regresi polikotomus adalah model yang variabel dependennya lebih dari dua buah seperti amat berat, berat ringan, amat ringan dan lain sebagainya. Analisis regresi poisson terjadi jika variabel dependen mengikuti distribusi poisson. Analisis jalur digunakan untuk mempelajari efek langsung dan tak langsung dari variabel.

Post-Hoc Test (Uji Lanjut) : Metode Tukey

Dalam pengujian ANAVA, kita dapat menarik kesimpulan apakah menerima atau menolak hipotesis. Jika kita menolak hipotesis, artinya bahwa dari variabel-variabel yang kita uji, terdapat perbedaan yang signifikan. Misalnya jika kita menguji perbedaan 4 metode mengajar terhadap prestasi siswa, kita bisa menyimpulkan bahwa ada perbedaan dari keempat metode tersebut. Akan tetapi, kita tidak mengetahui, metode manakah yang berbeda dari keempatnya. Secara statistik,kita tidak bisa mengatakan bahwa yang terbaik hanya dengan memperhatikan rata-rata dari setiap metode tersebut.

Untuk menjawab pertanyaan metode manakah yang berbeda, maka statistic memiliki teknik post hoc test untuk mengetahui, variabel manakah yang memiliki perbedaan yang signifikan. Ada banyak metode yang ada. Di SPSS ada banyak teknik post hoc. Diantaranya jika asumsi homogenitas varian terpenuhi, maka teknik yang bisa dipergunakan adalah: LSD (least square differences), Tukey, Bonferoni, Duncan, scheffe dan lain sebagainya. Dan jika tidak ada asumsi homogenitas varian, maka teknik yang bisa dipergunakan adalah tamhane T2, dunnett’s T3, games-howell dan dunnett’s C.

Jika jumlah n setiap variabel sama, maka teknik yang bisa digunakan adalah LSD, student Newman-Keuls (SNK) dan Tukey. Akan tetapi jika jumlah n tiap variabel tidak sama, maka kita bisa menggunakan teknik scheffe. Untuk membicarakan setiap teknik itu, akan sangat membutuhkan waktu yang lama. Karena itu pada kesempatan ini saya hanya akan membahas salah satu teknik saja secara manual yaitu teknik Tukey.

Teknik Tukey juga biasa disebut dengan HSD (honestly Significant difference). Untuk melakukan teknik ini, kita memerlukan salah satu test statistic yaitu Q yang dianalogikan dari statistik-t yang didefinisikan secara matematis:

Sekarang kita lihat bagaimana cara menggunakan teknik ini. Misalnya kita memiliki empat metode yang kita uji untuk melihat apakah ada perbedaan metode serta jika ada, manakah di antara keempat metode tersebut yang berbeda secara signifikan.

dari data tersebut, kita bisa membuat rangkuman analisis varian seperti berikut ini:

berdasarkan table tersebut, kita dapat menyimpulkan bahwa H0 di tolak sehingga kita bisa mengatakan ada perbedaan yang signifikan dari keempat metode yang di pergunakan. Pertanyaan selanjutnya adalah metode manakah yang berbeda? Untuk menjawabnya kita memerlukan teknik tukey.

Langkah pertama yang kita lakukan adalah kita membuat matriks korelasi dari rata-rata setiap variabel seperti ini:

Matriks dibuat mulai dari metode yang memiliki rata-rata terkecil. Langkah selanjutnya adalah mencari perbedaan setiap metode. Misalnya antara metode 2 dan metode 4 memiliki perbedaan: 12,4 – 8,4 = 4, antara metode 2 dan 1 memiliki perbedaan 13,6 – 8,4 = 5,2 dan seterusnya.

Langkah berikutnya adalah mencari nilai Q dengan membagi perbedaan mean antara masing-masing metode dengan

nilai Mean Square Within (MSW) diperoleh dari rangkuman table ANAVA). Dengan demikian,

Sebagai contoh 4,00/1,19 = 3,36, 5,20/1,19 = 4,37. Untuk lebih jelasnya, saya rangkumkan dalam table berikut ini:

Dengan memperhatikan nilai Q dibandingkan dengan nilai r table, dimana r adalah jumlah means. Dalam kasus ini, jumlah kolom adalah 4. Adapun derajad kebebasan adalah 16. Jumlah 16 merupakan n – k = 20 -4 = 16. Dengan demikian, nilai kritis untuk Q adalah 4,05 dan 5,19 untuk tingkat kepercayaan 0,05 dan 0,01. Dengan demikian, nilai Q yang berada di atas nilai Q kritis hanyalah antara metode 1 dan 2 serta 1,3 pada tingkat kepercayaan 0,05 serta metode 1 dan 3 pada tingkat kepercayaan 0,01.

Insya Allah pada postingan selanjutnya, saya akan menunjukkan bagaimana menggunakan post hoc test cara scheffe sekalian dengan interpretasinya.

Analisis Regresi: Sebuah Pengantar

Salah satu teknik analisis data yang sedang ngetrend belakangan ini adalah regresi. Regresi adalah salah satu metode peramalan yang dikenal dalam statistic. dalam dunia pendidikan, regresi sangat sering digunakan oleh mahasiswa yang sedang menyelesaikan tugas akhir.

Analisis regresi berguna untuk mengetahui pengaruh antara variable bebas (yang juga dikenal dengan prediktor) yang disimbolkan dengan X dan variable terikat (yang juga dikenal dengan kriterium) yang disimbolkan dengan Y.

Istilah variable bebas dan variable terikat berasal dari matematika. Dalam penelitian, variable bebas adalah variable yang dimanipulasikan oleh peneliti. Misalnya seorang peneliti di bidang pendidikan yang mengkaji akibat dari berbagai metode pengajaran. Peneliti dapat menentukan metode (sebagai variable bebas) dengan menggunakan berbagai macam metode. Dalam bahasa yang lebih lugas, variable bebas adalah variable yang meramalkan sedangkan variable terikat adalah variable yang diramalkan. Variable terikat adalah akibat yang di duga mengikuti perubahan dari variable bebas.

Sebagai contoh, misalnya kita mengkaji tentang hubungan antara kecerdasan dan prestasi sekolah, maka kecerdasan adalah variable bebas dan prestasi sekolah adalah variable terikat. Jika kita meneliti hubungan antara merokok dan penyakit kanker, maka merokok adalah variable bebas dan penyakit kanker adalah variable terikat.

Dalam melakukan penentuan variable bebas dan variable terikat harus dilandasi dengan teori yang kuat. Hal ini karena statistic tidak dapat membedakan data yang memiliki teori dengan data yang tidak berteori. Jika data yang kita gunakan tidak memiliki landasan teori yang kuat, maka kesimpulan yang kita ambil akan sangat menyesatkan. Misalnya, kita memprediksi prestasi belajar dengan hasil panen padi. Secara statistic, bisa jadi prestasi belajar dipengaruhi oleh panen padi. Akan tetapi dalam kenyataannya, hasil analisis ini tidak dapat dibuktikan.

Model regresi bermacam-macam. Misalnya, regresi linear, regresi parabola, regresi hiperbola, regresi fungsi pangkat tiga dan lain-lain. Akan tetapi, regresi yang paling sering digunakan adalah regresi linear. model regresi linear dapat dituliskan dalam bentuk matematis sebagai berikut:

β0 = intersep Y untuk populasi
β0 = slope untuk populasi
ε = random error dalam Y untuk observasi ke-i

Dalam menentukan persamaan model regresi linear sederhana diperlukan metode tertentu. Metode yang paling sering digunakan adalah metode kuadrat terkecil (Least Square method). Pada dasarnya, least square method adalah metode meminimasi persamaan kuadrat. Dengan meminimasi persamaan kuadrat tersebut, maka akan didapatkan nilai untuk slope dan nilai untuk intersep yang akan membuat persamaan itu menjadi yang paling baik.

Misalnya, jika kita ingin meramal hubungan antara intelejensi dan prestasi belajar. Dengan menggunakan metode regresi linear sederhana, kita mendapatkan persamaan sebagai berikut:
Y = 2,55 + 0,93 (X) Maka -12,77 disebut intersep dan 0,93 disebut slope. Slope sebesar 0,93 berarti bahwa setiap peningkan 1 unit X (intelejensi), maka diperkirakan akan terjadi peningkatan sebesar 0,93 pada prestasi belajar. Nilai 2,55 melambangkan prestasi belajar. Kita bias gunakan model regresi yang telah kita hasilkan tersebut untuk memprediksi prestasi belajar seorang anak apabila dia memiliki intelejensi tertentu.

Pada postingan berikut insya Allah saya akan mendemonstrasikan bagaimana melakukan perhitungan untuk menemukan model persamaan regresi linear sederhana.

Pengujian Linearitas

Salah satu teknik analisis regresi yang paling sering digunakan adalah regresi linear. regresi linear dapat digunakan apabila asumsi linearitas dapat terpenuhi. Apabila asumsi ini tidak terpenuhi, maka kita tidak dapat menggunakan analisis regresi linear. akan tetapi kita bias menggunakan analisis regresi nonlinear.

Asumsi linearitas adalah asumsi yang akan memastikan apakah data yang kita miliki sesuai dengan garis linear atau tidak. Asumsi ini dapat diketahui dengan mencari nilai deviation from linearity dari uji F linear. untuk mengetahui nilai tersebut, kita akan menggunakan data yang kita miliki pada postingan sebelum ini.

Masukkan variable science pada kotak Dependent List dan math pada kotak Independent List. Kemudian klik option dan tandai test for linearity. Kemudian klik OK.

pada output SPSS, akan kita dapatkan hasil pengujian yang dirangkum dalam table analisis varian (ANOVA Table) seperti berikut ini:

Jika angka pada Deviation From Linearity lebih besar dari 0,05 ( > 0,05), berarti hubungan antara variable dependen dengan variable independen adalah linear. berdasarkan hasil pengujian terlihat bahwa nilai Sig. untuk Deviation from Linearity sebesar 0,133 yang berarti lebih besar dari 0,05 dengan demikian, dapat disimpulkan bahwa terdapat hubungan yang linear antara variable dependen dan independen.

pengujian asumsi klasik regresi

Analisi regresi merupakan alat analisis yang paling sering digunakan para peneliti akhir-akhir ini. Hal ini tentu saja di dorong oleh perkembangan software komputer yang semakin mempermudah proses kalkulasi yang dulunya sangat sulit dikerjakan secara manual. Analisis regresi adalah alat analisis yang termasuk dalam statistik parametrik. Dengan demikian, untuk mempergunakan regresi, seorang peneliti harus melakukan pengujian asumsi terlebih dahulu. Asumsi yang harus diuji adalah, normalitas sebaran, linieritas (jika kita hendak mempergunakan regresi linier), heteroskedastisitas, multikolinearitas serta autokorelasi.

Pada postingan edisi tahun baru ini, saya hendak mendemonstrasikan bagaimana kita melakukan pengujian terhadap asumsi-asumsi statistika parametrik jika kita hendak menggunakan analisis regresi. Karena keterbatasan tempat, saya hanya akan memperlihat pengujian terhadap asumsi normalitas sebaran data, homokedastisitas serta multikolinearitas. Dua asumsi yang lain akan saya selanjutnya karena memerlukan pembahasan tersendiri.

Saya akan menggunakan data dari buku Applied Statistics for the Behavioral Sciences karangan Hinkle dan kawan-kawannya. Kita hendak menguji apakah sekor yang diperoleh siswa pada mata pelajaran matematika (X) dapat mempengaruhi sekor siswa pada mata pelajaran science (Y). pertama kita masukkan data ke dalam program SPSS seperti berikut ini:

Setelah itu klik analyze > Regression > Linear sehingga muncul kotak dialog linier regression.

Masukkan variabel science pada kotak Dependent dan variabel math pada kotak independent(s). kemudian klik statistics sehingga muncul tampilan seperti berikut ini:

Tandai Durbin-Watson pada Residuals untuk melihat nilai autokorelasi, collinearity diagnostics untuk melihat asumsi multikolinearitas. Klik continue untuk melanjutkan. Setelah itu klik kotak Plots dan tandai histogram dan normal probability plot pada standardized residual plot. Kemudian masukkan variabel SRESID ke dalam kotak Y dan ZPRED ke dalam kotak X untuk melihat asumsi heteroskedastisitas. Tekan continue.

Abaikan yang lain dan klik OK untuk melihat hasil analisis yang telah dilakukan oleh SPSS. Sekarang akan terbuka window baru yang berisi output SPSS. Nah, sekarang kita lihat hasil pengujian asumsi-asumsi tersebut.

1. Asumsi normalitas sebaran
Asumsi normalitas dapat diketahui dengan berbagai cara. Baik melalui pengujian statistik seperti Chi Square, Kolmogorov-Smirnov maupun Shapiro Wilk, berikut ini, pengujian normalitas dilakukan dengan histogram dan Plot Normal.

Berdasarkan output histogram di atas, terlihat bahwa sebaran data yang ada menyebar merata ke semua daerah kurva normal. Dengan demikian dapat disimpulkan bahwa data yang kita miliki mempunyai distribusi normal. Demikian juga dengan normal P-P Plot memperlihatkan hasil yang sama.
2. Asumsi homokedastisitas
Pengujian homokedastisitas juga sering disebut uji homogenitas. Dalam postingan ini, pengujian homogenitas dilakukan dengan menggunakan Scatter Plot nilai residual variabel dependen. Pengambilan kesimpulan dilakukan dengan memperhatikan sebaran plot data.

Berdasarkan plot data di atas, dapat kita tarik kesimpulan bahwa tidak terjadi persoalan heterokedastisitas. Artinya bahwa data yang kita kita miliki adalah data yang homogen. Jika terjadi persoalan heterokedastisitas, maka dapat dilakukan transformasi log natural (LN)

3. Asumsi multikolinearitas
Pengujian multikolinearitas juga sering disebut uji independensi. Pengujian ini akan melihat apakah antara sesama prediktor memiliki hubungan yang besar atau tidak. Jika hubungan antara sesama prediktor kuat maka antara prediktor tersebut tidak independen. Dalam contoh kita ini, hanya memiliki satu prediktor yaitu sekor matematika sehingga dapat dikatakan terbebas dari persoalan multikolinearitas. Akan tetapi, jika kita memiliki satu predikto dan hendak menguji asumsi ini, kita bisa melihat pada output SPSS berikut ini.

Pengujian multikolinearitas diketahui dari nilai VIF setiap prediktor. Jika nilai VIF prediktor tidak melebihi 10, maka dapat kita katakan bahwa data kita terbebas dari persoalan multikolinearitas. Pada contoh di atas, nilai VIF tidak melebihi 10 sehingga dapat disimpulkan bahwa model tidak terkena persoalan multikolinearitas.

StatistikA Pendidikan

Cari Blog Ini

SELAMAT DATANG SOBAT...

Selasa, 15 September 2009

Uji F Parsial (Partial F Test)

Lampiran Uji F Parsial

Sabtu, 29 Agustus 2009

ANALISIS REGRESI BERGANDA

Kamis, 09 Juli 2009

Analisis Regresi Linier dengan SPSS

Rabu, 20 Mei 2009

Pengantar Analisis Multivariat

Kamis, 05 Maret 2009

Post-Hoc Test (Uji Lanjut) : Metode Tukey

Selasa, 06 Januari 2009

Analisis Regresi: Sebuah Pengantar

Pengujian Linearitas

Senin, 05 Januari 2009

pengujian asumsi klasik regresi

Asal Pengunjung