Tuesday 20 December 2011

Korelasi dan regresi

BAB 11

PROSEDUR KORELASI DAN REGRESI





11.0     Pengenalan


Bab ini akan membincangkan  analisis korelasi,  regresi mudah dan regresi berganda. Perbincangan meliputi konsep dan analisis korelasi dan regresi secara manual serta analisis menggunakan prosedur SPSS.

11.1     Penyelidikan Korelasi


Penyelidikan korelasi  adalah kajian mengenai hubungan linear di antara dua pemboleh ubah. Ukuran untuk menentukan darjah perkaitan ialah pekali korelasi (correlation coefficient). Pekali korelasi berada di antara nilai –1.00 dan +1.00. Korelasi menunjukkan apabila nilai satu pembolehubah berubah, maka pembolehubah yang satu lagi berubah pada arah yang sama. Misalnya, hubungan di antara jumlah jam belajar dengan markah anda di dalam peperiksaan.  Pekali korelasi yang kerap digunakan oleh penyelidik ialah pekali Pearson iaitu untuk menentukan hubungan antara dua pembolehubah aras selang dan nisbah. Simbol rxy menunjukkan korelasi di antara pembolehubah x dan y.

11.2     Pengiraan Pekali Korelasi Pearson


Untuk mengira Pekali Korelasi Pearson (rxy) secara manual boleh menggunakan formula berikut:

           
di mana:

            rxy = pekali korelasi di antara pembolehubah X dan Y
            N  = saiz sampel
            X = nilai skor untuk pembolehubah X
            Y = nilai skor untuk pembolehubah Y
             = sisihan piawai untuk X dan Y



ataupun;

           
       
Kerana;

        ,  dan
            



11.2.1  Mentafsirkan Pekali Korelasi

Pekali korelasi adalah suatu indek yang menunjukkan darjah hubungan di antara pembolehubah. Kita boleh ringkaskan kesimpulan tentang nilai-nilai  ini seperti di bawah:


<><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><><>
Korelasi di antara
Hubungan dikatakan
.8 dan 1.0
Sangat kuat
.6 dan .8
Kuat
.4 dan .6
Sederhana
.2 dan .4
Lemah
.0 dan .2
Sangat Lemah

           

Sebenarnya kaedah terbaik untuk menjelaskan kekuatan hubungan sesuatu pembolehubah ialah dengan mengkuasaduakan nilai pekali itu, .  Misalnya = .93, maka  = .86. Ianya bermaksud kita menganggarkan varians satu pembolehubah dengan mengambilkira varians pembolehubah yang lain. rxy2 ialah pekali penentuan (coefficient of determination). Dalam contoh di atas, jika korelasi di antara pembolehubah ialah .93, maka pekali penentuan ialah .86.  Ini bermaksud 86% varians pembolehubah X dapat diterangkan oleh varians pembolehubah Y, manakala 14% (atau 1 - 0.86) varians lagi tidak dapat diterangkan. Bahagian yang tidak dapat diterangkan tersebut di panggil pekali terasing (coefficient of alienation) yang diabaikan oleh model. Dalam model regresi berganda pula ianya dipanggil pembolehubah sisa (residual factors).


11.2.2  Menguji hipotesis tentang korelasi, 

Hipotesis nul dan alternatif dalam pengujian ini ialah:

  :  = 0 (tidak terdapat hubungan linear di antara pembolehubah X dan Y)
              :  0 (terdapat hubungan linear di antara pembolehubah X dan Y)

Untuk menguji keertian nilai  bagi sampel yang diambil secara rawak,  formulanya ialah:

Jika
 = 0.93
n = 10

maka;
    

 = 7.03


Dalam Jadual Statistik-t, didapati nilai t setentang dengan  = .05 (ujian t dua hujung dengan 8 d.f.) ialah 2.306. Oleh kerana nilai t yang dikira dari sampel melebihi dari t genting dalam jadual, maka kita boleh tolak hipotesis nul   :  = 0. Kesimpulannya, wujud korelasi positif di antara dua pembolehubah tersebut.


11.3     Prosedur Analisis Korelasi

Contoh 1:

Seorang penyelidik ingin mengkaji sama ada minat pelajar menonton rancangan tertentu di TV mempunyai hubungan yang kuat dengan pencapaian pelajar dalam ujian. Sampel seramai 50 pelajar yang telah mengambil satu ujian bulanan di sebuah sekolah telah diambil dengan merekodkan jumlah jam pelajar berkenaan menonton TV seminggu dan markah yang diperolehi dalam ujian berkenaan.

 

  1. Klik  Analyze           Corrrelate            Bivariate
  2. Klik  Markah Ujian dan Jam Menonton TV. Masukkan dalam kotak Variables.   
  3. Pastikan Pearson dipilih dari kotak Correlation Coefficients dan Two-tailed dipilih dari kotak Test of  Significance
  4. Pastikan Flag significant correlations dipilih.
Lihat paparan di bawah



  1. Klik  Options        
  2. Klik  Means and standard deviation dalam kotak Statistics
Lihat paparan di bawah




  1. Klik  Continue
  2. Klik   OK
Lihat output SPSS di bawah   






Penerangan

Jadual analisis korelasi dengan simbol asterik (**) menunjukkan ia signifikan pada aras keertian 0.01 (iaitu 99% selang keyakinan). Keputusan dari output di atas mendapati wujud hubungan negatif yang kuat dan signifikan ( = 0.00 < 0.05) antara markah ujian dan jumlah jam menonton TV. Nilai pekali korelasi -0.94 menunjukkan hubungan kedua-dua pembolehubah sangat kuat tetapi arah hubungan yang bertentangan. Semakin meningkat jumlah jam menonton TV maka markah ujian semakin berkurangan.


Contoh 2:


Analisis korelasi ini adalah untuk menentukan kekuatan hubungan antara ujian pertengahan semester (ujian) dengan peperiksaan akhir semester (peperiksaan) bagi satu subjek tertentu.

Arahan:

Sila ikut langkah 1 hingga 8 seperti di atas.
Lihat output SPSS seperti di bawah



Penerangan

Jadual analisis korelasi dengan simbol asterik (**) menunjukkan ia signifikan pada aras keertian 0.01. Keputusan mendapati wujud hubungan positif  yang kuat dan signifikan ( = 0.00 < 0.05) antara ujian pertengahan semester dan peperiksaan akhir semester. Nilai pekali korelasi 0.82 menunjukkan kedua-dua pembolehubah mempunyai hubungan positif yang sangat kuat. Ini bererti apabila markah ujian pertengahan semester yang diperolehi adalah tinggi maka kemungkinan untuk responden tersebut mendapat markah yang tinggi dalam peperiksaan akhir semester adalah sangat kuat.


11.4  Regresi Mudah dan Regresi Berganda


Terdapat dua bentuk persamaan regresi iaitu regresi mudah dan regresi berganda. Dalam analisis regresi mudah, pembolehubah tidak bersandar (X) digunakan untuk menganggarkan pembolehubah bersandar (Y). Hubungan antara setiap pembolehubah adalah linear dan kedua-dua pembolehubah sekurang-kurangnya pada skala selang (interval). Kaedah kuasadua terkecil (OLS) kerap digunakan untuk menentukan persamaan. 
Kebanyakan fenomena yang berlaku sebenarnya tidak hanya dipengaruhi oleh satu faktor sahaja tetapi disebabkan oleh beberapa faktor tertentu. Contohnya, kenaikan kos sara hidup di bandar Johor Bahru. Selain faktor kemasukan rakyat Singapura membeli-belah di Johor Bahru, faktor perubahan kadar pertukaran asing (RM dengan dollar Singapura), pendapatan penduduk Johor Bahru dan bilangan penduduk Johor Bahru juga boleh mempengaruhi kenaikan kos sara hidup di Johor Bahru. Regresi berganda cuba mengambil kira faktor-faktor ini dan memasukkannya dalam suatu model linear.
Model regresi yang ingin dibina adalah seperti berikut:

Y = 0 + 1X1 + 2X2 + 3X3 + 4X4  +  e

     dengan 0, 1, 2, 3 dan 4 adalah parameter yang hendak dianggarkan daripada satu sampel yang mengandungi data tentang Y,  X1,  X2,  X3 dan  X4.

            di mana :
Y = pembolehubah bersandar (dependent variable) yang hendak diramal. Misalnya, Y ialah perubahan kos sara hidup yang diukur melalui perubahan  indeks harga pengguna bagi barangan dan perkhidmatan di Johor Bahru.

X1,  X2,  X3,  X4  = pembolehubah tak bersandar (independent variables). Contohnya:
X1 = kadar pertukaran (RM / S$)
X2 = pendapatan penduduk
X3 = bil penduduk
X4 = kemasukan penduduk Singapura
                                      0,   1,   2,   3 dan 4 = parameter yang hendak dianggarkan.

Hipotesis:

 H0   :  Keempat-empat pembolehubah bebas tidak dapat menerangkan secara bererti variasi perubahan di dalam kos sara hidup
 H1   : Keempat-empat pembolehubah bebas dapat menerangkan secara bererti variasi perubahan di dalam kos sara hidup.


Contoh 1:  Analisis Regresi Linear Berganda

Y = 31618.7 + 2.8342X1 – 2472.31X2   +  0.7726X3 + 2.3620X4
       (3.3206)   (0.8867)     (-2.3555)             (34.4789)      (4.2675)

 R2        = .97
D.W          = 1.9665
Nisbah  F  =  856.04

Nilai t diberikan dalam kurungan di bawah persamaan regresi di atas
(Andaikan n = 32, jadi d.k = n - k = 32 - 4 = 28)



i)        R2 = .97
97% dari variasi dalam Y (kos sara hidup) dapat diterangkan oleh keempat-empat pembolehubah bebas: kadar pertukaran, pendapatan, bilangan penduduk dan kemasukan pelawat   Singapura ke Johor Bahru.

ii)       Statistik t bagi  X1   =  0.8867
Statistik t bagi  X2 = -2.3555
Statistik t bagi  X3 = 34.4789
Statistik t bagi  X4 = 4.2675

Pengujian Hipotesis;       Ho:  = 0
                                   H1 :  ≠ 0

  ,  = , 28  =  2.048

Maksudnya pekali yang mempunyai nilai dari 2.048 adalah tidak signifikan.
            X1   tidak signifikan.
            X2, X3 dan X4 adalah signifikan.

ii)                  Hubungan antara pembolehubah bersandar (Y) dan keempat-empat pembolehubah bebas adalah seperti berikut;

Pekali X1 dan Y positif :  Indeks Harga Pengguna (Y) berhubung secara langsung dengan kadar pertukaran (X1).
Pekali X2 dan Y negatif :  Indeks Harga Pengguna (Y) berhubung secara songsang (negatif) dengan pendapatan (X2).
Pekali X3 dan Y positif :  Indeks Harga Pengguna (Y) berhubung secara langsung dengan bilangan penduduk (X3).

Pekali X4  dan Y positif :  Indeks Harga Pengguna (Y) berhubung secara langsung dengan kemasukan warga Singapura (X4).


iv)     =  856.04.

        Kita boleh menguji.
        H0 : 1 = 2 = 3 = 4 = 0       
        (Iaitu tidak ada satu pembolehubah pun mempengaruhi Y)

        H1 : Sekurang-kurangnya satu  Bi≠0
,  = , 28  =  2.048
, , =  2.71
                   
Disebabkan nilai = 856.04  lebih tinggi dari nilai genting dalam jadual
(2.71), maka H0 ditolak.
        dikira >  Jadual
856.04     >  2.71

Ini bermaksud terdapat sekurang-kurangnya satu pembolehubah bebas mempengaruhi pembolehubah bersandar.

Contoh 2:  Model Regresi dengan Pembolehubah Dummy

Model Teoritikalnya:

Y= 0 + 1X1 + 2D2 + 3D3 + 4D4 +U

Y=belanja beli sayur (RM/minggu)
X=Pendapatan (RM x’000 sebulan)
D2 = 1 jika lelaki, = 0 jika perempuan
D3 = I jika Cina;  =  0 jika bukan
D4 = I jiika India; = 0 jika bukan

Diberikan nilai kritikal  pada aras 

Model regresinya dengan (35-4) darjah kebebasan ialah  2.042

Y= 11.743 +15.685 X1-1.251 D2 +5.244 D3 + 5.010 D4 + e
      (7.949)     (3.081)      (1.632)     (2.373)       (3.573)

R2  = .516

Nilai di dalam kurungan ialah nilai ralat piawai (SE) bagi setiap pembolehubah:
                                                                                      
Mencari nilai statistik  setiap pembolehubah:

 X1  =

D2  =   -1.251   = - 0.767
                       1.632

D3  =  5.244      = 2.210
                     2.373

D4  =  5.010      =  1.402
                     3.573 






11.5  Analisis Regresi menggunakan SPSS



Contoh 1:


Seorang pengurus sebuah syarikat jualan langsung ingin mengkaji hubungan di antara jumlah produk yang dijual dalam seminggu (Y) dengan jumlah jam bekerja setiap jurujual (X1) dan harga yang ditetapkan (X2) bagi beberapa kawasan berlainan. Seramai 51 orang jurujual telah dipilih sebagai responden kajian.

 
  1. Klik  Analyze           Regression            Linear
  2. Klik Produk. Masukkan dalam kotak Dependent Box
  3. Klik Masakerja dan harga. Masukkan dalam kotak Independent
Lihat paparan di bawah

  1. Klik  Statistics.
  2. Klik pada Estimates dan Model Fit di bawah kotak Regression Coefficients
  3. Klik pada Casewise dignostics di bawah kotak Residuals. Pastikan Outliers outside dipilih dengan nilai sisihan piawai 3 yang telah ditetapkan.
Lihat paparan di bawah


  1. Klik  Continue.
  2. Klik plots
  3. Pilih *ZRESID. Masukkan item ini dalam kotak Y:
  4. Pilih *ZPRED. Masukkan item ini dalam kotak X:
  5. Dalam kotak Standardized Residual Plots, pilih Normal probability plot
Lihat paparan di bawah


  1. Klik  Continue.
  2. Klik save
  3. Dalam kotak Distances, pilih Mahalanobis
Lihat paparan di bawah



  1. Klik  Continue.
  2. Klik OK
Lihat output SPSS di bawah






Penerangan

Kedua-dua pembolehubah bebas (harga dan masakerja) dapat menjelaskan 71.7% variasi dalam Y (produk yang dijual). Nilai F= 60.87 menunjukkan aras signifikan yang tinggi.

Persamaan regresi : 

                         Produk = 86.9 + 8.608 masakerja – 6.227 harga
Nilai  bagi masakerja diperolehi dari formula  Nilai  bagi harga diperolehi dari formula Darjah kebebasan (d.f.) bagi ujian ini ialah = 51 - 1 = 50.  Bagi 95% aras keyakinan dan ujian satu hujung (one-tailed), nilai kritikal t = 1.67 (rujuk Jadual Taburan t).  Oleh kerana nilai kritikal t < 6.315 bagi pembolehubah masakerja, kita dapat merumuskan pekali penganggar adalah tidak berbeza secara statistik daripada sifar. Maka H0 ditolak iaitu hubungan antara produk dan masakerja adalah signifikan. Ini juga boleh ditunjukkan oleh nilai p = 0.00 < 0.05. Sebaliknya pembolehubah harga tidak menunjukkan hubungan yang signifikan dengan produk (nilai p = 0.237 > 0.05).






Rajah Normal P-P Plot of Regression Standardized Residual bagi pembolehubah bersandar di atas menunjukkan secara relatifnya data bertaburan normal.

Disebabkan tidak ada univariate outliers ditemui, plot casewise tak diperlukan. Jika outliers wujud, plot untuk kes ini akan dikenalpasti dengan sisihan piawai melebihi 3. Perlu dijelaskan bahawa SPSS telah menambah satu lagi pembolehubah iaitu MAH_1. Pembolehubah nilai-nilai jarak (distance value) Mahalanobis menunjukkan bahawa tidak wujud multivariate outliers di antara pembolehubah-pembolehubah bebas. Ini kerana tidak ada nilai-nilai yang lebih besar atau bersamaan dengan nilai kritikal khi-kuasadua iaitu 13.8 pada aras  = 0.001.