Mengapa validitas dan reliabilitas penting dalam pengukuran hasil BELAJAR siswa

By: Furing, Stefanus and Inany

 Setelah menentukan jenis pengukuran untuk mengevaluasi tujuan, memilih atau mengembangkan instrument menjadi tugas berikutnya. Penting untuk memastikan bahwa instrument tersebut memiliki dua kualitas yang diperlukan: Validitas dan Reliabilitas

Uji validitas dibutuhkan setelah ada indikasi hubungan langsung antara tujuan pembelajaran dan butir soal evaluasi. Tes dianggap valid ketika dapat mengukur dengan spesifik apa yang telah dipelajari sebagaimana ditentukan oleh tujuan pembelajaran untuk setiap unit atau topik. Menurut Arikunto (2002:59) sebuah tes disebut valid apabila tes itu dapat tepat mengukur yang hendak diukur.

Salah satu cara memastikan tinggi rendahnya tingkat uji validitas adalah merencanakan sebuah tabel spesifikasi kedua.Tabel memiliki dua tujuan. Pertama, tabel tersebut membantu memverifikasi hasil pada level belajar tingkat tinggi (aplikasi, analisis, sintesis, dan evaluasi) mendapat perhatian memadai. Kedua, tabel ini menunjukkan jumlah pertanyaan yang diperlukan untuk mengukur tujuan pembelajaran individu atau kelompok. Nilai-nilai frekuensi ini mencerminkan pentingnya setiap tujuan yang diberikan selama pembelajaran.

Tabel 1 menunjukkan sifat dan jumlah pertanyaan tes untuk tujuan pembelajaran dalam unit berbasis pengetahuan. Tabel 2 menunjukkan jumlah butir soal tes berkaitan dengan tujuan pembelajaran pada tugas yang melibatkan berbagai tingkat kognitif dan kinerja psikomotorik. Dengan mendesain seperti tabel tersebut dapat membuat yakin dalam menguji semua tujuan pembelajaran dan memberi masing-masing banyaknya perhatian yang tepat.

Meskipun validitas biasanya berhubungan dengan tes pengetahuan, tetapi juga memiliki peran yang sama pentingnya untuk semua jenis pengukuran evaluasi. Ide kuncinya adalah bahwa tes menilai apa yang seharusnya untuk diukur. Dengan demikian, survey sikap perlu digunakan untuk mengukur respon mata pelajaran (bukan mengutamakan popularitas guru atau beberapa variabel insidental lainnya). Uji kinerja perlu untuk menilai proses dan hasil yang berkaitan dengan keahlian khusus. Pengamatan pembelajaran perlu untuk menggambarkan peristiwa secara akurat untuk menangkap apa yang terjadi ketika proses pembelajaran.

Validitas tidak selalu mudah untuk diukur atau dihitung. Berbagai jenis yang ada dan dibahas dalam kebanyakan teks pengukuran  (misalnya: validitas “face”, validitas isi, validitas prediksi, validitas “ada sekarang”, dan validitas konstruksi). Arikunto (2002:67-69) menjelaskan macam-macam validitas yaitu:

a.       Validitas Isi (content validity)

Sebuah tes dikatakan memiliki validitas isi apabila mengukur tujuan khusus yang sejajar dengan materi atau isi pelajaran yang diberikan. Validitas isi dapat diusahakan tercapainya sejak saat penyusunan dengan cara memerinci materi kurikulum atau materi buku pelajaran.

b.      Validitas Konstruksi (construct validity)

Sebuah tes dikatakan memiliki validitas konstruksi apabila butir soal yang membangun tes tersebut mengukur setiap aspek berpikir yang disebutkan dalam tujuan pembelajaran.

c.       Validitas “ada sekarang” (concurrent validity)

Validitas ini lebih umum dikenal dengan validitas empiris. Sebuah tes dikatakan memiliki validitas empiris jika hasilnya sesuai dengan pengalaman. Data pengalaman tersebut sekarang sudah ada (ada sekarang, concurrent). Hasil tes dibandingkan dnegan alat banding yaitu hasil tes sebelumnya.

d.      Validitas Prediksi (predictive validity)

Sebuah tes dikatakan memiliki validitas prediksi apabila mempunyai kemampuan meramalkan apa yang akan terjadi di masa yang akan datang.

Kemp (1994:165) menyatakan “Dua jenis yang paling penting bagi para perancang pembelajaran adalah validitas “face” dan validitas isi, keduanya melibatkan proses pengambilan keputusan.” Validitas “face” didukung oleh penilai (biasanya seorang ahli) yang pada kenyataannya untuk menilai pengukuran minat. Validitas isi adalah serupa dengan validitas keadaan luar, tapi biasanya melibatkan sebuah pemeriksaan  yang lebih spesifik terhadap individu atau memastikan bahwa setiap ranah isi sudah sepantasnya ditujukan. Sebagai contoh ujian akhir yang mencapai 90% dari butir soal hanya satu dari empat unit matapelajaran utama yang memiliki validitas isi dipertanyakan. Tabel spesifikasi (lihat tabel 9-1 dan 9-2) terutama berguna dalam membuat penilaian validitas isi.

Arikunto (2002:185-186) menjelaskan bahwa tabel spesifikasi diperlukan untuk menjaga agar tes yang disusun tidak menyimpang dari bahan (materi) serta aspek kejiwaan (tingkah laku) yang akan dicakup dalam tes. Tabel spesifikasi dapat disebut juga sebagai grid, kisi-kisi atau blue print. Wujudnya adalah sebuah tabel yang memuat tentang perincian materi dan tingkah laku beserta proporsi yang dikehendaki oleh penilai. Tiap kotak diisi dengan bilangan yang menunjukkan jumlah soal.

            Langkah-langkah membuat tabel spesifikasi yaitu:

1.      Menentukan pokok-pokok materi dan bobot untuk masing-masing pokok materi yang akan dimasukkan dalam tes evaluasi. Penentuan imbangan bobot dilakukan oleh penyusun soal berdasarkan atas luasnya materi atau kepentingannya untuk dites. Penentuan imbangan dilakukan atas perkiraan saja. Pada waktu menuliskan angka tidka perlu dihitung-hitung bahwa jumlahnya harus 10 karena semuanya akan diubah menjadi angka dlaam bentuk presentase.

2.      Pokok-pokok materi dapat dipindahkan ke dalam tabel dan mengubah indeks (bobot pokok materi) menjadi presentase.

3.      Memerinci banyaknya butir soal untuk tiap-tiap pokok materi dan angka ini dituliskan pada kolom paling kanan. Caranya membagi jumlah butir soal yang ditentukan dengan banyaknya pokok materi berdasarkan imbangan bobot yang tertera sebagai presentase. Banyaknya butir soal sangat ditentukan oleh: waktu yang tersedia dan bentuk soal.

Langkah selanjutnya merupakan langkah khusus,antara lain

·         Untuk materi yang seragam, maka banyaknya butir soal untuk setiap kotak (tingkat ranah pada taksonomi Bloom yang diharapkan) diperoleh dengan cara menghitung persentase dari banyaknya soal bagi tiap pokok materi yang sudah tertulis di kolom paling kanan. Ada lagi cara lain yang diambil yaitu mulai dari pengisian kotak-kotak kemudian baru diperoleh jumlah soal tiap pokok materi.

·          Untuk materi yang tidak seragam, tidak perlu mencantumkan angka persentase di kepala kolom.

Apabila tabel spesifikasi sudah jadi, maka guru sudah melakukan hal yang betul dan aman dalam rangkaian tugas menyusun tes. Penyusunan tes yang disertai dengan melalui tabel spesifikasi dapat dijamin bahwa tesnya cukup mempunyai validitas isi dan validitas tingkah laku.  Berikut ini contoh pembuatan tabel spesifikasi:

Pokok-pokok materi:                           (Bobot)

c.       Macam-macam cara evaluasi           (5)

d.      Persyaratan evaluasi                        (4)

Pengertian evaluasi (14%)

Macam-macam cara evaluasi (36%)

Persyaratan evaluasi (29%)

Langkah Khusus untuk materi yang seragam

Pengertian evaluasi (14%)

Macam-macam cara evaluasi (36%)

Persyaratan evaluasi (29%)

Cara menentukan banyak butir soal tiap kotak dengan cara:

Kotak A = 50/100 x 7 soal = 3,5 soal (4 soal)

Langkah Khusus untuk materi yang tidak seragam

Cara menentukan banyak butir soal tiap kotak dengan cara:

Untuk BAB 1, Ingatan 60%, pemahaman 30%, dan aplikasi (10%) maka:

Kotak A = 60/100 x 10 soal = 6 soal

Untuk BAB 2, Ingatan 20%, pemahaman 50%, dan aplikasi (30%) maka:

Kotak D = 20/100 x 16 soal = 3 soal

            Di bawah ini contoh tabel spesifikasi yang telah jadi (Kemp, 1994).Tabel spesifikasi ini telah mengalami langkah-langkah yang telah dijelaskan di atas:

Spesifikasi berkaitan jumlah butir soal tes dengan tingkat tujuan pembelajaran pada level kognitif.

Topik: Pelayanan masyarakat untuk orang tua.

Mengenali kesalahpahaman dan mitos tentang orang tua.

Membedakan antara fakta dan opini tentang perilaku sosial dan fisik orang tua.

Menggambarkan sikap orang tua sebagai praktik dari berbagai kelompok etnis.

Menempatkan informasi keluarga dengan program-program komunitas untuk orang tua.

Mengklasifikasikan organisasi masyarakat sesuai jenis layanan yang ditawarkan untuk orang tua.

Mengembangkan  rencana untuk menilai program individu masyarakat untuk orang tua.

Menilai manfaat program  komunitas untuk orang tua.

Mengingat situasi nyata, menganalisis kebutuhan warga negara senior&merekomendasikan satu/lebih program komunitas.

Spesifikasi berkaitan dengan jumlah butir soal tes untuk tujuan belajar pada tingkat kognitif dan kinerja psikomotorik.

Tugas: Mengukur nilai-nilai listrik dalam susunan seri

Daftar simbol-simbol yang digunakan untuk komponen dalam susunan listrik

Mengenal komponen- komponen dari susunan seri lengkap

Mengidentifikasi susunan seri di diagram skematis

Merakit sebuah susunan seri pada komponen yang menggunakan papan

Mengatur dan menyesuaikan sebuah  multimeter untuk mengukur masing-masing dari tiga nilai listrik

Mengukur dan menghitung tegangan, arus dan perlawanan di susunan seri.

 

Reliabilitas mengacu pada tes kemampuan untuk mendapatkan hasil yang konsisten kapanpun digunakan. Jika siswa-siswa yang sama, tanpa perubahan dalam persiapan mereka, mengambil tes yang sama atau bentuk tes yang sama, pasti ada sedikit variasi dalam nilai. Arikunto (2002:59-60) menyatakan bahwa reliabilitas diambil dari kata reliability dalam bahasa Inggris, berasal dari kata asal reliable yang artinya dapat dipercaya. Sebuah tes dikatakan reliabel apabila hasil-hasil tes tersebut menunjukkan ketepatan yaitu jika para siswa diberikan tes yang sama pada waktu yang berlainan, maka setiap siswa akan tetap berada dalam urutan (ranking) yang sama dalam kelompoknya. Beberapa hal  yang dapat mempengaruhi reliabilitas tes:

·    Lebih banyak pertanyaan yang digunakan menghubungkan setiap tujuan pembelajaran, tes akan lebih reliabel. Jika hanya satu pertanyaan yang bertanya tentang tujuan yang utama, hal itu dapat menyulitkan untuk menetapkan apakah seorang siswa telah memperoleh pengetahuan atau menjawab dengan benar. Arikunto (2002:87) menyatakan bahwa semakin panjang tes, maka reliabilitasnya tinggi. Kualitas butir-butir soal ditentukan oleh:

a)      Jelas tidaknya rumusan soal.

b)      Baik tidaknya pengarahan soal kepada jawaban sehingga tidak menimbulkan salah jawab.

c)      Petunjuknya jelas sehingga mudah dan cepat dikerjakan.

·    Tes harus diurus dalam cara yang standar. Jika lebih dari satu orang mengikuti ujian langsung, pembelajaran yang serupa harus diberikan kepada setiap kelompok individu yang mengambil tes selama periode waktu. Menurut Arikunto (2012:89) suatu tes yang dicobakan kepada kelompok yang terdiri dari banyak siswa akan mencerminkan keragaman hasil yang menggambarkan besar-kecilnya reliabilitas tes.

·    Setiap orang harus diuji dalam kondisi yang sama sehingga gangguan tidak memberikan pengaruh perbedaan nilai.

·    Ujian harus memiliki waktu yang sama untuk semua siswa.

·    Mungkin faktor yang paling penting yang dapat mempengaruhi uji reliabilitas adalah metode penskoran, terutama ketika menandai tes esai atau menilai kinerja pada skala peringkat. Meskipun usaha menstandarkan berbedanya skor tes individu, kriteria dapat dilihat dalam berbagai cara, dan variasi tidak dapat dihindari. Mengurangi kesubjektifitasan menskor, maka hasil tes akan menjadi lebih realibel.

·    Hal-hal yang berhubungan dengan penyelenggaraan tes juga menentukan hasil tes (petunjuk yang diberikan sebelum tes dimulai, pengawas yang tertib, suasana lingkungan dan tempat tes)

Ada beberapa metode yang berbeda untuk menilai reliabilitas:

·      Metode test-retest (Metode Tes Ulang)

Dalam menggunakan metode ini, pengetes hanya memiliki satu seri tes tetapi dicobakan dua kali. Untuk tes yang banyak mengungkap pengetahuan (ingatan) dan pemahaman, cara ini kurang mengena karena siswa masih ingat dnegan butir-butir soalnya. Oleh karena itu tenggang waktu antara pemberian tes pertama dengan tes kedua harus diperhatikan.

·      Metode parallel forms (Metode Bentuk Paralel)

Metode ini dalam bahasa Indonesia disebut juga tes parallel atau tes ekuivalen yaitu dua buah tes yang mempunyai kesamaan tujuan, tingkat kesukaran dan susunan tetapi butir-butir soalnya berbeda. Pengetes harus menyiapkan dua buah tes dan masing-masing dicobakan pada kelompok siswa yang sama.

·      Metode split-half (Metode Belah Dua)

Dalam menggunakan metode itu pengetes hanya menggunakan sebuah tes dan dicobakan satu kali.Banyak pemakai metode ini salah membelah hasil tes pada waktu menganalisis, yaitu mereka mengelompokkan hasil separuh subjek siswa dan separuh yang lain kemudian hasil kedua kelompok ini dikorelasikan. Memakai metode ini yang benar harus ingat bahwa banyaknya butir soal harus genap agar dapat dibelah. Ada dua cara membelah butir soal ini, yaitu:

1)      Membelah atas butir-butir soal genap dan butir-butir soal yang ganjil (Belahan ganjil-genap)

2)      Membelah atas butir-butir soal awal dan butir-butir soal akhir, yaitu separuh jiwa pada nomer awal dan separuh pada nomer akhir (Belahan awal-akhir)

·      Ketika dihitung dengan rumus popular menggunakan formula seperti KR 20 dan koefisien alfa, internal consistency reliabilitas sebanding dengan melakukan semua korelasi split-half yang unik. Internal consistency yang tinggi berarti bahwa butir soal tes yang berbedam engukur kemampuan atau sifat yang sama.

3. Hubungan antara Validitas dan Reliabilitas


Pertanyaan terakhir untuk pertimbangan adalah hubungan antara validitas dan reliabilitas. Apakah validitas memerlukan reliabilitas? Apakah reliabilitas memerlukan validitas? Jawaban atas dua pertanyaan ini adalah ya dan tidak.

Agar tes menjadi valid, tes harus reliabel. Berpikir tentang hal ini: Bagaimana bisa tes mengukur apa yang sebenarnya, jika skor bervariasi dari ujian ke ujian (tanpa ada perubahan apapun dalam kondisi ujian atau Negara siswa)? Di sisi lain, bisa memiliki realibitas tanpa validitas. Misalnya, seorang guru mungkin mencoba menilai kemampuan siswa untuk merancang pembelajaran dengan memberi mereka 50 butir soal benar/salah yang menguji teori-teori pembelajaran. Nilai mungkin tetap konsisten dari ujian satu ke ujian berikutnya, tetapi mereka sulit mencerminkan keterampilan rancangan pembelajaran, hasil dari minat yang utama. Scarvia B. Anderson (dalam Arikunto, 2002) menyatakan bahwa persyaratan tes adalah validitas dan reliabilitas. Validitas lebih penting dan reliabilitas itu perlu untuk mendukung terbentuknya validitas. Sebuah tes mungkin reliabel tetapi tidak valid. Sebaliknya, sebuah tes yang valid biasanya reliabel. 


Arikunto, Suharsimi. 2002. Dasar-dasar Evaluasi Pendidikan. Jakarta: Bumi  Aksara

Kemp,J.E, Morrison, G.R., and Ross, S.M. 1994. Designing Effective Instruction. New York: Maxwell Macmilan International.