Apa fungsi dari analisis tingkat kesukaran butir?

Amongguru.com. Analisis butir soal perlu dilakukan guru sebagai bagian dari rangkaian pelaksanaan evaluasi pembelajaran.

Table of Contents Show

Pengertian Analisis Butir Soal
Tujuan Analisis Butir Soal
Manfaat Kegiatan Analisis Butir Soal
Apakah fungsi dari analisis tingkat kesukaran butir?
Apa manfaat dari analisis butir soal?
Mengapa perlu dilakukan analisis tingkat kesukaran dan daya pembeda soal?
Mengapa kita perlu melakukan analisis daya beda butir soal?

Melalui kegiatan analisis butir soal, guru akan dapat mengkaji dan mengidentifikasi kualitas soal sebagai instrumen penilaian pembelajaran.

Identifikasit terhadap setiap butir soal perlu dilakukan untuk menghasilkan informasi yang berharga terhadap mutu soal yang dijadikan sebagai alat ukur pembelajaran.

Kegiatan analisis butir soal pada dasarnya sebagai umpan balik (feed back) terhadap kualitas soal untuk selanjutnya dilakukan perbaikan dan penyempurnaan kembali terhadap butir-butir soal.

Soal-soal yang disempurnakan tersebut pada masa mendatang diharapkan benar-benar dapat menjalankan fungsinya sebagai alat ukur pembelajaran.

Seperti halnya instrumen lainnya, soal yang diteskan ke peserta didik juga harus memenuhi kriteria baik. antara lain yaitu memiliki validitas dan reliabilitas.

Validitas suatu alat ukur adalah sejauhmana alat ukur itu mampu mengukur apa yang seharusnya diukur. Suatu ter memiliki validitas tinggi apabila tes tersebut mampu menjalankan fungsi ukurnya atau memberikan hasil ukur ukur yang akurat.

Untuk tes hasil belajar, yang utama adalah validitas isi, yakni butir–butir soal yang ditanyakan kepada peserta didik sesuai dan mewakili kompetensi yang harus dicapai oleh peserta didik.

Reliabiitas dapat diartikan sebagai keajegan atau kestabilan hasil pengukuran. Alat ukur yang reliabel adalah alat ukur yang mampu membuahkan hasil pengukuran yang stabil.

Suatu alat ukur dikatakan memiliki reliabilitas tinggi jika digunakan untuk mengukur hal yang sama pada waktu berbeda hasilnya sama atau mendekati sama.

Pengertian Analisis Butir Soal

Analisis butir soal (item analysis) merupakan suatu kegiatan dalam menentukan tingkat kebaikan butir-butir soal suatu tes. Informasi yang diperoleh dari kegiatan analisis butir soal dapat digunakan untuk memperbaiki butir soal yang sudah dibuat.

Analisis butir soal dapat dilakukan apabila suatu tes telah selesai dilaksanakan dan diperoleh jawaban terhadap butir-butir soal yang diteskan.

Soal yang bermutu adalah soal yang dapat memberikan informasi sejelas-jelasnya tentang peserta didik yang sudah dan yang belum menguasai materi pembelajaran.

Baca :

Teknik Analisis Butir Soal (Kualitatif dan Kuantitatif)
Perbedaan Validitas Isi dan Validitas Konstruk dalam Analisis Butir Soal

Analisis butir soal dapat dilakukan secara kualitatif dan kuantitatif. Analisis secara kualitatif berkaitan dengan isi dan bentuk soal (validitas isi dan validitas konstruk).

Sedangkan analisis kuantitatif berhubungan dengan ciri-ciri statistiknya (pengukuran validitas, reliabilitas, daya beda, dan tingkat kesukaran butir soal).

Tujuan Analisis Butir Soal

Analisis butir soal merupakan kegiatan penting yang harus dilakukan guru dalam menyusun soal agar diperoleh soal dengan kualitas baik.

Soal yang bermutu adalah soal yang dapat memberikan informasi setepat-tepatnya tentang penguasan materi peserta didik.

Berikut ini adalah beberapa tujuan dari kegiatan analisis butir soal.

1. Mengkaji dan menelaah setiap butir soal agar diperoleh soal yang bermutu,

2. Meningkatkan kualitas butir tes melalui revisi atau membuang soal yang tidak efektif (tidak valid),

3. Mengetahui informasi diagnostik pada peserta didik tentang pemahaman materi yang diajarkan.

Manfaat Kegiatan Analisis Butir Soal

Analisis butir soal memiliki banyak manfaat, antara lain sebagai berikut.

1. Membantu pengguna tes dalam mengevaluasi kualitas tes yang digunakan,

2. Sesuai untuk penyusunan tes informal, seperti tes yang disiapkan guru untuk peserta didik.

3. Mendukung penulisan soal yang efektif dan berkualitas.

4. Meningkatkan validitas dan reliabilitas soal sehingga tercipta soal yang berkualitas.

Melalui kegiatan analisis butir soal, guru akan dapat menentukan soal-soal yang baik dan soal-soal yang cacat atau tidak berfungsi dengan baik.

Selain itu, guru dapat merevisi soal-soal yang sudah tidak relevan dengan materi yang diajarkan dengan melihat banyaknya peserta didik yang tidak mampu menjawab butir soal tertentu.

Demikian pengertian analisis butir soal, tujuan, dan manfaatnya dalam evaluasi hasil belajar. Semoga bermanfaat,

Pada bab ini mengkaji tentang pengertian tingkat kesukaran butir. daya pembeda butir, efektivitas distractor, validitas butir, dan reliabilitas tes, dan acuan penilaian, serta dapat menghitung serta menerapkan dalam penilaian pembelajaran di kelas.

2. Kemampuan Akhir yang Diharapkan :

Menjelaskan tingkat kesukaran butir
Menjelaskan daya pembeda butir
Menjelaskan validitas butir secara kualitatif dan kuantitatif
Menjelaskan reliabilitas tes
Menganalisis tingkat kesukaran butir
Menganalisis daya pembeda butir
Menganalisis validitas butir secara kualitatif dan kuantitatif
Menganalisis reliabilitas tes
Menentukan kelulusan dengan menggunakan acuan penilaian PAN dan PAP.

B. Penyajian

Tes merupakan instrumen atau alat yang digunakan untuk mengumpulkan data hasil belajar dengan cara mengujinya. Agar alat ukur (tes) itu dapat berfungsi dengan baik maka tes tersebut harus mempunyai tingkat kesukaran butir yang proporsional, daya pembeda butir yang baik, valid dan reliabel. Untuk mengetahui keempat hal tersebut dapat ditempuh dengan melakukan analisis butir tes.

Analisis butir dilakukan atas seperangkat tes yang terdiri dari sejumlah butir untuk diketahui karakteristiknya dari keempat hal tersebut. Bila ditemukan butir yang tidak memenuhi syarat maka butir tersebut akan digugurkan karena karakteristiknya tidak memenuhi syarat sebagai butir yang baik sehingga tidak dapat diharapkan untuk dapat mengukur hasil belajar dengan baik. Oleh karena itu bila jumlah butir setelah dianalisis tidak mewakili (representative) pada bagian yang dipandang tidak terwakili.

Naga (1992) menjelaskan bahwa karakteristik atau kualitas butir tes tergantung pada kelompok dimana analisis butir dilakukan sehingga kualitas butir terkait pada sampel responden atau mahasiswa yang memberikan respons (sample bounded). Karakteristik butir berhubungan dengan tingkat kesukaran, daya beda dan efektivitas pengecoh. teori tes klasik mempunyai beberapa kelemahan: (1) karakteristik butir sangat tergantung pada sampel mahasiswa yang mengerjakannya; (2) butir tes akan berubah karakteristiknya apabila kepada sampel butir tes yang dikerjakannya; (3) kemampuan mahasiswa dapat diinterpretasikan berbeda dalam sampel butir yang berbeda. Seorang mahasiswa yang pandai (mendapatkan skor tinggi) dalam suatu pengetesan dengan sejumlah sampel butir, mungkin akan menjadi tidak pandai (mendapatkan skor rendah) pada pengetesan dengan sejumlah sampel butir lainnya.

Oleh karena itu menurut Gable (1986)untuk mengatasi keterbatasan tes klasik maka dua hal yang harus di pertimbangkan: pertama kelompok uji coba hendaknya mempunyai karakteristik yang semirip mungkin dengan karakteristik mahasiswa yang hendak diukur hasil belajarnya; kedua agar hasil analisis uji coba cermat dan stabil maka mahasiswa uji coba yang digunakan harus berjumlah banyak sehingga distribusi skor lebih bervariasi.

1. Karakteristik Butir dalam Teori Tes Klasik

Dalam teori tes klasik, ada sejumlah karakteristik butir yang diuji yaitu tingkat kesukaran, daya beda dan efektifitas distraktor (pengecoh). Karakteristik butir itu diuji dengan cara tertentu berdasarkan data hasil uji coba butir secara empiris pada mahasiswa uji coba.

1). Tingkat kesukaran

Tingkat kesukaran (difficulty index) atau kita singkat TK dapat didefinisikan sebagai proporsi mahasiswa peserta tes yang menjawab benar (crocker dan Algina, 1986:311) Hal itu dapat dinyatakan dengan rumus dimana tingkat kesukaran (TK) adalah jumlah peserta yang menjawab benar dibagi dengan jumlah peserta.

TK = [B

Keterangan :

TK = tingkat kesukaran butir

[B = jumlah mahasiswa yang menjawab benar butir

[P = jumlah mahasiswa peserta tes

Misalnya: dari 40 mahasiswa yang mengikuti uji coba tes, pada butir 1 terdapat 28 orang dapat menjawab benar dan pada butir 2 terdapat 10 orang dapat menjawab benar. Berapakah tingkat kesukaran kedua butir soal tersebut?

TP (1) = 28 = 0,7

TP (2) = 10 = 0,25

Nilai TK butir merentang antara 0 sampai 1. TK sebuah butir sama dengan nol terjadi bila semua peserta tidak ada yang menjawab benar, sebaliknya TK sebuah butir akan sama dengan 1 (satu) apabila semua peserta menjawab benar pada butir tersebut. Semakin tinggi indeks TK maka butir soal semakin mudah, demikian pula sebaliknya semakin rendah indeks TK maka butir soal semakin sulit.

Kriteria untuk menentukan rentang untuk TK butir sangat tergantung jumlah kategori yang diinginkan. Misalnya kategori TK meliputi sukar, sedang dan mudah maka kriteria sedang adalah antara 0,3 sampai 0,7.

Berikut pembagian kategori TK ke dalam kelompok.

2). Daya Pembeda Butir

Daya beda (discriminating power) butir atau disingkat DB adalah kemampuan butir soal tes membedakan mahasiswa yang mempunyai kemampuan tinggi dan rendah. DB berhubungan dengan derajat kemampuan butir membedakan dengan baik perilaku pengambil tes dalam tes yang dikembangkan (Anastasi dan Urbina, 1997:179). DB harus diusahakan positif dan setinggi mungkin. Butir soal yang mempunyai DB positif dan tinggi berarti butir tersebut dapat membedakan dengan baik mahasiswa kelompok atas dan bawah. Mahasiswa kelompok atas adalah kelompok mahasiswa yang tergolong pandai atau mencapai skor total hasil belajar yang tinggi dan mahasiswa kelompok bawah adalah kelompok mahasiswa yang tidak pandai atau memperoleh skor total hasil belajar yang rendah. DB itu dapat ditentukan besaran-nya dengan rumus sebagai berikut :

DB = PT – PR

Atau DB = [TB – [RB

[ T [ R

Keterangan :

PT = proporsi mahasiswa yang menjawab benar pada kelompok mahasiswa yang

mempunyai kemampuan tinggi.

PR = proporsi mahasiswa yang menjawab benar pada kelompok mahasiswa yang

mempunyai kemampuan rendah.

[TB = jumlah peserta yang menjawab benar pada kelompok mahasiswa yang

mempunyai kemampuan tinggi.

[ T = jumlah kelompok mahasiswa yang mempunyai kemampuan tinggi.

[TB = jumlah peserta yang menjawab benar pada kelompok mahasiswa yang

mempunyai kemampuan rendah.

[ T = jumlah mahasiswa yang mempunyai kemampuan rendah.

Perhitungan daya beda (DB) dapat dilakukan dengan langkah-langkah sebagai berikut :

Menentukan mahasiswa kelompok atas dan bawah. Kelompok atas adalah 27% dari total peserta tes yaitu sebanyak 2,7 dibulatkan 3 mahasiswa yang memperoleh skor tertinggi dari atas, sedangkan kelompok bawah adalah 3 mahasiswa yang memperoleh skor terendah dari bawah.
Menghitung perolehan skor butir pada kelompok atas dan kelompok bawah.
Menghitung DB

DB dihitung sebagai mana rumusnya sebagai berikut :

(a) Butir 1

DB(1) [ TB – [ RB = 3 – 1 = 0,67

[ T [ R 3 3

(b) Butir 2

DB(7) = [ TB – [RB = 3 – 0 =1

[ T [ R 3 3

Setelah butir tes yang baik adalah butir soal yang mempunyai DB positif dan signifikan. DB akan positif apabila jumlah mahasiswa kelompok atas apa yang dapat menjawab dengan benar lebih banyak dari jumlah mahasiswa kelompok bawah. DB yang signifikan dimaksudkan adalah mempunyai indexs minimal +0,30 yang artinya pada butir yang baik jumlah mahasiswa kelompok atas yang dapat menjawab benar minimal 30% lebih banyak daripada jumlah mahasiswa kelompok bawah yang dapat menjawab benar. Nilai DB akan merentang antara-1,00 hingga +1,00.

Berdasar nilai rentang DB diatas dapat ditarik kesimpulan sebagai berikut :

Bila semua mahasiswa baik kelompok atas maupun kelompok bawah sama-sama menjawab benar atau sama-sama menjawab salah maka butir soal tidak mempunyai kemampuan membedakan yang ditunjukkan oleh DB = 0,00
Bila siswa kelompok atas yang dapat menjawab benar lebih banyak daripada kelompok bawah yang menjawab benar maka DB akan positif.
Bila siswa kelompok atas yang dapat menjawab benar lebih sedikit daripada kelompok bawah yang menjawab benar maka DB akan negatif.
Butir soal mempunyai DB tinggi apabila mahasiswa kelompok atas yang dapat menjawab benar lebih banyak dibandingkan mahasiswa kelompok bawah yang dapat menjawab benar dengan perbandingan tertentu hingga DB minimal =0,30.

Perhitungan daya beda butir didasarkan pada “aturan 27%”. Menurut Kelly, pada kondisi normal, titik optimum dimana dua kondisi seimbang dicapai pada 27% kelompok atas dan bawah (Anastasia dan Urbina, 1997:182).

Perhitungan DB butir juga dapat dilakukan dengan mengkoreklisasikan skor butir dengan skor total. Korelasi butir dengan total menunjukan kesejajaran nilai antara butir dengan total. Bila skor butir bervariasi sejalan dengan variasi skor total maka butir tersebut mampu membedakan dengan baik mahasiswa yang mempunyai kemampuan tinggi dan rendah. butir dikatakan mempunyai DB yang tinggi apabila korelasi butir itu dengan total minimal +0,30. Adapun korelasi antara butir dengan total dapat dilakukan menggunakan rumus product moment, biserial, point biserial. Phi atau tetrakorik (Crocker dan Algina, 1986:317- 319).

2. Efektifitas pengecoh

Analisis butir juga dilakukan dengan memperhatikan pengecoh. Pengecoh (distractor) yang juga dikenal dengan istilah penyesat atau penggoda adalah pilihan jawaban yang bukan merupakan kunci jawaban. pengecoh bukan sekedar pelengkap pilihan. Pengecoh diadakan untuk menyesatkan mahasiswa agar tidak memilih kunci jawaban pengecoh menggoda mahasiswa yang kurang begitu memahami materi pelajaran untuk memilihnya. Agar dapat melakukan fungsinya untuk mengecoh maka pengecoh harus dibuat semirip mungkin dengan kunci jawaban.

Pengecoh dikatakan berfungsi efektif apabila paling tidak ada siswa yang terkecoh memilih. Pengecoh yang sama sekali tidak dipilih tidak dapat melakukan fungsinya sebagai pengecoh karena terlalu mencolok dan dimengerti oleh semua mahasiswa sebagai pengecoh soal. Pengecoh yang berdasarkan hasil uji coba tidak efektif direkomendasikan untuk diganti dengan pengecoh yang lebih menarik.

2. Validitas butir

Sebelum dosen menggunakan suatu tes, hendaknya dosen mengukur terlebih dahulu derajat validitasnya berdasarkan kriteria tertentu. Validitas suatu tes erat kaitanya dengan tujuan tes tersebut. Namun, tidak ada validitas yang berlaku secara umum. Artinya, jika suatu tes dapat memberikan informasi yang sesuai dan dapat digunakan untuk mencapai tujuan tertentu, maka tes itu valid untuk tujuan tersebut.

Ada dua unsur penting dalam validitas ini. Pertama, validitas menunjukan suatu derajat, ada yang sempurna, ada yang sedang, dan ada yang rendah. Kedua, validitas selalu dihubungkan dengan suatu putusan atau tujuan yang spesifik. Sebagaimana pendapat Thorndike dan Hagen (1997) bahwa “validity is always in relation to a specific decision ur use”. Sementa itu, Gronlund (1985) mengemukakan ada tiga faktor mempengaruhi validitas hasil tes, yaitu “factor instrumen evaluasi, factor administrasi evaluasi dan penskoran, dan factor dari jawaban mahasiswa”.

Selanjutnya, Kerlinger (1986) mengemukakan. “validitas instrumen tidak cukup ditentukan oleh derajat ketepatan instrumen untuk mengukur apa yang seharusnya diukur, tetapi perlu juga dilihat dari tiga kriteria lain, yaitu appropriateness, meaningfulness, dan usefulness.” Appropriateness menunjukan kelayakan dari tes sebagai suatu instrumen, yaitu seberapa jauh instrument dapat menjangkau keragaman aspek perilaku mahasiswa. Mindfulness menunjukan kemampuan instrumen dalam memberikan keseimbangan soal-soal pengukurannya berdasarkan tingkat kepentingan dari setiap fenomena. Usefulness to inferences menunjukan sensitif tidaknya instrumen dalam menangkap fenomena perilaku dan tingkat ketelitian yang ditunjukan dalam membuat kesimpulan.

pada dasarnya validitas butir tes dapat dibagi dalam dua kajian yaitu kajian teoritik dan kajian empirik. Validitas teoritik terdiri dari tiga jenis yaitu validitas isi (content validity), validitas konstruk (construct validity), dan validitas muka (face validity). Sedangkan validitas empirik terdiri dari concurrent validity dan predictive validity.

Validitas isi (konten) menjawab pertanyaan “sejauh mana item-item dalam tes mencakup keseluruhan ciri perilaku yang ingin diukur oleh tes tersebut”.

Face validity adalah validitas yang menyatakan kesesuaian/relevansi butir-butir tes dalam mengukur aspek yang dikehendaki.
Logical validity menunjuk kepada sejauh mana keseluruhan butir tes telah mencakup atau meliputi secara komprehensif keseluruhan kawasan aspek yang hendak diukur beserta ciri-ciri perilakunya.
Validitas konstruk menyangkut masalah theoretical construct yang menjadi dasar dalam penyusunan tes. Pengukuran validitas konstruk merupakan proses yang terus berlanjut sejalan dengan perkembangan konsep mengenai sifat atau aspek kepribadian yang diukur.
Validitas konkuren diuji dengan melakukan analisis statistika melalui teknik komputasi korelasional.
Validitas prediktif dimaksudkan sebagai ukuran fungsi prediksi yang dimiliki oleh tes, dengan menghitung korelasi antara prediksi dengan kriteria (ciri perilaku yang ingin diprediksikan).

Untuk melakukan telah validitas teoritik dapat digunakan aspek dan indikator sebagai berikut :

a. Segi Materi (Substansi)

Materi sudah dipelajari oleh mahasiswa
Butir soal sesuai dengan indikator
Antar butir tidak saling tergantung

b. Segi Konstruksi

Pokok soal dirumuskan dengan singkat dan jelas
Pokok soal bebas dari pernyataan yang dapat menimbulkan penafsiran ganda
Butir soal tidak tergantung kepada jawaban butir soal yang lain
Penokohan-nya sudah disusun dengan baik

c. Segi Bahasa

Soal menggunakan bahasa Indonesia yang baik dan benar
Soal menggunakan bahasa yang komunikatif
Soal tidak menggunakan bahasa yang berlaku setempat

Sedangkan perhitungan validitas butir secara kuantitatif adalah sebagai berikut.

1) cara mengetahui Validitas Alat Ukur

Sebuah tes memiliki validitas jika hasilnya sesuai dengan kriterium, dalam arti memiliki kesejajaran antara hasil tes tersebut dengan kriterium. Teknik yang digunakan untuk mengetahui kesejajaran adalah teknik korelasi product moment yang dikemukakan oleh Pearson.

Rumus korelasi product moment (skor kontinum) ada dua macam, yaitu :

Korelasi product moment dengan simpangan

Korelasi product moment dengan angka kasar

Keterangan :

Korelasi positif menunjukan adanya hubungan sejajar antara dua hal. Misalnya, hal pertama naik, hal kedua ikut naik. Sebaliknya jika hal pertama turun, yang kedua ikut turun.
Korelasi negatif menunjukan adanya hubungan kebalikan antara dua hal. Misalnya, hal pertama nilainya naik, justru yang kedua turun. Sebaliknya, jika yang pertama turun, yang kedua naik.

keadaan hubungan antara dua hal yang kita jumpai dalam kehidupan sehari-hari tidak selalu hanya positif atau negatif saja, tetapi mungkin 0. Besarnya korelasi pun tidak menentu. Koefisien korelasi selalu terdapat antara -1,00 sampai +1,00. Namun karena dalam menghitung sering dilakukan pembulatan angka-angka, sangat mungkin diperoleh koefisien lebih dari 1,00. Koefisien negatif menunjukan adanya kesejajaran untuk mengadakan interpretasi mengenai besarnya koefisien korelasi adalah sebagai berikut :

Antara 0,800 sampai dengan 1,000 : sangat tinggi
Antara 0,600 sampai dengan 0,800 : tinggi
Antara 0,400 sampai dengan 0,600 : cukup
Antara 0,200 sampai dengan 0,400 : rendah
Antara 0,000 sampai dengan 0,200 : sangat rendah

Penafsiran harga koefisien ada dua cara, yaitu :

Dengan melihat r dan diinterpretasikan misalnya korelasi tinggi, cukup, dan sebagainya.
Dengan berkonsultasi ke tabel harga kritik r product moment sehingga dapat diketahui signifikan tidaknya korelasi tersebut. Jika harga r lebih kecil dari harga kritik dalam tabel, maka korelasi tersebut tidak signifikan. begitu juga sebaliknya.

2) Validitas Butir Soal atau validitas Item (skor dikotomi)

Pengertian umum untuk validitas item adalah demikian sebuah item dikatakan valid apabila mempunyai dukungan yang besar item dikatakan valid apabila mempunyai dukungan yang besar terhadap faktor total. Kesejajaran ini dapat diartikan dengan korelasi sehingga untuk mengetahui validitas item digunakan rumus korelasi seperti sudah diterangkan di atas.

Untuk soal-soal bentuk objektif skor untuk item biasa, diberikan dengan (bagian item yang dijawab benar) dan 0 (item yang dijawab salah), sedangkan skor total selanjutnya merupakan jumlah dari skor untuk semua item yang membangun soal tersebut.

Validitas butir soal atau validitas item dapat dihitung dengan menggunakan rumus korelasi product moment, baik dengan rumus simpangan maupun rumus angka kasar. Penggunaan kedua rumus tersebut masing-masing ada keuntungannya, menggunakan rumus simpangan angkanya kecil-kecil, tapi kadang-kadang pecahannya rumit. jika skor rata-ratanya (mean) pecahan, simpangan-nya cenderung banyak pecahan. Penggunaan rumus angka kasar bilangannya besar-besar tetapi bulat. Jika ada kalkulator statistik disarankan menggunakan rumus angka kasar saja.

Selain itu masih ada cara lain untuk menghitung validitas item, salah satu yang terkenal adalah menggunakan rumus pbis :

3) Reliabilita Tes

Uji reliabilitas mampu menunjukan tingkat kepercayaan terhadap skor atau tingkat kecocokan skor dengan skor sesungguhnya. Reliabilitas ini bisa dicapai melalui tingkat kecocokan diantara skor pada lebih dari sekali pengukuran. Jika makin cocok dengan skor sesungguhnya maka makin tinggi tingkat reliabilitasnya.

Reliabilitas atau keandalan merupakan konsistensi dari serangkaian pengukuran atau serangkaian alat ukur. hal tersebut bisa berupa pengukuran dari alat ukur yang sama (tes dengan tes ulang akan memberikan hasil yang sama, atau untuk pengukuran yang lebih subjektif, apakah dua orang penilai memberikan skor yang mirip (reliabilitas antar penilai).

Reliabilitas selalu menunjukan keadaan instrumen penelitian dalam berbagai bentuk, yakni hasil pengujian yang sama jika dilakukan oleh orang yang berbeda (inter-penilai), hasil pengujian yang sama jika dilakukan oleh orang yang sama dalam waktu berbeda (pengetesan ulang), hasil pengujian yang sama jika dilakukan oleh orang yang berbeda dalam waktu yang bersamaan dengan tes yang berbeda (bentuk paralel), dan hasil pengujian yang sama dengan menggunakan berbagai pertanyaan-pertanyaan membangun (konsistensi internal).

Pada konstruksi alat ukur, perhitungan reliabilitas berguna untuk melakukan perbaikan pada alat ukur yang dikonstruksi. Dimana perbaikan alat ukur yang dikonstruksi. Dimana perbaikan alat ukur dilakukan melalui analisis butir untuk mengetahui butir mana yang perlu diperbaiki. Namun pada pengukuran sesungguhnya, perhitungan reliabilitas dilakukan untuk memberi informasi tentang kualitas skor hasil ukur kepada mereka yang memerlukannya.

1) Macam-Macam Reliabilitas

Koefisien Reliabilitas Stabilitas Dan Ekivalensi

a. Teknik pengukuran ulang (test-retest)

Pada teknik ini testee yang sama diminta menjawab pertanyaan dalam alat ukur sebanyak dua kali. Dimana selang waktunya pun tidak terlalu dekat dan tidak terlalu lama (15-30 hari). Kemudian barulah hasil pengukuran I dikorelasikan dengan pengukuran II. Apabila angka korelasi melebihi angka kritik dalam tabel r, maka korelasi signifikan dari pengukuran I dan pengukuran II konsisten dan alat ukurnya dapat dikatakan reliable.

Ukur Selang Waktu Ukur ulang

X ————– X

Pada reliabilitas ini, dilihat apakah hasil ukur ulang masih mirip dengan hasil ukur, apakah jawaban responden stabil sehingga dinamakan reliabilitas stabilitas. Korelasi dilakukan pada skor responden saja tanpa memperhatikan komposisi butir. Komposisi butir boleh apa saja dengan sasaran yang tidak perlu sama.

b. Teknik belah dua

Pada teknik ini, alat ukur yang disusun harus punya banyak item (50-60) yang mengukur aspek yang sama. Dimana alat ukur diujikan pada testee, kemudian dihitung validitas itemnya. Lalu item yang valid dikumpulkan sedangkan yang tidak valid dibuang untuk kemudian dibagi menjadi 2 bagian. Dari sini skor untuk masing-masing item pada tiap belahan dijumlahkan dan akan menghasilkan skor total belahan I serta skor total belahan II. Kemudian skor total belahan I dikorelasikan dengan skor total belahan II. Maka akan diperoleh angka korelasi yang lebih rendah (karena dibelah), lalu mencari angka reliabilitas keseluruhan item tanpa dibelah. Ada beberapa pendapat mengenai cara penentuan koefisien reliabilitas diantaranya adalah Pilah Paruh (Spearman-Brown).

pada reliabilitas ini, ukur dan ukur setara disatukan didalam satu alat ukur sehingga separuh alat ukur adalah ukur dan separuh lagi adalah ukur satara. Karena itu diperlukan syarat kedua pilihan itu harus setara sepasang demi sepasang serta variansi mereka harus sama. Karena korelasi diantara pilihan baru mencakup separuh skor, maka koefisien reliabilitas perlu mencakup korelasi seluruh skor. Komposisi butir sudah mulai diperhatikan, boleh apa saja dengan sasaran yang tidak perlu sama, asal terjadi berpasangan.

Koefisien Reliabilitas Konsistensi Internal

Banyak koefisien reliabilitas Rulon Pasangan pada setiap pilah paruh adalah setara serta variansi kedua paruhan adalah sama. Karena semua kombinasi pilah paruh digunakan, maka semua butir harus setara. Semua butir setara sehingga dikenal sebagai konsistensi internal. Koefisien reliabilitas dari semua pilah paruhan di retakan menghasilkan koefisien reliabilitas konsistensi internal. Disini dibicarakan dua macam koefisien reliabilitas konsistensi internal yakni :

1. Koefisien reliabilitas Alpha Cronbach (skor kontinum)

Pada koefisien ini yang harus kita lakukan adalah dengan mensubstitusikan persamaan menjadi, Sehingga, nantinya didapatkan koefisien korelasi setiap pasang pilihan menjadi, Dengan demikian, semua butir adalah setara, dan koefisien reliabilitas (dikenal sebagai alpha Cronbach).

Pada koefisien reliabilitas alpha Cronbach semua butir di dalam alat ukur supaya setara. Sehingga jika interkorelasi diantara butir adalah rendah karena butir kurang setara maka koefisien reliabilitas alpha Cronbach juga rendah. Karena itu, koefisien reliabilitas alpha Cronbach dikenal juga sebagai koefisien reliabilitas batas bawah (lower bound).

namun apabila distribusi probabilitas dari data sangat miring (skew), maka koefisien reliabilitas Cronbach perlu dikoreksi. Sehingga, Modifikasi horst terhadap koefisien reliabilitas alpha cronbach akan menghasilkan rumus perhitungan sebagai berikut :

r11 = k S2t – S2i

k-1 S2t

Keterangan :

r11 : reliabilitas tes secara keseluruhan.

p : proporsi subjek yang menjawab item dengan benar

q : proporsi subjek yang menjawab item dengan salah (q=1-p)

[pq : jumlah hasil perkalian antara p dan q

k : banyaknya item

Si : standar deviasi skor butir ke-i dari tes (standar deviasi adalah akar varians).

St : standar deviasi skor total dari tes (standar deviasi adalah akar varians)

2. Koefisien reliabilitas Kuder-Richardson (skor dikotomi)

Dalam hal skor adalah dikotomi, maka varians butir dapat disederhanakan. Dengan ketentuan bahwa semua butir adalah setara, koefisien reliabilitas (Kuder-Richardson 20) menjadi Notasi 20 pada KR-20 adalah rumus ke-20 di dalam artikel mereka. Pada dasarnya, koefisien reliabilitas KR-20 sama dengan koefisien reliabilitas alpha Cronbach. Koefisien reliabilitas KR-20 lebih dahulu ditemukan daripada koefisien reliabilitas alpha Cronbach.

Ciri dari koefisien Reliabilitas KR-20 yaitu, pada koefisien reliabilitas Kuder-Richardson 20, seperti halnya pada koefisien reliabilitas alpha Cronbach, semua butir di dalam alat ukur supaya setara. Sehingga jika interkorelasi diantara butir adalah rendah karena butir kurang setara maka koefisien reliabilitas Kuder-Richardson 20 juga rendah. Karena itu, koefisien reliabilitas Kuder Richardson 20 dikenal juga sebagai koefisien reliabilitas batas bawah (lower bound).

Adapun rumus reliabilitas KR-20 :

r11 = k S2 – [pi q i

k-1 S2t

Keterangan :

r11 : reliabilitas tes secara keseluruhan

p : proporsi subjek yang menjawab item dengan benar

q : proporsi subjek menjawab item dengan salah (q= 1-p)

[pq : jumlah hasil perkalian antara p dan q

k : banyaknya item

St : standar deviasi dari skor total es (standar deviasi adalah akar varians)

4) Acuan Penilaian

Perencanaan dan penafsiran hasil pengukuran dalam bidang pendidikan dapat berdasarkan acuan norma/relatif atau acuan kriteria/patokan. Kedua acuan tersebut menggunakan asumsi yang berbeda tentang kemampuan seseorang. Penafsiran hasil tes antara kedua acuan itu juga berbeda, sehingga menghasilkan informasi yang berbeda maknanya. Pemilihan acuan ditentukan oleh karakteristik mata pelajaran yang akan diukur dan tujuan yang akan dicapai. Penilaian acuan norma berasumsi bahwa kemampuan orang berbeda dan dapat digambarkan menurut distribusi normal. Perbedaan itu harus ditunjukan oleh hasil pengukuran, misalnya setelah mengikuti pembelajaran selama satu semester, mahasiswa dites. Hasil tes seorang mahasiswa dibandingkan dengan kelompoknya, sehingga dapat diketahui posisi mahasiswa tersebut di kelas itu. Penilaian acuan kriteria berasumsi bahwa hampir semua orang dapat belajar apa saja, meskipun dengan waktu yang berbeda. Dalam acuan kriteria, penafsiran skor hasil tes selalu dibandingkan dengan kriteria yang telah ditetapkan.

Ada dua pendekatan yang dapat digunakan dalam melakukan penilaian hasil belajar, yaitu penilaian yang mengacu kepada norma (Penilaian Acuan Norma atau norm-referenced assesment) biasa disebut dengan PAN dan penilaian yang mengacu kepada kriteria (Penilaian Acuan Kriteria atau criterion referenced assessment) biasa disebut dengan PAP. Perbedaan kedua pendekatan tersebut terletak pada acuan yang dipakai. Pada penilaian yang mengacu kepada norma, interpretasi seluruh peserta didik yang dinilai dengan alat penilaian yang sama. Jadi hasil seluruh peserta didik digunakan sebagai acuan. Sedangkan, penilaian yang mengacu kepada kriteria atau patokan, interpretasi hasil penilaian bergantung pada apakah atau sejauh mana seorang peserta didik mencapai atau menguasai kriteria atau patokan yang telah ditentukan. Kriteria atau patokan itu dirumuskan dalam kompetensi atau hasil belajar dalam kurikulum berbasis kompetensi. Dalam pelaksanaan kurikulum berbasis kompetensi, pendekatan penilaian yang digunakan adalah penilaian yang mengacu kepada kriteria atau patokan. Dalam hal ini prestasi mahasiswa ditentukan oleh kriteria yang telah ditetapkan untuk penguasaan suatu kompetensi (https://akhmadsudrajat.wordpress.com/2008/05/01/penilaian-hasil-belajar).

Pada penilaian acuan norma (PAN) norma yang digunakan untuk mengukur tingkat penguasaan: Penguasaan mahasiswa dibandingkan dengan tingkat penguasaan kawan-kawannya dalam satu kelompok, bersifat relatif. Norma yang dimaksud adalah nilai tertinggi yang diperoleh kelompok/kelasnya (norma empiris), bersifat relatif, tergantung perolehan teman satu kelas/kelompoknya. Untuk menentukan kedudukan setiap siswa di dalam kelompoknya digunakan acuan kurva normal, maka disebut penilaian acuan norma. Hal ini lebih cocok jika digunakan pada evaluasi sumatif (mengapa?)

Sebagai ilustrasi perhatikan contoh berikut ini.

Skor terbagi atas lima kategori : A, B, C, D, E atau 1, 2, 3, 4, 5.

Ada tiga cara menentukan angka-angka batas kategori, yaitu :

Mx + 0,50 SD dan + 1,50 SD
Mx + 1,00 SD dan + 2,00 SD.
Penghitungan persentil tertentu, yaitu :

P7, P31, P69 dan P93

Sedangkan Criterion Referenced (PAP)/Criterion Based Evaluation/Criterion Reference Evaluation biasa disebut dengan Penilaian Acuan Patokan/Standar Mutlak yang merupakan Norma Ideal. Penguasaan mahasiswa diukur dengan menggunakan perbandingan terhadap suatu kriteria tertentu. Patokan/kriteria yang dimaksud adalah tujuan yang dicita-citakan, yaitu menguasai seluruh materi (100%) bila tidak mampu diperhitungkan berapa % dari 100%.

Patokan 100% adalah :

angka 100 (skala penilaian 1-100)
angka 10 (skala penilaian 1-10)
angka 4 (skala penilaian 0-4/E-A)

C. Penutup

1. Rangkuman

Tingkat kesukaran (difficulty index) atau kita singkat TK dapat didefinisikan sebagai proporsi mahasiswa peserta tes yang menjawab benar. hal itu dapat dinyatakan dengan rumus dimana tingkat kesukaran (TK) adalah jumlah peserta yang menjawab benar dibagi dengan jumlah peserta.
Daya beda (discriminating power) butir atau disingkat DB adalah kemampuan butir soal tes membedakan mahasiswa yang mempunyai kemampuan tinggi dan rendah. DB berhubungan dengan derajat kemampuan butir membedakan dengan baik perilaku pengambil tes dalam tes yang dikembangkan. DB harus diusahakan positif dan tinggi berarti butir tersebut dapat membedakan dengan baik mahasiswa kelompok atas dan bawah.
Pengecoh (distractor) yang juga dikenal dengan istilah penyesat atau penggoda adalah pilihan jawaban yang bukan merupakan kunci jawaban. Pengecoh bukan sekedar pelengkap pilihan. Pengecoh diadakan untuk menyesatkan mahasiswa agar tidak memilih kunci jawaban pengecoh menggoda mahasiswa yang kurang begitu memahami materi pelajaran untuk mengecoh maka pengecoh harus dibuat semirip mungkin dengan kunci jawaban.
Ada dua unsur penting dalam validitas ini. Pertama, validitas menunjukan suatu derajat, ada yang sempurna, ada yang sedang, dan ada yang rendah. kedua, validitas selalu dihubungkan dengan suatu keputusan atau tujuan spesifik. Selanjutnya, Kerlinger 1986) mengemukakan. validitas instrumen tidak cukup ditentukan oleh derajat ketepatan instrumen untuk mengukur apa yang seharusnya diukur, tetapi perlu juga dilihat dari tiga kriteria yang lain, yaitu appropriateness, meaningfulness, dan usefulness. Pada dasarnya validitas butir tes dapat dibagi dalam dua kajian yaitu kajian teoritik dan kajian empirik. Validitas teoritik terdiri dari tiga jenis yaitu validitas isi (content validity), validitas konstruk (construct validity) dan validitas muka (face validity). Sedangkan validitas empirik terdiri dari concurrent validity dan predictive validity.
Reliabilitas tes merupakan suatu alat ukur yang digunakan untuk mengetahui konsistensi pengukuran tes yang hasilnya menunjukan ketepatan. Faktor-faktor yang Mempengaruhi Reliabilitas tes Hasil Belajar adalah Konstruksi item yang tidak tepat, sehingga tidak dapat mempunyai daya pembeda yang kuat. Panjang/pendek nya suatu instrumen. Evaluasi yang subjektif akan menurunkan reliabilitas. Ketidaktepatan waktu yang diberikan. Kemampuan yang ada dalam kelompok. Luas atau tidaknya sampel yang diambil.
Terdapat dua acuan penilaian yaitu PAN dan PAP. PAN bermakna bahwa penguasaan mahasiswa dibandingkan dengan tingkat penguasaan kawan-kawannya dalam satu kelompok, bersifat relatif. Sedangkan Criterion Referenced (PAP), penguasaan mahasiswa diukur dengan menggunakan perbandingan terhadap suatu kriteria tertentu. Patokan/kriteria yang dimaksud adalah tujuan yang dicita-citakan yaitu menguasai seluruh materi (100%) atau cerita tertentu yang telah ditetapkan, misalnya 75%.

2. Evaluasi

Dari dua data yang ada pada tabel tersebut diatas, hitunglah :

Tingkat kesukaran butir
Daya beda butir
Efektivitas setiap distraktor
Validitas butir
Reliabilitas tes
Dengan proporsi tes pilihan ganda 50% dan uraian 50%, tentukan nilai mahasiswa dengan menggunakan PAN (nilai A, B, C, D, E)
Bila batal lulus 60%, tentukan kelulusan mahasiswa dengan PAP

3. Tindak Lanjut

Sebagai kelanjutan dari materi pada bab ini disarankan kepada Anda untuk menganalisis apakah pada saat melakukan penilaian mata kuliah yang diampu sudah dilakukan sesuai dengan kaidah tingkat kesukaran butir, daya pembeda butir, efektivitas distraktor, validitas butir, dan reliabilitas tes, dan acuan penilaian, serta dapat menghitung serta menerapkan dalam penilaian pembelajaran di kelas.

Apakah fungsi dari analisis tingkat kesukaran butir?

Analisis tingkat kesukaran dimaksudkan untuk mengetahui apakah soal tersebut tergolong mudah atau sukar. Tingkat kesukaran adalah bilangan yang menunjukan sukar atau mudahnya sesuatu soal.

Apa manfaat dari analisis butir soal?

Manfaat Kegiatan Analisis Butir Soal Membantu pengguna tes dalam mengevaluasi kualitas tes yang digunakan, Sesuai untuk penyusunan tes informal, seperti misalnya tes yang disiapkan oleh guru untuk peserta didik. Mendukung penulisan soal yang efektif dan berkualitas.

Mengapa perlu dilakukan analisis tingkat kesukaran dan daya pembeda soal?

Salah satu tujuan analisis daya pembeda butir soal adalah untuk menentukan mampu tidaknya suatu butir soal membedakan antara peserta pelatihan yang berkemampuan tinggi dengan peserta pelatihan yang berkemampuan rendah.

Mengapa kita perlu melakukan analisis daya beda butir soal?

Analisis butir soal perlu dilakukan untuk mengetahui sejauh mana butir soal tersebut dapat digunakan dalam pengujian tes dan sebagai salah satu kontrol hasil prestasi belajar peserta didik.