Amongguru.com. Analisis butir soal perlu dilakukan guru sebagai bagian dari rangkaian pelaksanaan evaluasi pembelajaran. Show
Melalui kegiatan analisis butir soal, guru akan dapat mengkaji dan mengidentifikasi kualitas soal sebagai instrumen penilaian pembelajaran. Identifikasit terhadap setiap butir soal perlu dilakukan untuk menghasilkan informasi yang berharga terhadap mutu soal yang dijadikan sebagai alat ukur pembelajaran. Kegiatan analisis butir soal pada dasarnya sebagai umpan balik (feed back) terhadap kualitas soal untuk selanjutnya dilakukan perbaikan dan penyempurnaan kembali terhadap butir-butir soal. Soal-soal yang disempurnakan tersebut pada masa mendatang diharapkan benar-benar dapat menjalankan fungsinya sebagai alat ukur pembelajaran. Seperti halnya instrumen lainnya, soal yang diteskan ke peserta didik juga harus memenuhi kriteria baik. antara lain yaitu memiliki validitas dan reliabilitas. Validitas suatu alat ukur adalah sejauhmana alat ukur itu mampu mengukur apa yang seharusnya diukur. Suatu ter memiliki validitas tinggi apabila tes tersebut mampu menjalankan fungsi ukurnya atau memberikan hasil ukur ukur yang akurat. Untuk tes hasil belajar, yang utama adalah validitas isi, yakni butir–butir soal yang ditanyakan kepada peserta didik sesuai dan mewakili kompetensi yang harus dicapai oleh peserta didik. Reliabiitas dapat diartikan sebagai keajegan atau kestabilan hasil pengukuran. Alat ukur yang reliabel adalah alat ukur yang mampu membuahkan hasil pengukuran yang stabil. Suatu alat ukur dikatakan memiliki reliabilitas tinggi jika digunakan untuk mengukur hal yang sama pada waktu berbeda hasilnya sama atau mendekati sama. Pengertian Analisis Butir SoalAnalisis butir soal (item analysis) merupakan suatu kegiatan dalam menentukan tingkat kebaikan butir-butir soal suatu tes. Informasi yang diperoleh dari kegiatan analisis butir soal dapat digunakan untuk memperbaiki butir soal yang sudah dibuat. Analisis butir soal dapat dilakukan apabila suatu tes telah selesai dilaksanakan dan diperoleh jawaban terhadap butir-butir soal yang diteskan. Soal yang bermutu adalah soal yang dapat memberikan informasi sejelas-jelasnya tentang peserta didik yang sudah dan yang belum menguasai materi pembelajaran. Baca :
Analisis butir soal dapat dilakukan secara kualitatif dan kuantitatif. Analisis secara kualitatif berkaitan dengan isi dan bentuk soal (validitas isi dan validitas konstruk). Sedangkan analisis kuantitatif berhubungan dengan ciri-ciri statistiknya (pengukuran validitas, reliabilitas, daya beda, dan tingkat kesukaran butir soal). Tujuan Analisis Butir SoalAnalisis butir soal merupakan kegiatan penting yang harus dilakukan guru dalam menyusun soal agar diperoleh soal dengan kualitas baik. Soal yang bermutu adalah soal yang dapat memberikan informasi setepat-tepatnya tentang penguasan materi peserta didik. Berikut ini adalah beberapa tujuan dari kegiatan analisis butir soal. 1. Mengkaji dan menelaah setiap butir soal agar diperoleh soal yang bermutu, 2. Meningkatkan kualitas butir tes melalui revisi atau membuang soal yang tidak efektif (tidak valid), 3. Mengetahui informasi diagnostik pada peserta didik tentang pemahaman materi yang diajarkan. Manfaat Kegiatan Analisis Butir SoalAnalisis butir soal memiliki banyak manfaat, antara lain sebagai berikut. 1. Membantu pengguna tes dalam mengevaluasi kualitas tes yang digunakan, 2. Sesuai untuk penyusunan tes informal, seperti tes yang disiapkan guru untuk peserta didik. 3. Mendukung penulisan soal yang efektif dan berkualitas. 4. Meningkatkan validitas dan reliabilitas soal sehingga tercipta soal yang berkualitas. Melalui kegiatan analisis butir soal, guru akan dapat menentukan soal-soal yang baik dan soal-soal yang cacat atau tidak berfungsi dengan baik. Selain itu, guru dapat merevisi soal-soal yang sudah tidak relevan dengan materi yang diajarkan dengan melihat banyaknya peserta didik yang tidak mampu menjawab butir soal tertentu. Demikian pengertian analisis butir soal, tujuan, dan manfaatnya dalam evaluasi hasil belajar. Semoga bermanfaat, 2. Kemampuan Akhir yang Diharapkan :
B. Penyajian Tes merupakan instrumen atau alat yang digunakan untuk mengumpulkan data hasil belajar dengan cara mengujinya. Agar alat ukur (tes) itu dapat berfungsi dengan baik maka tes tersebut harus mempunyai tingkat kesukaran butir yang proporsional, daya pembeda butir yang baik, valid dan reliabel. Untuk mengetahui keempat hal tersebut dapat ditempuh dengan melakukan analisis butir tes. Analisis butir dilakukan atas seperangkat tes yang terdiri dari sejumlah butir untuk diketahui karakteristiknya dari keempat hal tersebut. Bila ditemukan butir yang tidak memenuhi syarat maka butir tersebut akan digugurkan karena karakteristiknya tidak memenuhi syarat sebagai butir yang baik sehingga tidak dapat diharapkan untuk dapat mengukur hasil belajar dengan baik. Oleh karena itu bila jumlah butir setelah dianalisis tidak mewakili (representative) pada bagian yang dipandang tidak terwakili. Naga (1992) menjelaskan bahwa karakteristik atau kualitas butir tes tergantung pada kelompok dimana analisis butir dilakukan sehingga kualitas butir terkait pada sampel responden atau mahasiswa yang memberikan respons (sample bounded). Karakteristik butir berhubungan dengan tingkat kesukaran, daya beda dan efektivitas pengecoh. teori tes klasik mempunyai beberapa kelemahan: (1) karakteristik butir sangat tergantung pada sampel mahasiswa yang mengerjakannya; (2) butir tes akan berubah karakteristiknya apabila kepada sampel butir tes yang dikerjakannya; (3) kemampuan mahasiswa dapat diinterpretasikan berbeda dalam sampel butir yang berbeda. Seorang mahasiswa yang pandai (mendapatkan skor tinggi) dalam suatu pengetesan dengan sejumlah sampel butir, mungkin akan menjadi tidak pandai (mendapatkan skor rendah) pada pengetesan dengan sejumlah sampel butir lainnya. Oleh karena itu menurut Gable (1986)untuk mengatasi keterbatasan tes klasik maka dua hal yang harus di pertimbangkan: pertama kelompok uji coba hendaknya mempunyai karakteristik yang semirip mungkin dengan karakteristik mahasiswa yang hendak diukur hasil belajarnya; kedua agar hasil analisis uji coba cermat dan stabil maka mahasiswa uji coba yang digunakan harus berjumlah banyak sehingga distribusi skor lebih bervariasi. 1. Karakteristik Butir dalam Teori Tes Klasik Dalam teori tes klasik, ada sejumlah karakteristik butir yang diuji yaitu tingkat kesukaran, daya beda dan efektifitas distraktor (pengecoh). Karakteristik butir itu diuji dengan cara tertentu berdasarkan data hasil uji coba butir secara empiris pada mahasiswa uji coba. 1). Tingkat kesukaran Tingkat kesukaran (difficulty index) atau kita singkat TK dapat didefinisikan sebagai proporsi mahasiswa peserta tes yang menjawab benar (crocker dan Algina, 1986:311) Hal itu dapat dinyatakan dengan rumus dimana tingkat kesukaran (TK) adalah jumlah peserta yang menjawab benar dibagi dengan jumlah peserta. TK = [B [P Keterangan : TK = tingkat kesukaran butir [B = jumlah mahasiswa yang menjawab benar butir [P = jumlah mahasiswa peserta tes Misalnya: dari 40 mahasiswa yang mengikuti uji coba tes, pada butir 1 terdapat 28 orang dapat menjawab benar dan pada butir 2 terdapat 10 orang dapat menjawab benar. Berapakah tingkat kesukaran kedua butir soal tersebut? TP (1) = 28 = 0,7 40 TP (2) = 10 = 0,25 40 Nilai TK butir merentang antara 0 sampai 1. TK sebuah butir sama dengan nol terjadi bila semua peserta tidak ada yang menjawab benar, sebaliknya TK sebuah butir akan sama dengan 1 (satu) apabila semua peserta menjawab benar pada butir tersebut. Semakin tinggi indeks TK maka butir soal semakin mudah, demikian pula sebaliknya semakin rendah indeks TK maka butir soal semakin sulit. Kriteria untuk menentukan rentang untuk TK butir sangat tergantung jumlah kategori yang diinginkan. Misalnya kategori TK meliputi sukar, sedang dan mudah maka kriteria sedang adalah antara 0,3 sampai 0,7. Berikut pembagian kategori TK ke dalam kelompok. 2). Daya Pembeda Butir Daya beda (discriminating power) butir atau disingkat DB adalah kemampuan butir soal tes membedakan mahasiswa yang mempunyai kemampuan tinggi dan rendah. DB berhubungan dengan derajat kemampuan butir membedakan dengan baik perilaku pengambil tes dalam tes yang dikembangkan (Anastasi dan Urbina, 1997:179). DB harus diusahakan positif dan setinggi mungkin. Butir soal yang mempunyai DB positif dan tinggi berarti butir tersebut dapat membedakan dengan baik mahasiswa kelompok atas dan bawah. Mahasiswa kelompok atas adalah kelompok mahasiswa yang tergolong pandai atau mencapai skor total hasil belajar yang tinggi dan mahasiswa kelompok bawah adalah kelompok mahasiswa yang tidak pandai atau memperoleh skor total hasil belajar yang rendah. DB itu dapat ditentukan besaran-nya dengan rumus sebagai berikut : DB = PT – PR Atau DB = [TB – [RB [ T [ R Keterangan : PT = proporsi mahasiswa yang menjawab benar pada kelompok mahasiswa yang mempunyai kemampuan tinggi. PR = proporsi mahasiswa yang menjawab benar pada kelompok mahasiswa yang mempunyai kemampuan rendah. [TB = jumlah peserta yang menjawab benar pada kelompok mahasiswa yang mempunyai kemampuan tinggi. [ T = jumlah kelompok mahasiswa yang mempunyai kemampuan tinggi. [TB = jumlah peserta yang menjawab benar pada kelompok mahasiswa yang mempunyai kemampuan rendah. [ T = jumlah mahasiswa yang mempunyai kemampuan rendah. Perhitungan daya beda (DB) dapat dilakukan dengan langkah-langkah sebagai berikut :
DB dihitung sebagai mana rumusnya sebagai berikut : (a) Butir 1 DB(1) [ TB – [ RB = 3 – 1 = 0,67 [ T [ R 3 3 (b) Butir 2 DB(7) = [ TB – [RB = 3 – 0 =1 [ T [ R 3 3 Setelah butir tes yang baik adalah butir soal yang mempunyai DB positif dan signifikan. DB akan positif apabila jumlah mahasiswa kelompok atas apa yang dapat menjawab dengan benar lebih banyak dari jumlah mahasiswa kelompok bawah. DB yang signifikan dimaksudkan adalah mempunyai indexs minimal +0,30 yang artinya pada butir yang baik jumlah mahasiswa kelompok atas yang dapat menjawab benar minimal 30% lebih banyak daripada jumlah mahasiswa kelompok bawah yang dapat menjawab benar. Nilai DB akan merentang antara-1,00 hingga +1,00. Berdasar nilai rentang DB diatas dapat ditarik kesimpulan sebagai berikut :
Perhitungan daya beda butir didasarkan pada “aturan 27%”. Menurut Kelly, pada kondisi normal, titik optimum dimana dua kondisi seimbang dicapai pada 27% kelompok atas dan bawah (Anastasia dan Urbina, 1997:182). Perhitungan DB butir juga dapat dilakukan dengan mengkoreklisasikan skor butir dengan skor total. Korelasi butir dengan total menunjukan kesejajaran nilai antara butir dengan total. Bila skor butir bervariasi sejalan dengan variasi skor total maka butir tersebut mampu membedakan dengan baik mahasiswa yang mempunyai kemampuan tinggi dan rendah. butir dikatakan mempunyai DB yang tinggi apabila korelasi butir itu dengan total minimal +0,30. Adapun korelasi antara butir dengan total dapat dilakukan menggunakan rumus product moment, biserial, point biserial. Phi atau tetrakorik (Crocker dan Algina, 1986:317- 319). 2. Efektifitas pengecoh Analisis butir juga dilakukan dengan memperhatikan pengecoh. Pengecoh (distractor) yang juga dikenal dengan istilah penyesat atau penggoda adalah pilihan jawaban yang bukan merupakan kunci jawaban. pengecoh bukan sekedar pelengkap pilihan. Pengecoh diadakan untuk menyesatkan mahasiswa agar tidak memilih kunci jawaban pengecoh menggoda mahasiswa yang kurang begitu memahami materi pelajaran untuk memilihnya. Agar dapat melakukan fungsinya untuk mengecoh maka pengecoh harus dibuat semirip mungkin dengan kunci jawaban. Pengecoh dikatakan berfungsi efektif apabila paling tidak ada siswa yang terkecoh memilih. Pengecoh yang sama sekali tidak dipilih tidak dapat melakukan fungsinya sebagai pengecoh karena terlalu mencolok dan dimengerti oleh semua mahasiswa sebagai pengecoh soal. Pengecoh yang berdasarkan hasil uji coba tidak efektif direkomendasikan untuk diganti dengan pengecoh yang lebih menarik. 2. Validitas butir Sebelum dosen menggunakan suatu tes, hendaknya dosen mengukur terlebih dahulu derajat validitasnya berdasarkan kriteria tertentu. Validitas suatu tes erat kaitanya dengan tujuan tes tersebut. Namun, tidak ada validitas yang berlaku secara umum. Artinya, jika suatu tes dapat memberikan informasi yang sesuai dan dapat digunakan untuk mencapai tujuan tertentu, maka tes itu valid untuk tujuan tersebut. Ada dua unsur penting dalam validitas ini. Pertama, validitas menunjukan suatu derajat, ada yang sempurna, ada yang sedang, dan ada yang rendah. Kedua, validitas selalu dihubungkan dengan suatu putusan atau tujuan yang spesifik. Sebagaimana pendapat Thorndike dan Hagen (1997) bahwa “validity is always in relation to a specific decision ur use”. Sementa itu, Gronlund (1985) mengemukakan ada tiga faktor mempengaruhi validitas hasil tes, yaitu “factor instrumen evaluasi, factor administrasi evaluasi dan penskoran, dan factor dari jawaban mahasiswa”. Selanjutnya, Kerlinger (1986) mengemukakan. “validitas instrumen tidak cukup ditentukan oleh derajat ketepatan instrumen untuk mengukur apa yang seharusnya diukur, tetapi perlu juga dilihat dari tiga kriteria lain, yaitu appropriateness, meaningfulness, dan usefulness.” Appropriateness menunjukan kelayakan dari tes sebagai suatu instrumen, yaitu seberapa jauh instrument dapat menjangkau keragaman aspek perilaku mahasiswa. Mindfulness menunjukan kemampuan instrumen dalam memberikan keseimbangan soal-soal pengukurannya berdasarkan tingkat kepentingan dari setiap fenomena. Usefulness to inferences menunjukan sensitif tidaknya instrumen dalam menangkap fenomena perilaku dan tingkat ketelitian yang ditunjukan dalam membuat kesimpulan. pada dasarnya validitas butir tes dapat dibagi dalam dua kajian yaitu kajian teoritik dan kajian empirik. Validitas teoritik terdiri dari tiga jenis yaitu validitas isi (content validity), validitas konstruk (construct validity), dan validitas muka (face validity). Sedangkan validitas empirik terdiri dari concurrent validity dan predictive validity. Validitas isi (konten) menjawab pertanyaan “sejauh mana item-item dalam tes mencakup keseluruhan ciri perilaku yang ingin diukur oleh tes tersebut”.
Untuk melakukan telah validitas teoritik dapat digunakan aspek dan indikator sebagai berikut : a. Segi Materi (Substansi)
b. Segi Konstruksi
c. Segi Bahasa
Sedangkan perhitungan validitas butir secara kuantitatif adalah sebagai berikut. 1) cara mengetahui Validitas Alat Ukur Sebuah tes memiliki validitas jika hasilnya sesuai dengan kriterium, dalam arti memiliki kesejajaran antara hasil tes tersebut dengan kriterium. Teknik yang digunakan untuk mengetahui kesejajaran adalah teknik korelasi product moment yang dikemukakan oleh Pearson. Rumus korelasi product moment (skor kontinum) ada dua macam, yaitu :
Keterangan :
keadaan hubungan antara dua hal yang kita jumpai dalam kehidupan sehari-hari tidak selalu hanya positif atau negatif saja, tetapi mungkin 0. Besarnya korelasi pun tidak menentu. Koefisien korelasi selalu terdapat antara -1,00 sampai +1,00. Namun karena dalam menghitung sering dilakukan pembulatan angka-angka, sangat mungkin diperoleh koefisien lebih dari 1,00. Koefisien negatif menunjukan adanya kesejajaran untuk mengadakan interpretasi mengenai besarnya koefisien korelasi adalah sebagai berikut :
Penafsiran harga koefisien ada dua cara, yaitu :
2) Validitas Butir Soal atau validitas Item (skor dikotomi) Pengertian umum untuk validitas item adalah demikian sebuah item dikatakan valid apabila mempunyai dukungan yang besar item dikatakan valid apabila mempunyai dukungan yang besar terhadap faktor total. Kesejajaran ini dapat diartikan dengan korelasi sehingga untuk mengetahui validitas item digunakan rumus korelasi seperti sudah diterangkan di atas. Untuk soal-soal bentuk objektif skor untuk item biasa, diberikan dengan (bagian item yang dijawab benar) dan 0 (item yang dijawab salah), sedangkan skor total selanjutnya merupakan jumlah dari skor untuk semua item yang membangun soal tersebut. Validitas butir soal atau validitas item dapat dihitung dengan menggunakan rumus korelasi product moment, baik dengan rumus simpangan maupun rumus angka kasar. Penggunaan kedua rumus tersebut masing-masing ada keuntungannya, menggunakan rumus simpangan angkanya kecil-kecil, tapi kadang-kadang pecahannya rumit. jika skor rata-ratanya (mean) pecahan, simpangan-nya cenderung banyak pecahan. Penggunaan rumus angka kasar bilangannya besar-besar tetapi bulat. Jika ada kalkulator statistik disarankan menggunakan rumus angka kasar saja. Selain itu masih ada cara lain untuk menghitung validitas item, salah satu yang terkenal adalah menggunakan rumus pbis : 3) Reliabilita Tes Uji reliabilitas mampu menunjukan tingkat kepercayaan terhadap skor atau tingkat kecocokan skor dengan skor sesungguhnya. Reliabilitas ini bisa dicapai melalui tingkat kecocokan diantara skor pada lebih dari sekali pengukuran. Jika makin cocok dengan skor sesungguhnya maka makin tinggi tingkat reliabilitasnya. Reliabilitas atau keandalan merupakan konsistensi dari serangkaian pengukuran atau serangkaian alat ukur. hal tersebut bisa berupa pengukuran dari alat ukur yang sama (tes dengan tes ulang akan memberikan hasil yang sama, atau untuk pengukuran yang lebih subjektif, apakah dua orang penilai memberikan skor yang mirip (reliabilitas antar penilai). Reliabilitas selalu menunjukan keadaan instrumen penelitian dalam berbagai bentuk, yakni hasil pengujian yang sama jika dilakukan oleh orang yang berbeda (inter-penilai), hasil pengujian yang sama jika dilakukan oleh orang yang sama dalam waktu berbeda (pengetesan ulang), hasil pengujian yang sama jika dilakukan oleh orang yang berbeda dalam waktu yang bersamaan dengan tes yang berbeda (bentuk paralel), dan hasil pengujian yang sama dengan menggunakan berbagai pertanyaan-pertanyaan membangun (konsistensi internal). Pada konstruksi alat ukur, perhitungan reliabilitas berguna untuk melakukan perbaikan pada alat ukur yang dikonstruksi. Dimana perbaikan alat ukur yang dikonstruksi. Dimana perbaikan alat ukur dilakukan melalui analisis butir untuk mengetahui butir mana yang perlu diperbaiki. Namun pada pengukuran sesungguhnya, perhitungan reliabilitas dilakukan untuk memberi informasi tentang kualitas skor hasil ukur kepada mereka yang memerlukannya. 1) Macam-Macam Reliabilitas Koefisien Reliabilitas Stabilitas Dan Ekivalensi a. Teknik pengukuran ulang (test-retest) Pada teknik ini testee yang sama diminta menjawab pertanyaan dalam alat ukur sebanyak dua kali. Dimana selang waktunya pun tidak terlalu dekat dan tidak terlalu lama (15-30 hari). Kemudian barulah hasil pengukuran I dikorelasikan dengan pengukuran II. Apabila angka korelasi melebihi angka kritik dalam tabel r, maka korelasi signifikan dari pengukuran I dan pengukuran II konsisten dan alat ukurnya dapat dikatakan reliable. Ukur Selang Waktu Ukur ulang X ————– X Pada reliabilitas ini, dilihat apakah hasil ukur ulang masih mirip dengan hasil ukur, apakah jawaban responden stabil sehingga dinamakan reliabilitas stabilitas. Korelasi dilakukan pada skor responden saja tanpa memperhatikan komposisi butir. Komposisi butir boleh apa saja dengan sasaran yang tidak perlu sama. b. Teknik belah dua Pada teknik ini, alat ukur yang disusun harus punya banyak item (50-60) yang mengukur aspek yang sama. Dimana alat ukur diujikan pada testee, kemudian dihitung validitas itemnya. Lalu item yang valid dikumpulkan sedangkan yang tidak valid dibuang untuk kemudian dibagi menjadi 2 bagian. Dari sini skor untuk masing-masing item pada tiap belahan dijumlahkan dan akan menghasilkan skor total belahan I serta skor total belahan II. Kemudian skor total belahan I dikorelasikan dengan skor total belahan II. Maka akan diperoleh angka korelasi yang lebih rendah (karena dibelah), lalu mencari angka reliabilitas keseluruhan item tanpa dibelah. Ada beberapa pendapat mengenai cara penentuan koefisien reliabilitas diantaranya adalah Pilah Paruh (Spearman-Brown). pada reliabilitas ini, ukur dan ukur setara disatukan didalam satu alat ukur sehingga separuh alat ukur adalah ukur dan separuh lagi adalah ukur satara. Karena itu diperlukan syarat kedua pilihan itu harus setara sepasang demi sepasang serta variansi mereka harus sama. Karena korelasi diantara pilihan baru mencakup separuh skor, maka koefisien reliabilitas perlu mencakup korelasi seluruh skor. Komposisi butir sudah mulai diperhatikan, boleh apa saja dengan sasaran yang tidak perlu sama, asal terjadi berpasangan. Koefisien Reliabilitas Konsistensi Internal Banyak koefisien reliabilitas Rulon Pasangan pada setiap pilah paruh adalah setara serta variansi kedua paruhan adalah sama. Karena semua kombinasi pilah paruh digunakan, maka semua butir harus setara. Semua butir setara sehingga dikenal sebagai konsistensi internal. Koefisien reliabilitas dari semua pilah paruhan di retakan menghasilkan koefisien reliabilitas konsistensi internal. Disini dibicarakan dua macam koefisien reliabilitas konsistensi internal yakni : 1. Koefisien reliabilitas Alpha Cronbach (skor kontinum) Pada koefisien ini yang harus kita lakukan adalah dengan mensubstitusikan persamaan menjadi, Sehingga, nantinya didapatkan koefisien korelasi setiap pasang pilihan menjadi, Dengan demikian, semua butir adalah setara, dan koefisien reliabilitas (dikenal sebagai alpha Cronbach). Pada koefisien reliabilitas alpha Cronbach semua butir di dalam alat ukur supaya setara. Sehingga jika interkorelasi diantara butir adalah rendah karena butir kurang setara maka koefisien reliabilitas alpha Cronbach juga rendah. Karena itu, koefisien reliabilitas alpha Cronbach dikenal juga sebagai koefisien reliabilitas batas bawah (lower bound). namun apabila distribusi probabilitas dari data sangat miring (skew), maka koefisien reliabilitas Cronbach perlu dikoreksi. Sehingga, Modifikasi horst terhadap koefisien reliabilitas alpha cronbach akan menghasilkan rumus perhitungan sebagai berikut : r11 = k S2t – S2i k-1 S2t Keterangan : r11 : reliabilitas tes secara keseluruhan. p : proporsi subjek yang menjawab item dengan benar q : proporsi subjek yang menjawab item dengan salah (q=1-p) [pq : jumlah hasil perkalian antara p dan q k : banyaknya item Si : standar deviasi skor butir ke-i dari tes (standar deviasi adalah akar varians). St : standar deviasi skor total dari tes (standar deviasi adalah akar varians) 2. Koefisien reliabilitas Kuder-Richardson (skor dikotomi) Dalam hal skor adalah dikotomi, maka varians butir dapat disederhanakan. Dengan ketentuan bahwa semua butir adalah setara, koefisien reliabilitas (Kuder-Richardson 20) menjadi Notasi 20 pada KR-20 adalah rumus ke-20 di dalam artikel mereka. Pada dasarnya, koefisien reliabilitas KR-20 sama dengan koefisien reliabilitas alpha Cronbach. Koefisien reliabilitas KR-20 lebih dahulu ditemukan daripada koefisien reliabilitas alpha Cronbach. Ciri dari koefisien Reliabilitas KR-20 yaitu, pada koefisien reliabilitas Kuder-Richardson 20, seperti halnya pada koefisien reliabilitas alpha Cronbach, semua butir di dalam alat ukur supaya setara. Sehingga jika interkorelasi diantara butir adalah rendah karena butir kurang setara maka koefisien reliabilitas Kuder-Richardson 20 juga rendah. Karena itu, koefisien reliabilitas Kuder Richardson 20 dikenal juga sebagai koefisien reliabilitas batas bawah (lower bound). Adapun rumus reliabilitas KR-20 : r11 = k S2 – [pi q i k-1 S2t Keterangan : r11 : reliabilitas tes secara keseluruhan p : proporsi subjek yang menjawab item dengan benar q : proporsi subjek menjawab item dengan salah (q= 1-p) [pq : jumlah hasil perkalian antara p dan q k : banyaknya item St : standar deviasi dari skor total es (standar deviasi adalah akar varians) 4) Acuan Penilaian Perencanaan dan penafsiran hasil pengukuran dalam bidang pendidikan dapat berdasarkan acuan norma/relatif atau acuan kriteria/patokan. Kedua acuan tersebut menggunakan asumsi yang berbeda tentang kemampuan seseorang. Penafsiran hasil tes antara kedua acuan itu juga berbeda, sehingga menghasilkan informasi yang berbeda maknanya. Pemilihan acuan ditentukan oleh karakteristik mata pelajaran yang akan diukur dan tujuan yang akan dicapai. Penilaian acuan norma berasumsi bahwa kemampuan orang berbeda dan dapat digambarkan menurut distribusi normal. Perbedaan itu harus ditunjukan oleh hasil pengukuran, misalnya setelah mengikuti pembelajaran selama satu semester, mahasiswa dites. Hasil tes seorang mahasiswa dibandingkan dengan kelompoknya, sehingga dapat diketahui posisi mahasiswa tersebut di kelas itu. Penilaian acuan kriteria berasumsi bahwa hampir semua orang dapat belajar apa saja, meskipun dengan waktu yang berbeda. Dalam acuan kriteria, penafsiran skor hasil tes selalu dibandingkan dengan kriteria yang telah ditetapkan. Ada dua pendekatan yang dapat digunakan dalam melakukan penilaian hasil belajar, yaitu penilaian yang mengacu kepada norma (Penilaian Acuan Norma atau norm-referenced assesment) biasa disebut dengan PAN dan penilaian yang mengacu kepada kriteria (Penilaian Acuan Kriteria atau criterion referenced assessment) biasa disebut dengan PAP. Perbedaan kedua pendekatan tersebut terletak pada acuan yang dipakai. Pada penilaian yang mengacu kepada norma, interpretasi seluruh peserta didik yang dinilai dengan alat penilaian yang sama. Jadi hasil seluruh peserta didik digunakan sebagai acuan. Sedangkan, penilaian yang mengacu kepada kriteria atau patokan, interpretasi hasil penilaian bergantung pada apakah atau sejauh mana seorang peserta didik mencapai atau menguasai kriteria atau patokan yang telah ditentukan. Kriteria atau patokan itu dirumuskan dalam kompetensi atau hasil belajar dalam kurikulum berbasis kompetensi. Dalam pelaksanaan kurikulum berbasis kompetensi, pendekatan penilaian yang digunakan adalah penilaian yang mengacu kepada kriteria atau patokan. Dalam hal ini prestasi mahasiswa ditentukan oleh kriteria yang telah ditetapkan untuk penguasaan suatu kompetensi (https://akhmadsudrajat.wordpress.com/2008/05/01/penilaian-hasil-belajar). Pada penilaian acuan norma (PAN) norma yang digunakan untuk mengukur tingkat penguasaan: Penguasaan mahasiswa dibandingkan dengan tingkat penguasaan kawan-kawannya dalam satu kelompok, bersifat relatif. Norma yang dimaksud adalah nilai tertinggi yang diperoleh kelompok/kelasnya (norma empiris), bersifat relatif, tergantung perolehan teman satu kelas/kelompoknya. Untuk menentukan kedudukan setiap siswa di dalam kelompoknya digunakan acuan kurva normal, maka disebut penilaian acuan norma. Hal ini lebih cocok jika digunakan pada evaluasi sumatif (mengapa?) Sebagai ilustrasi perhatikan contoh berikut ini. Skor terbagi atas lima kategori : A, B, C, D, E atau 1, 2, 3, 4, 5. Ada tiga cara menentukan angka-angka batas kategori, yaitu :
P7, P31, P69 dan P93 Sedangkan Criterion Referenced (PAP)/Criterion Based Evaluation/Criterion Reference Evaluation biasa disebut dengan Penilaian Acuan Patokan/Standar Mutlak yang merupakan Norma Ideal. Penguasaan mahasiswa diukur dengan menggunakan perbandingan terhadap suatu kriteria tertentu. Patokan/kriteria yang dimaksud adalah tujuan yang dicita-citakan, yaitu menguasai seluruh materi (100%) bila tidak mampu diperhitungkan berapa % dari 100%. Patokan 100% adalah :
C. Penutup 1. Rangkuman
2. Evaluasi Dari dua data yang ada pada tabel tersebut diatas, hitunglah :
3. Tindak Lanjut Sebagai kelanjutan dari materi pada bab ini disarankan kepada Anda untuk menganalisis apakah pada saat melakukan penilaian mata kuliah yang diampu sudah dilakukan sesuai dengan kaidah tingkat kesukaran butir, daya pembeda butir, efektivitas distraktor, validitas butir, dan reliabilitas tes, dan acuan penilaian, serta dapat menghitung serta menerapkan dalam penilaian pembelajaran di kelas. Apakah fungsi dari analisis tingkat kesukaran butir?Analisis tingkat kesukaran dimaksudkan untuk mengetahui apakah soal tersebut tergolong mudah atau sukar. Tingkat kesukaran adalah bilangan yang menunjukan sukar atau mudahnya sesuatu soal.
Apa manfaat dari analisis butir soal?Manfaat Kegiatan Analisis Butir Soal
Membantu pengguna tes dalam mengevaluasi kualitas tes yang digunakan, Sesuai untuk penyusunan tes informal, seperti misalnya tes yang disiapkan oleh guru untuk peserta didik. Mendukung penulisan soal yang efektif dan berkualitas.
Mengapa perlu dilakukan analisis tingkat kesukaran dan daya pembeda soal?Salah satu tujuan analisis daya pembeda butir soal adalah untuk menentukan mampu tidaknya suatu butir soal membedakan antara peserta pelatihan yang berkemampuan tinggi dengan peserta pelatihan yang berkemampuan rendah.
Mengapa kita perlu melakukan analisis daya beda butir soal?Analisis butir soal perlu dilakukan untuk mengetahui sejauh mana butir soal tersebut dapat digunakan dalam pengujian tes dan sebagai salah satu kontrol hasil prestasi belajar peserta didik.
|