Mutual Information Pengertian Rumus Contoh

Pengertian

Mutual Information (MI) merupakan salah satu metode seleksi yang menunjukkan seberapa banyak informasi ada atau tidaknya sebuah term (istilah) memberikan kontribusi dalam membuat keputusan klasifikasi secara benar atau salah.

Mutual Information bekerja apabila ada dua buah pengamatan x dan y yang saling bebas memiliki peluang P(x) dan P(y), sedangkan P(x,y) adalah peluang pengamatam x dan y  secara bersama-sama. Secara formal, Mutual Information membandingkan peluang pengamatan x dan y secara bersama dengan peluang pengamatan x dan y secara bebas. Jika terdapat hubungan yang kuat antara pengamatan x dan y, maka P(x,y) akan lebih besar dari P(x).P(y) dan sebagai akibatnya I(x,y) > 0. Apabila tidak ada hubungan keterikatan antara pengamatan x dan y maka P(x,y) »  P(x).P(y) dan I(x,y) »  0.

Jika teman teman sulit memahami kalimat tersebut, baca terus hingga selesai di bagian contoh akan membuat kita lebih mudah memahaminya.

Rumus Mutual Information

Rumus Persamaan (1)

Pada domain diskrit, nilai dari Mutual Information antara dua variabel acak didefinisikan sebagai berikut:

Rumus Persamaan (2)

Pada rumus persamaan di atas (2), dapat diturunkan menjadi seperti berikut.

Rumus Persamaan (3)

Kita juga memiliki sebuah tabel confusional matrix untuk menempatkan nilai jumlah kemunculan terms(kata/istilah) .

Untuk mulai menyelesaikan perhitungan Mutual Information teman-teman bisa fokus untuk memahami rumus persamaan (3), turunan dari rumus persamaan (1) & persamaan (2)

Jika sudah paham akan menjadi modal yang bagus untuk mengerti bagaimana contoh perhitungan Mutual Information yang akan dijelaskan. Jika belum mari kita lihat contohnya berikut ini :

Contoh Perhitungan Mutual Information

Kita punya dataset semisal seperti pada tabel berikut

Data Set Hadis Bukhari Muslim

Pada tabel tersebut sudah dilengkapi dengan kelas (Anjuran,Informasi & Larangan) dan len(jumlah kata pada tiap hadis) untuk mengisi tabel confusional matrix, seperti pada gambar berikut

Implementasi Nilai pada Tabel Confusional Matrix dan Rumus MI Persamaan (3)

Perhitungan tersebut baru menghitung term/kata ‘Jangan‘. Kita juga harus menghitung semua kata yang ada pada tabel data set, untuk menyederhanakannya kita dapat menggunakan tahap Preprocessing Text.

Jika kita sudah menghitung semua kata tersebut maka kita akan mendapatkan fitur/kata dengan nilainya masing-masing.

Nilai Setelah kata ‘Jangan’ adalah asumsi saya, temen-temen tetap harus melakukan perhitungan seperti pada contoh sebelumnya. Selanjutnya kita dapat menentukan nilai batas minimal (Threshold) misal 0.12 maka kita hanya akan menggunakan kata/fitur dengan nilai treshold adalah >= 0.12, contoh hasil pada slide kedua.

Proses Perhitungan MI pada contoh kasus dataset Hadis telah selesai, selanjutnya kita dapat menggunakan fitur/kata tersebut untuk keperluan proses langkah berikutnya semisal TF-IDF, Klasifikasi dsb.

Terima kasih, semoga bermanfaat

*Jika dalam pemahaman ada penjelasan dan keterangan yang keliru, tinggalkan pertanyaan pada kolom komentar

1 Comment

  1. Halo Pak, makasih atas penjelasannya. Saya ingin bertanya, pada contoh tersebut berlaku untuk kelas larangan, ketika saya menghitung memakai term yang sama dengan kelas yang berbeda, hasil MI-nya berbeda. Jadi apakah setiap kelas memang mempunyai MI yang berbeda untuk kata yang serupa? terima kasih

Leave a Reply

Your email address will not be published. Required fields are marked *

× Mau Merchandise? bisa, Chat WA yak