
Pengarang: Poojatambe
Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.
Mengapa entropi lebih disukai daripada kesalahan klasifikasi untuk melakukan pemisahan pohon keputusan?
oleh Adobe Stock
Pohon keputusan menggunakan pendekatan pencarian top-down, serakah dengan partisi rekursif. Pada pohon keputusan, tujuannya adalah untuk mempartisi daerah secara rekursif sampai terbentuk cluster yang homogen. Untuk membuat partisi ini, sejumlah pertanyaan diajukan.
Untuk membagi pohon pada setiap langkah, kita perlu memilih atribut terbaik yang memaksimalkan penurunan kerugian dari simpul induk ke simpul anak. Oleh karena itu, mendefinisikan fungsi kerugian yang sesuai merupakan langkah penting.
Di sini, kami akan mencoba memahami kesalahan entropi dan kesalahan klasifikasi. Juga, jawab mengapa kesalahan klasifikasi tidak digunakan untuk pemisahan.
Entropi
Entropi adalah fenomena teori informasi yang digunakan untuk menghitung ketidakpastian atau ketidakmurnian dalam informasi. Algoritma pohon ID3 menggunakan entropi dan keuntungan informasi sebagai fungsi kerugian untuk memilih atribut pemisahan data pada setiap langkah.
Pertimbangkan dataset dengan kelas C. Cross-entropy untuk wilayah R dihitung sebagai berikut:
Dimana Pc= Proporsi contoh yang dipilih secara acak di kelas c.
Entropi berkisar antara 0 hingga 1. Nilai entropi nol menunjukkan data murni atau homogen.
Kesalahan klasifikasi
Kerugian kesalahan klasifikasi menghitung fraksi sampel yang salah klasifikasi. Oleh karena itu, mempertimbangkan proporsi kelas utama di wilayah R. Pertimbangkan kelas target C. Biarkan Pc menjadi proporsi sampel kelas c milik kelas target C.
Kerugian kesalahan klasifikasi dihitung sebagai berikut:
Kesalahan klasifikasi berkisar antara 0 hingga 0,5.
Entropi vs Kesalahan Klasifikasi
Penurunan maksimum kerugian dari daerah induk ke node anak atau meminimalkan kerugian anak digunakan untuk memutuskan atribut untuk pemisahan pohon. Penurunan ini disebut perolehan informasi yang diberikan sebagai berikut:
Untuk menghitung kerugian, kita perlu mendefinisikan fungsi kerugian yang sesuai. Mari kita bandingkan kerugian entropi dan kesalahan klasifikasi dengan bantuan sebuah contoh.
Pertimbangkan 900 sampel “positif” dan 100 sampel “negatif”. Mari kita asumsikan atribut X1 digunakan untuk membelah pada simpul induk. Perhatikan pohon keputusan berikut dengan distribusi sampel data yang tidak merata setelah pemisahan.
Pohon Keputusan
Ini memiliki satu simpul murni yang diklasifikasikan sebagai 200 sampel “positif” dan simpul tidak murni dengan 700 sampel “positif” dan 100 “negatif”.
Dengan entropi sebagai fungsi kerugian, kehilangan orang tua adalah 0,467, dan kehilangan anak adalah 0,544. Karena satu simpul murni, entropi adalah nol, dan simpul tidak murni memiliki nilai entropi bukan nol.
Pohon keputusan dengan nilai entropi
Menggunakan rumus perolehan informasi, pengurangan kerugian dari daerah induk ke anak dihitung sebagai,
Keuntungan = Entropi (induk) —[Entropy(left child)*(No of samples in left child/No of samples in parent) + Entropy(right child)*(No of samples in right child/No of samples in parent)]
Keuntungan = 0,467 –[0.544*(800/1000) + 0 *(200/1000)]
Keuntungan = 0,0318
Dengan kesalahan klasifikasi, kehilangan orang tua adalah 0,1, dan kehilangan anak-anak adalah 0,125.
Sebuah pohon keputusan dengan kerugian kesalahan klasifikasi
Keuntungan informasi dihitung sebagai,
Keuntungan = SAYA(induk) —[ME(left child)*(No of samples in left child/No of samples in the parent) + ME(right child)*(No of samples in right child/No of samples in the parent)]
Keuntungan = (100/1000) —[(100/800)*(800/1000) + 0*(200/1000)]
Keuntungan = 0
Dari nilai gain di atas, kita dapat mengatakan bahwa karena kesalahan klasifikasi tidak memperoleh informasi apapun, maka pemisahan lebih lanjut dari pohon tidak diperlukan, dan pohon keputusan berhenti tumbuh. Tetapi dalam kasus entropi, pohon keputusan dapat dipartisi lebih lanjut sampai simpul daun tercapai dan nilai entropi menjadi nol.
Mari kita buktikan ini dengan perspektif geometris.
Grafik kesalahan entropi dan kesalahan klasifikasi.
Grafik di atas diplot dengan asumsi data terbelah menjadi dua node. Fungsi cross-entropy memiliki sifat cekung yang membuktikan bahwa kehilangan anak selalu lebih kecil daripada kehilangan orang tua. Tapi ini tidak terjadi dengan kesalahan klasifikasi. Oleh karena itu kehilangan anak dan orang tua adalah sama.
Oleh karena itu, dibandingkan dengan entropi, kerugian kesalahan klasifikasi tidak sensitif terhadap perubahan probabilitas kelas, karena itu entropi sering digunakan dalam membangun pohon keputusan untuk klasifikasi.
Pengotor Gini memiliki sifat yang sama dengan entropi yang juga lebih disukai untuk pembuatan pohon keputusan daripada kehilangan kesalahan klasifikasi.
Referensi
Cek ceritaku sebelumnya,
Pengklasifikasi Gambar dengan Streamlit
2. Segalanya tentang Kehilangan Fokus
Selamat Belajar!!
Pemisahan Pohon Keputusan: Entropi vs. Kesalahan Klasifikasi awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.
Diterbitkan melalui Menuju AI