Hubungan Matematis antara Kompleksitas Model dan… – Menuju AI

Hubungan Matematis antara Kompleksitas Model dan… – Menuju AI

Pengarang: Harjot Kaur

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

Sebagian besar penggemar ilmu data akan setuju dengan klaim – ‘Dilema bias-varians menderita kelumpuhan analisis’, karena ada banyak literatur tentang konsep Bias-Varians, dekomposisi, derivasi, dan hubungannya dengan kompleksitas model. Mungkin, kami telah mengerahkan kemampuan terbaik kami bahwa model sederhana menunjukkan bias tinggi dan model kompleks mengalami bias rendah. Pernahkah kita bertanya-tanya mengapa?

Beberapa orang mungkin memilih untuk mengabaikan ini dengan menyatakannya sebagai pertanyaan lain. Tapi, ada hubungan matematis yang mapan antara kompleksitas model dan dilema bias-varians. Memahami hal ini dengan baik dapat membantu praktisi ilmu data untuk melakukan analisis kesalahan yang tepat dan menerapkan teknik regularisasi dengan tepat. Jadi, mari selami untuk memahami konsepnya terlebih dahulu secara singkat dan kemudian dapatkan hubungan matematisnya!

Dekomposisi Bias-Variance-Noise

Sederhananya, Bias adalah asumsi penyederhanaan yang dibuat oleh model untuk membuat fungsi target lebih mudah dipelajari. Bias rendah menunjukkan asumsi yang lebih sedikit tentang bentuk fungsi target. Bias tinggi menunjukkan lebih banyak asumsi tentang bentuk fungsi target.

Varians adalah jumlah estimasi fungsi target akan berubah jika data pelatihan yang berbeda digunakan. Varians Rendah menyarankan perubahan kecil pada estimasi fungsi target dengan perubahan pada set data pelatihan. Varians Tinggi menyarankan perubahan besar pada estimasi fungsi target dengan perubahan pada set data pelatihan.

Tapi mari kita coba memahami bagaimana ini bekerja secara matematis.

Secara matematis, bias dapat dinyatakan sebagai:

di mana f(x) adalah model sebenarnya, f^(x) adalah estimasi model kita, dan E[f^(x)] adalah nilai rata-rata (atau yang diharapkan) dari model.

Ini berarti bias adalah perbedaan antara nilai yang diharapkan dari estimator dan parameter. Dalam grafik di bawah ini, model sederhana (fungsi linier) diplot pada 3 set pelatihan, dan garis abu-abu mendefinisikan fungsi sebenarnya. Kita dapat dengan jelas mengamati bias tinggi karena rata-rata model sederhana benar-benar tidak sesuai dengan fungsi sebenarnya.

http://rasbt.github.io/mlxtend/user_guide/evaluate/bias_variance_decomp/

Dan, Varians dapat diberikan sebagai:

Ini didefinisikan sebagai perbedaan antara nilai ekspektasi dari estimator kuadrat dikurangi ekspektasi kuadrat dari estimator. Sekali lagi, grafik di bawah ini menggambarkan bahwa semua set pelatihan sangat cocok dengan fungsi sebenarnya, dan ketika diberikan data yang tidak terlihat tidak akan dapat menerapkan pembelajarannya. Oleh karena itu, varians tinggi!

http://rasbt.github.io/mlxtend/user_guide/evaluate/bias_variance_decomp/

Mengapa tradeoff Bias-Variance diperlukan sejak awal?

Studi empiris terkesan bahwa nilai kesalahan yang diharapkan terdiri dari bias, varians, dan noise. Dekomposisi kerugian menjadi bias dan varians membantu kita memahami algoritme pembelajaran, karena konsep ini berkorelasi dengan underfitting dan overfitting. Oleh karena itu, dengan kebutuhan yang melekat untuk mengurangi kesalahan yang sebenarnya, kita harus bekerja untuk mengoptimalkan komponennya yaitu, bias dan varians. Mari kita lihat dekomposisi bias-variance-noise.

Di Sini,

fungsi benar atau target sebagai y=f(x), nilai target yang diprediksi sebagai y^=f^(x)=h(x), dan kerugian kuadrat sebagai S=(y−y^)²

Untuk memulai dekomposisi kerugian kesalahan kuadrat menjadi bias dan varians, mari kita lakukan beberapa manipulasi aljabar, yaitu menambahkan dan mengurangkan nilai harapan y^ dan kemudian memperluas ekspresi menggunakan rumus kuadrat (a+b)²=a²+ b²+2ab):

Selanjutnya, kita hanya menggunakan ekspektasi di kedua sisi, dan kita sudah selesai:

Anda mungkin bertanya-tanya apa yang terjadi dengan istilah “2ab” (2(y−E[y^])(E[y^]y^) saat kita menggunakan ekspektasi. Ternyata bernilai nol dan karenanya menghilang dari persamaan, yang dapat ditunjukkan sebagai berikut:

Jadi, untuk mengurangi kesalahan yang diharapkan, kita harus memilih sweet spot antara bias tinggi dan varians tinggi. Itu memberi kita model terbaik. Seperti yang digambarkan pada Gambar 3, model terbaik adalah dengan kompleksitas optimal yang menyeimbangkan antara bias dan varians.

https://www.researchgate.net/publication/221434786_A_Bias-Variance-Complexity_Trade-Off_Framework_for_Complex_System_Modeling

Sekarang pertanyaan emas! Bagaimana kompleksitas model memengaruhi kesalahan yang sebenarnya?

Mari kita coba memahami ini menggunakan Lemma Stein.

di mana LHS mewakili kesalahan sebenarnya, dan RHS menjelaskan perubahan kecil dalam pengamatan (yi) menyebabkan perubahan besar dalam perkiraan ( f).

Hal ini menunjukkan bahwa ketika term pada RHS tinggi, perubahan kecil dalam suatu pengamatan akan menyebabkan perubahan besar dalam estimasi, sehingga meningkatkan kerugian. Memang model yang kompleks akan lebih sensitif terhadap perubahan pengamatan, sedangkan model sederhana akan kurang sensitif terhadap perubahan pengamatan.

Mari kita verifikasi klaim di atas. Kami telah memasang model sederhana dan kompleks untuk beberapa data yang diberikan. Sekarang, saat mengubah salah satu titik data, model sederhana tidak banyak berubah dibandingkan dengan model kompleks (lihat grafik di bawah).

Gambar oleh penulis

Oleh karena itu, kita dapat mengatakan bahwa:

kesalahan sebenarnya = kesalahan kereta empiris + konstanta kecil + (kompleksitas model)

Oleh karena itu saat pelatihan, alih-alih meminimalkan kesalahan pelatihan Ltrain(θ) kita harus meminimalkan

Dimana (θ) akan tinggi untuk model kompleks dan kecil untuk model sederhana, dan ini menjadi dasar untuk semua metode regularisasi.

Dalam bagian ini, kami telah membahas definisi bias dan varians yang diterima secara universal. Juga, kami telah mencoba untuk menguraikan komponen Bias-Variance-Noise dari kesalahan yang diharapkan secara matematis. Selain itu, kami mencoba untuk mencapai persamaan secara matematis menggunakan lemma Stein, yang menjelaskan bagaimana kompleksitas model memengaruhi kesalahan yang diharapkan, yaitu, bias² + varians.

Saya harap tulisan ini bermanfaat bagi para pembaca, dan saya berterima kasih atas kesabaran Anda dalam membaca bagian yang bertahan lama ini. Tulis kembali dengan komentar atau pertanyaan Anda, dan saya akan dengan senang hati menanggapinya. Juga, jika Anda ingin berinteraksi dalam ilmu data dan analitik, mari terhubung di Linkedin.

Referensi:

i) https://www.researchgate.net/publication/221434786_A_Bias-Variance-Complexity_Trade-Off_Framework_for_Complex_System_Modeling

ii) Bias-Variance tradeoff oleh Mitesh Khapra

iii) http://rasbt.github.io/mlxtend/user_guide/evaluate/bias_variance_decomp/

Hubungan Matematika antara Kompleksitas Model dan Dilema Bias-Variance awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Jeffrey Hayes