Menjelaskan kekuatan Statistik Inferensial untuk membuat lebih pintar… – Menuju AI

Menjelaskan kekuatan Statistik Inferensial untuk membuat lebih pintar… – Menuju AI

Pengarang: Harjot Kauro

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

Menjelaskan Kekuatan Statistik Inferensial Untuk Membuat Keputusan yang Lebih Cerdas!

Hilangnya pentingnya statistik inferensial …

Peran strategis tim ilmu data di industri pada dasarnya adalah membantu bisnis membuat keputusan yang lebih cerdas. Ini termasuk keputusan pada skala yang sangat kecil (seperti mengoptimalkan pengeluaran pemasaran) serta keputusan tunggal dan monumental yang dibuat oleh bisnis (seperti bagaimana memposisikan pendatang baru dalam pasar yang kompetitif). Di kedua rezim, dampak potensial dari ilmu data hanya terwujud ketika manusia dan aktor mesin belajar dari data dan ketika ilmuwan data berkomunikasi secara efektif kepada pembuat keputusan di seluruh bisnis. Pasti ada dualitas antara inferensi dan prediksi sepanjang siklus hidup pembelajaran mesin. Dari perspektif yang seimbang, prediksi dan inferensi merupakan komponen integral dari proses dimana model dibandingkan dengan data.

Namun, perspektif berorientasi prediksi yang tidak seimbang berlaku di industri di mana ilmuwan data cenderung langsung memprediksi variabel target. Pendekatan ini mungkin terbukti merugikan untuk membuat keputusan yang lebih cerdas.

Melalui blog ini, saya menawarkan untuk menjelaskan kekuatan sebenarnya dari inferensi dan prediksi, bekerja untuk bergandengan tangan.

Dualitas Prediksi dan Inferensi

Biasanya penyiapan machine learning sederhana yang diawasi dimulai dengan data — terdiri dari variabel independen dan dependen. Kedua variabel memiliki hubungan eksistensial yang mendasari, yang sering diberikan sebagai Y = f(β.x)

Pengaturan ini dijelaskan melalui diagram grafis yang diberikan di bawah ini:

Sumber: Lauritzen, SL (1996). Model grafis. Clarendon Pers.

Sekarang, mari kita coba menguraikan diagram di atas menjadi prediksi dan inferensi. Sebelum itu, untuk semua tujuan praktis, izinkan saya mendefinisikan kedua istilah dengan cara yang paling sederhana.

Prediksi: Keluaran yang dipancarkan oleh model proses pembangkitan data sebagai respons terhadap konfigurasi masukan tertentu. Inferensi: Informasi yang dipelajari tentang proses pembuatan data melalui perbandingan prediksi yang sistematis dari model dengan data yang diamati dari proses pembuatan data.

Pengaturan pembelajaran mesin yang diawasi dengan perspektif yang seimbang, menilai komponen prediktif dan inferensi dapat dinyatakan sebagai:

Sumber: Lauritzen, SL (1996). Model grafis. Clarendon Pers.

Gambar di atas mengilustrasikan bahwa prediksi dan inferensi adalah dua tujuan berbeda dari proses pemodelan, yang keduanya menawarkan nilai bagi organisasi dan terkait erat dalam proses pemodelan, tetapi dapat dilihat dengan cara yang berbeda. Kedua perspektif tersebut valid dalam konteks yang berbeda, dan analis serta organisasi perlu mempertimbangkan dan mengenali orientasi yang sesuai untuk proyek ilmu data tertentu.

Mari kita uji kekuatan statistik inferensial!

Di sini, izinkan saya menjelaskan dualitas inferensi dan prediksi dengan sebuah contoh. Mari kita asumsikan kami bertujuan untuk memprediksi permintaan skuter EV pada tahun 2019 untuk wilayah tertentu, dan kami telah diberikan permintaan historis tahunan untuk skuter EV untuk wilayah yang sama. Mengingat pengaturannya, mari kita bahas generasi nilai yang sama dari komponen inferensi dan prediksi.

Membaca data — data di bawah menunjukkan untuk setiap indeks titik permintaan, kami telah diberikan permintaan historis untuk skuter EV. Di sini, permintaan skuter EV pada tahun 2018 menjadi variabel dependen (Y), dan nilai permintaan historis adalah variabel independen (x)

Sumber: Data yang dibuat secara sintetis oleh penulis

Prediksi permintaan menggunakan Regresi Linier- Kami dapat dengan cepat memprediksi permintaan skuter EV menggunakan regresi linier dan mengevaluasi kesalahan model menggunakan RMSE.


Di sini, RMSE 0,34 luar biasa. Jadi, saya tidak perlu mencari lebih jauh dan segera menyelesaikan prediksi untuk tahun-tahun berikutnya.

Tapi tunggu! Apa yang kita ketahui tentang parameter atau variabel signifikan atau kemampuan menjelaskan model atau mungkin model mana yang berkinerja lebih baik dan mengapa?

Pembelajaran ini berasal dari komponen inferensi dari pengaturan pembelajaran mesin yang diawasi dan harus dianggap sama pentingnya dengan komponen prediksi.

Mari kita coba menjawab beberapa pertanyaan di sini menggunakan tabel ringkasan regresi.

Tabel Ringkasan Regresi dengan nilai hipotetis

Pertama, izinkan saya memecah tabel ringkasan ini menjadi 3 bagian.

(1) Bagian pertama mencantumkan langkah-langkah yang menjelaskan kecocokan model regresi, yaitu seberapa baik model regresi dapat “menyesuaikan” dengan kumpulan data. Langkah-langkah berikut membantu kami memahami kelengkapan model secara keseluruhan.

R-kuadrat — ini sering ditulis sebagai r2 dan juga dikenal sebagai koefisien determinasi. Ini adalah proporsi varians dalam variabel respon yang dapat dijelaskan oleh variabel prediktor. Nilai R-kuadrat dapat berkisar dari 0 sampai 1. Nilai 1 menunjukkan bahwa variabel respon dapat dijelaskan dengan sempurna tanpa kesalahan oleh variabel prediktor. Dalam contoh ini, R-kuadrat adalah 0,965, yang menunjukkan bahwa 96,5% dari varians permintaan skuter EV dapat dijelaskan oleh angka permintaan historis. F-statistik- Statistik ini menunjukkan apakah model regresi memberikan kecocokan yang lebih baik dengan data daripada model yang tidak mengandung variabel independen. Intinya, menguji apakah model regresi secara keseluruhan bermanfaat. Umumnya, jika tidak ada variabel prediktor dalam model yang signifikan secara statistik, statistik F keseluruhan juga tidak signifikan secara statistik. Statistik ini dapat sangat berguna untuk menguji di antara banyak model dengan variabel independen yang berbeda model mana yang lebih cocok.

Demikian juga, AIC dan BIC juga membantu mendapatkan wawasan serupa tentang model fitment.

(2) Bagian kedua membantu menerjemahkan kesimpulan di sekitar perkiraan koefisien, kesalahan standar perkiraan, t-stat, nilai-p, dan interval kepercayaan untuk setiap istilah dalam model regresi.

Koefisien — Koefisien memberi kita angka yang diperlukan untuk menulis estimasi persamaan regresi. Dalam contoh ini, persamaan regresi yang diestimasi adalah:

Permintaan skuter EV pada 2019 = 10,84 + 1,02 * Permintaan skuter EV pada 2017

Setiap koefisien diinterpretasikan sebagai peningkatan rata-rata dalam variabel respons untuk setiap kenaikan satu unit dalam variabel prediktor tertentu, dengan asumsi bahwa semua variabel prediktor lainnya dianggap konstan. Misalnya, untuk setiap unit skuter EV yang dijual pada tahun 2017, rata-rata peningkatan permintaan yang diharapkan pada tahun berikutnya adalah 1,02 unit, dengan asumsi yang lainnya tetap konstan. Intersep diinterpretasikan sebagai unit rata-rata yang diharapkan dari permintaan skuter EV tanpa mempertimbangkan permintaan historisnya.

Kesalahan standar dan nilai p — Kesalahan standar adalah ukuran ketidakpastian di sekitar perkiraan koefisien untuk setiap variabel. Angka p-value memberitahu kita jika variabel respon yang diberikan signifikan dalam model. Dalam contoh ini, kita melihat bahwa p-value untuk permintaan pada tahun 2017 adalah 0,000. Hal ini menunjukkan bahwa permintaan pada tahun 2017 merupakan prediktor permintaan yang signifikan pada tahun 2018. Interval Keyakinan untuk Estimasi Koefisien- Dua kolom terakhir dalam tabel memberikan batas bawah dan atas untuk interval kepercayaan 95% untuk estimasi koefisien. Misalnya, perkiraan koefisien untuk permintaan pada tahun 2017 adalah 1,02, tetapi ada beberapa ketidakpastian di sekitar perkiraan ini. Kita tidak pernah tahu pasti apakah ini adalah koefisien yang tepat. Jadi, interval kepercayaan 95% memberi kita kisaran nilai yang mungkin untuk koefisien sebenarnya. Dalam hal ini, interval kepercayaan 95% untuk permintaan pada tahun 2017 adalah (1.014, 1.028).

(3) Bagian terakhir memberi kita kesimpulan tentang residu atau kesalahan. Mari kita lihat masing-masing nilai yang tercantum:

Omnibus/Prob(Omnibus) — tes kemiringan dan kurtosis residu. Kami berharap untuk melihat nilai mendekati nol, yang akan menunjukkan normal. Prob (Omnibus) melakukan uji statistik yang menunjukkan probabilitas bahwa residual terdistribusi normal. Kami berharap dapat melihat sesuatu yang mendekati 1 di sini. Dalam hal ini, Omnibus relatif tinggi, dan Prob (Omnibus) rendah, sehingga data tidak normal. Skew — ukuran simetri data. Kami ingin melihat sesuatu yang mendekati nol, yang menunjukkan distribusi residual normal. Perhatikan bahwa nilai ini juga menggerakkan Omnibus. Kurtosis — ukuran “peakiness”, atau kelengkungan data. Puncak yang lebih tinggi menyebabkan Kurtosis yang lebih besar. Kurtosis yang lebih besar dapat diartikan sebagai pengelompokan residu yang lebih ketat di sekitar nol, menyiratkan model yang lebih baik dengan beberapa outlier. Durbin-Watson — tes untuk homoskedastisitas. Kami berharap memiliki nilai antara 1 dan 2. Dalam hal ini, datanya dekat tetapi dalam batas. Jarque-Bera (JB)/Prob(JB) — seperti uji Omnibus yang menguji kemiringan dan kurtosis. Kami berharap untuk melihat dalam tes ini konfirmasi tes Omnibus. Nomor Kondisi — Tes ini mengukur sensitivitas keluaran fungsi dibandingkan dengan masukannya. Ketika kita memiliki multikolinearitas, kita dapat mengharapkan fluktuasi yang jauh lebih tinggi untuk perubahan kecil dalam data. Oleh karena itu, kami berharap untuk melihat jumlah yang relatif kecil, sesuatu di bawah 30. Dalam hal ini, kami berada jauh di atas atap di 152.

Jadi, untuk meringkas, dalam hal ini, tabel ringkasan regresi memiliki lebih banyak hal untuk dikatakan daripada RMSE dari komponen prediksi. Kami telah mendapatkan jawaban atas pertanyaan penting seperti (a) kesesuaian model, (b) wawasan tentang variabel signifikan dan kesalahan standar terlampir, dan penyelaman mendalam ke dalam residual.

Visibilitas dan interpretasi parameter yang benar memberi kami kontrol yang lebih baik untuk membuat keputusan yang lebih cerdas.

Singkatnya, perspektif yang seimbang pada prediksi dan inferensi sangat penting untuk membuat keputusan yang cerdas. Kedua komponen harus berfungsi bersama untuk membuat model pembelajaran mesin bermakna dan berguna bagi bisnis.

Terakhir, terima kasih atas kesabaran Anda dalam membaca sampai akhir dan jika menurut Anda artikel ini bermanfaat, beri saya satu atau dua tepuk tangan! dan jika tidak, tulis kembali dengan komentar dan pertanyaan Anda; Saya akan dengan senang hati menjawab dan terhubung untuk diskusi di Linkedin.

Referensi:

Menjelaskan kekuatan Statistik Inferensial untuk membuat keputusan yang lebih cerdas! awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Jeffrey Hayes