Masalah Terbesar Dengan Sistem ML Saat Ini – Menuju AI

Masalah Terbesar Dengan Sistem ML Saat Ini – Menuju AI

Pengarang: Astha Puri

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

Foto oleh Rain Bennett di Unsplash

Jadi, Anda membuat model pembelajaran mesin dan menerapkannya dalam produksi. Sebagian besar model yang dibangun saat ini tidak berhasil diproduksi. Jadi dalam skenario ini, kami adalah segelintir orang yang sistem ML-nya benar-benar ada di dunia. Hore!

Hanya untuk melihat bahwa kinerjanya memburuk seiring waktu. Mengapa!! Mengapa kinerjanya menurun? Kami mencari semuanya. Performanya bagus pada semua metrik evaluasi model yang ada. Dan masih. Mengapa? Bos kesal, pelanggan mengeluh, dan bisnis menuju kehancuran…..

Selamat datang di konsep drift.

Foto oleh Khamkéo Vilaysing di Unsplash

Drift terjadi ketika ada perubahan pada lingkungan operasional sistem ML Anda. Ini adalah jenis lingkungan yang dilatihnya. Seiring waktu, jika ini berubah secara inheren, model ML Anda tidak lagi memprediksi dengan benar. Oleh karena itu, kemajuan menuju kinerja yang lebih buruk dan lebih buruk.

Berapa kali Anda mendengar ini di perusahaan Anda — ‘ya, ada seorang ilmuwan data sebelum Anda yang ingin mengerjakan model dan membuat model yang luar biasa ini, yang dijual untuk semua orang. Kemudian mereka meninggalkan perusahaan untuk mendapatkan lebih banyak $$$. Model mereka tidak lagi berfungsi, dan yah, sekarang semua orang skeptis tentang penggunaan ilmu data/ML secara bersamaan’.

Jika model tidak pernah berkinerja baik, bisa jadi ada trilyun hal yang bisa menyebabkan itu. Tetapi jika kinerjanya baik pada suatu waktu, dan Anda melihat penurunan seiring waktu, drift adalah sesuatu yang mungkin ingin Anda perhatikan dengan serius.

Ada 2 jenis drift yang sering terjadi:

Konsep drift Data drift (juga disebut pergeseran kovariat atau fitur drift)

1. Konsep Drift

Ini terjadi ketika sesuatu di lingkungan dasar berubah di mana model dibangun.

Pertimbangkan penipuan digital dan online, misalnya. Penipu terus beradaptasi dengan perubahan protokol keamanan dan perlindungan online. Definisi dari apa yang dianggap sebagai spam telah berkembang dari waktu ke waktu. Ini seperti perubahan mendasar dalam lingkungan.

Untuk memperbaiki drift seperti ini, kita perlu mengubah desain model itu sendiri. Kita dapat:

tambahkan fitur baru, ubah model ML atau lakukan keduanya di atas

2. Data Drift

Ini mempengaruhi bagian ekstraksi fitur dari pemodelan ML. Biasanya dapat diperbaiki dengan melatih kembali model pada data baru.

Apa pun yang menurunkan kualitas data dapat menyebabkan penyimpangan data, misalnya, sensor yang dikalibrasi dengan buruk. Atau, misalnya, model NLP yang dilatih bahasa milenial tapi kemudian tidak bisa diprediksi karena seiring berjalannya waktu, gen Z telah tumbuh dan memasuki dunia di mana mereka juga menghasilkan banyak data istilah gen Z.

Ini adalah masalah dunia yang sangat nyata dan penyimpangan akan terjadi. Tidak ada yang dapat Anda lakukan untuk mencegahnya seperti masalah lain di ML seperti overfitting, kebocoran data, dll.

Kabar baik — kita bisa memenangkan pertempuran melawan drift

Foto oleh GR Stocks di Unsplash

Seperti darah adalah tanda yang sangat baik bahwa Anda telah terluka secara fisik, model Anda berkinerja buruk dan akurasi turun adalah indikator yang sangat baik bahwa penyimpangan telah terjadi dalam beberapa bentuk.
Apakah ini indikator yang sangat bagus? Ya.
Apakah ini waktu terbaik? Tidak.

Anda ingin mengidentifikasi penyimpangan sebelum hal-hal meledak dan pelanggan mengeluh atau lebih buruk – berputar. Kelemahan tambahan dengan menunggu sampai Anda melihat penyimpangan dalam akurasi model adalah bahwa, bahkan setelah mengidentifikasi penyimpangan, kita tidak tahu jenis penyimpangan itu. Jadi masalah di sini memiliki dampak operasional yang lebih tinggi, dan pemecahan masalah membutuhkan waktu lebih lama.

Pendekatan yang lebih baik mungkin untuk ‘memantau’ model dan mengidentifikasi tanda-tanda awal. Hal ini dapat dilakukan dengan memantau tahap-tahap antara dari keluaran model. Ini dapat dilakukan di:

Tahap ekstraksi fitur — dengan membandingkan distribusi dasar fitur dengan distribusi saat ini. Jika celahnya besar, mungkin ada potensi penyimpangan. Analisis ini dapat dilakukan dengan menggunakan uji statistik untuk tahap Modeling Kolmogorov-Smirnov test (KS testing) — kita dapat membandingkan pola dasar yang muncul di berbagai lapisan model. Model tambahan dapat dilatih untuk membandingkan ini di bawah normal vs outlier dari data pelatihan. Memeriksa kepercayaan — mengawasi kepercayaan model dalam hasilnya bisa menjadi indikator yang baik. Jika kepercayaan diri mulai turun, itu bisa menjadi bendera potensial untuk drift.

Ringkasan

Melayang tidak bisa dihindari. Meskipun itu adalah sesuatu yang tidak dapat kami cegah selama pemodelan kami, masih ada cara untuk mendeteksi dan memperbaikinya. Kuncinya terletak pada deteksi dini sehingga dapat diselesaikan sebelum memengaruhi operasi bisnis, pengalaman pelanggan, ulasan, dan pendapatan.

Masalah Terbesar Dengan Sistem ML Hari ini awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Jeffrey Hayes