
Author(s): Supreet Kaur
Awalnya diterbitkan di Menuju AI.
Panduan Pemula untuk Data Sintetis
Data untuk Model Machine Learning seperti jantung dari tubuh manusia. Kesuksesan model bergantung pada banyak faktor, tetapi Data adalah salah satu faktor penting yang menentukan kesuksesan. Beberapa perusahaan memiliki banyak data dan tidak ada masalah, tetapi beberapa berjuang untuk menemukan data yang memadai untuk membangun model AI yang berfungsi. Statistik yang mengkhawatirkan bahwa 80% waktu Data Scientist diinvestasikan untuk menyiapkan data menunjukkan pentingnya data yang “baik” dan “cukup”.
Seperti namanya, teknologi “Data Sintetik” memungkinkan praktisi untuk menghasilkan data yang mirip dengan data aktual tetapi disesuaikan dengan kebutuhan Anda, volume yang dibutuhkan, dan kasus penggunaan. Itu dihasilkan menggunakan teknik yang berbeda, beberapa di antaranya akan dibahas di blog ini.
Data Sintetis sesuai dengan kasus penggunaan di bawah ini:
Bermanfaat bagi organisasi yang tidak memiliki banyak data tetapi masih ingin membangun produk berbasis AI. Hal ini dapat membantu jika ada kumpulan data yang tidak seimbang. Data kelas yang tidak mendominasi dapat dihasilkan dengan memanfaatkan teknik data sintetik. Industri dengan regulasi ketat yang tidak dapat menggunakan PII untuk melatih modelnya, sehingga menghasilkan sesuatu yang serupa dengan data asli, bukan menggunakan data sebenarnya. Bayangkan sebuah tim baru bergabung dengan organisasi Anda untuk membuat model prediksi pada data citra medis; daripada menggunakan data aktual, yang mungkin memiliki informasi pasien, Anda memutuskan untuk membuat kumpulan data yang mewakili informasi tersebut, tetapi pada saat yang sama, karena ini bukan data asli, data tersebut berhasil menutupi informasi tersebut. Perusahaan Autonomous Vehicle sangat mengandalkan Data Sintetis untuk menghasilkan semua kemungkinan kasus tepi untuk melatih model mereka. Mereka sangat bergantung pada teknik simulasi untuk menghasilkan data sintetik.
SUMBER: GARTNER
Teknik untuk menghasilkan Data Sintetis
Ada berbagai jenis teknik yang dapat digunakan untuk menghasilkan Data Sintetis. Beberapa merupakan teknik statistik sederhana, dan lainnya merupakan teknik pembelajaran mendalam seperti GAN.
Metode Statistik
Sampel data dapat dihasilkan dari distribusi probabilitas dengan fitur statistik karakteristik tertentu seperti rata-rata, varians, kemiringan, dll. Misalnya, dalam kasus deteksi COVID, diasumsikan bahwa sampel negatif termasuk dalam distribusi statistik tertentu. Sebaliknya, sampel positif tidak sesuai dengan distribusi data ini. Data Sintetis dapat menyelamatkan dalam situasi yang tidak terduga, seperti Pandemi, di mana data tidak ada. Di sini, kami dapat menggunakan data pandemi yang ada dari laporan publik untuk menghasilkan data COVID.
Metode Pembelajaran Mendalam
Generative Adversarial Network (GAN): GAN adalah metode populer untuk menghasilkan data sintetik. Ini adalah algoritme yang membuat data palsu, yaitu sangat mendekati data akurat. Ada dua komponen utama GAN: Diskriminator dan Generator. Generator adalah yang bertanggung jawab untuk menghasilkan data palsu, sedangkan diskriminator adalah yang mengklasifikasikan jika data yang dihasilkan mendekati data sebenarnya. Ini kemudian memberikan umpan balik ke generator.
GAN kadang-kadang dapat belajar untuk menghasilkan hanya serangkaian keluaran terbatas, atau “mode”, daripada menjelajahi seluruh ruang keluaran yang mungkin. Ini dikenal sebagai keruntuhan mode dan dapat mengakibatkan data yang dihasilkan berulang atau berkualitas rendah.
Pendekatan alternatif untuk GAN adalah WGAN. Tujuan dari GAN standar adalah untuk meminimalkan divergensi Jensen-Shannon antara distribusi data aktual dan distribusi yang dihasilkan, sedangkan untuk WGAN, tujuannya adalah untuk meminimalkan fungsi kerugian Wasserstein. Jarak Wasserstein adalah ukuran jarak yang lebih bermakna antara distribusi probabilitas, karena ini menangkap jumlah “pekerjaan” yang diperlukan untuk mengubah satu distribusi ke distribusi lainnya daripada mengevaluasi output aktual.
Teknologi Sumber Terbuka
Time Series Generator: Paket Python yang menghasilkan data deret waktu Kubric: Ini adalah kerangka kerja python sumber terbuka yang diluncurkan oleh Google yang bertujuan untuk membuat kumpulan data gambar sintetik Copulas: Pustaka Python untuk memodelkan distribusi multivariat dan mengambil sampel darinya menggunakan fungsi kopula. Diberikan tabel data numerik, itu digunakan copulas untuk mempelajari distribusi dan menghasilkan data sintetik baru mengikuti sifat statistik yang sama. Pydbgen: Paket Python yang menghasilkan tabel database acak berdasarkan pilihan tipe data pengguna. Ini menghasilkan beberapa bidang standar seperti Nama, Umur, dll. Gretel Synthetics: Memanfaatkan Recurrent Neural Networks(RNN) untuk menghasilkan data sintetik untuk teks terstruktur dan tidak terstruktur.
Keterbatasan Data Sintetis
Kurangnya Keanekaragaman: Data sintetik terkadang tidak memiliki keragaman dan kompleksitas data dunia nyata. Hal ini dapat mengakibatkan model bekerja dengan baik pada data sintetik tetapi tidak dapat menggeneralisasi dengan baik ke data dunia nyata. Representasi Tidak Lengkap: Data sintetik mungkin tidak selalu sepenuhnya menangkap kompleksitas data dunia nyata. Misalnya, ini mungkin tidak memperhitungkan kejadian langka atau tidak terduga yang dapat memengaruhi performa model. Bias: Data sintetik dapat menjadi bias jika proses yang digunakan untuk membuatnya menjadi bias atau jika data dunia nyata yang digunakan untuk melatih generator menjadi bias. Hal ini dapat menyebabkan model yang melanggengkan bias yang ada atau membuat yang baru.
Perusahaan sedang bergerak menuju adaptasi Data Centric AI. Data Sintetis dapat berguna untuk bergerak menuju pendekatan itu. Meskipun memiliki pro dan kontra, dengan penelitian yang sedang berlangsung, ini dapat membantu kasus penggunaan terobosan dan membantu memecahkan masalah start dingin.
Referensi:
Data Sintetis Akan Mengubah Kecerdasan Buatan
Bayangkan jika mungkin untuk menghasilkan sumber daya paling berharga di dunia dalam jumlah tak terbatas, dengan murah dan cepat…
www.forbes.com
Alat data sintetis: Sumber terbuka atau komersial? Panduan untuk membangun vs. membeli – Statice
Kami membuat postingan ini untuk menjawab pertanyaan berulang yang ditemui tim kami selama percakapan dengan pelanggan: apa…
www.statice.ai
https://analyticsindiamag.com/a-guide-to-generating-realistic-synthetic-image-datasets-with-kubric/#:~:text=Kubric%20is%20an%20open%2Dsource,functions%20of%20PyBullet% 20and%20Blender.&text=Kubric%2C%20a%20scalable%20dataset%20generator,computer%2Dgenerated%20images%20and%20videos.
Diterbitkan melalui Menuju AI