
Pengarang: Poulinakis Kon
Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.
Apakah GELU Penerus ReLU?
Foto oleh Willian B. di Unsplash
Bisakah kita menggabungkan fungsi regularisasi dan aktivasi? Pada tahun 2016 sebuah makalah dari penulis Dan Hendrycks dan Kevin Gimpel keluar. Sejak itu, makalah ini sekarang telah diperbarui 4 kali. Penulis memperkenalkan fungsi aktivasi baru, Gaussian Error Linear Unit, GELU.
Demistifikasi GELU
Motivasi di balik GELU adalah untuk menjembatani pengatur stokastik, seperti putus sekolah, dengan non-linier, yaitu, fungsi aktivasi.
Regularisasi dropout secara stokastik mengalikan input neuron dengan 0, secara acak menjadikannya tidak aktif. Di sisi lain, aktivasi ReLU secara deterministik mengalikan input dengan 0 atau 1 tergantung pada nilai input.
GELU menggabungkan kedua fungsi dengan mengalikan input dengan nilai dari 0 hingga 1. Namun, nilai topeng nol-satu ini, sementara ditentukan secara stokastik, juga bergantung pada nilai input.
Secara matematis, GELU dirumuskan sebagai :
(x) adalah fungsi distribusi kumulatif (CDF) dari distribusi normal standar. Pilihan fungsi ini berasal dari fakta bahwa input neuron cenderung mengikuti distribusi normal, terutama ketika Batch Normalization digunakan. Jadi, pada dasarnya GELU memiliki probabilitas lebih tinggi untuk menjatuhkan neuron (dikalikan dengan 0) sedangkan x berkurang karena P(X x) menjadi lebih kecil. Harap luangkan waktu sejenak untuk memikirkan hal ini dan biarkan tenggelam. Jadi transformasi yang dilakukan oleh GELU bersifat stokastik, namun bergantung pada nilai input melalui (x).
Gambar 1: Satuan Linear Gaussian Error (μ=0, =1), Satuan Linear Rectified, dan Satuan Linear Eksponensial (ELU) (α=1). Sumber [1]
Amati bagaimana GELU(x) dimulai dari nol untuk nilai x kecil karena CDF P(X≤x) hampir sama dengan 0. Namun, di sekitar nilai -2, P(X≤x) mulai meningkat. Oleh karena itu kita melihat GELU(x) menyimpang dari nol. Untuk nilai positif, karena P(X≤x) bergerak mendekati nilai 1, GELU(x) mulai mendekati ReLU(x). Pada gambar di bawah, garis merah mewakili CDF dari Distribusi Normal Standar N(0,1) yaitu, P(X≤x).
Gambar 2: Fungsi Distribusi Kumulatif untuk Distribusi Gaussian yang berbeda. Garis merah mewakili CDF dari Standar Normal N(0,1) . Sumber Wikipedia.
Perkiraan
GELU juga dapat didekati melalui rumus
jika kecepatan feedforward yang lebih besar sepadan dengan biaya ketepatan.
Variasi
GELU juga dapat dimodifikasi dengan menggunakan CDF yang berbeda. Misalnya, jika digunakan Distribusi Logistik CDF (x), maka kita akan mendapatkan Satuan Linier Sigmoid (SiLU) x(x). Selain itu, kita dapat memilih CDF N(μ, ) dengan dan sebagai hyperparameter yang dapat dipelajari.
Keuntungan
Para penulis di [1]bereksperimen dengan penggunaan GELU terhadap fungsi aktivasi ReLU dan ELU dalam 3 set data benchmark berbeda yang mencakup tugas visi komputer (klasifikasi CIFAR 10/100), pemrosesan bahasa alami (Twitter part of speech tagging), dan pengenalan fonem audio (frame TIMIT klasifikasi).
Sepanjang percobaan mereka, mereka mengamati peningkatan akurasi yang konsisten saat menggunakan GELU dibandingkan dengan ReLU, dan ELU. Secara analitis:
Tabel di atas menyajikan tingkat kesalahan pengujian dalam 4 set data. GELU secara konsisten mencapai tingkat kesalahan pengujian terendah, menyamar sebagai alternatif yang menjanjikan untuk aktivasi ReLU dan ELU.
Fakta Menarik
Makalah terkenal “Sebuah Gambar Bernilai 16×16 Kata: Transformer untuk Pengenalan Gambar pada Skala” yang membuat Vision Transformers populer memanfaatkan aktivasi GELU di dalam MLP blok transformator encoder (bagian 3.1). Ini menunjukkan bahwa GELU dianggap sebagai pilihan yang baik oleh para peneliti berkualitas tinggi.
REFERENSI
[1] Gaussian Error Linear Units (GELUs)
[2] https://en.wikipedia.org/wiki/Normal_distribution
[3] Sebuah Gambar Bernilai 16×16 Kata: Transformer untuk Pengenalan Gambar dalam Skala Besar
Terima kasih telah membaca, jangan ragu untuk menghubungi!
Tautan Saya: Sedang | LinkedIn | GitHub
Apakah GELU, penerus ReLU? awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.
Diterbitkan melalui Menuju AI