Reverse Attention Network (RAN) dalam Segmentasi Gambar – Menuju AI

Reverse Attention Network (RAN) dalam Segmentasi Gambar – Menuju AI

Pengarang: Leo Wang

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

Foto oleh Devin Avery di Unsplash

Daftar isi

· ️ Masalah
· ️ Solusi
· ️Reverse Attention Network (RAN)
Cabang Terbalik (RB)
Cabang Perhatian Terbalik (RAB)
Gabungkan hasilnya
· ️ Pelatihan
· ️ Kinerja
· Kutipan

️ Masalah

Sebagian besar metode segmentasi semantik berbasis CNN berfokus pada mendapatkan prediksi yang benar tanpa mekanisme yang mengajarkan model untuk membedakan perbedaan antar kelas. (sehingga karakteristik kelas yang kurang umum dapat diabaikan) Fitur tingkat tinggi digunakan bersama di kelas yang berbeda karena kesamaan visual antar kelas, yang dapat menghasilkan hasil yang membingungkan di wilayah yang berisi batas kelas yang berbeda (misalnya, latar belakang dengan objek karena mereka memiliki kekuatan aktivasi yang sama) atau ketika mereka dicampur bersama.

Gambar 1

Untuk memiliki pemahaman yang lebih baik tentang masalah, silakan lihat Gambar. 1. Seperti yang terlihat dari peta panas perhatian, jelas bahwa sebagian besar model encoder-decoder saat ini akan memiliki aktivasi saraf yang kuat pada bagian yang dua objek “dicampur” bersama-sama (alias. memiliki batas atau wilayah yang tidak jelas di mana 2+ objek memiliki pola spasial yang serupa), di mana model tidak boleh terlalu memperhatikan bagian “campuran” itu selama prediksi sama sekali.

️ Solusi

Penulis merancang mekanisme untuk mengidentifikasi wilayah khusus campuran tersebut dan memperkuat aktivasi yang lebih lemah untuk menangkap objek target, sehingga jaringan belajar tidak hanya untuk membedakan kelas latar belakang tetapi juga belajar untuk membedakan objek yang berbeda yang semuanya ada dalam gambar.

Oleh karena itu, mereka mengusulkan arsitektur baru dan menamakannya “Reverse Attention Network” (RAN) untuk mengatasi masalah tersebut.

Gambar 2: Jaringan yang mereka usulkan: RAN

Dalam RAN, ada dua cabang berbeda (satu dilingkari merah dan satu dilingkari biru) yang dirancang untuk mempelajari fitur latar belakang dan fitur objek, masing-masing.

Untuk lebih menyoroti pengetahuan yang dipelajari dari kelas objek, struktur perhatian terbalik ditunjuk untuk menghasilkan topeng per kelas untuk memperkuat aktivasi kelas objek di wilayah bingung.

Terakhir, prediksi digabungkan bersama untuk menghasilkan prediksi akhir.

️Reverse Attention Network (RAN)

Untuk memiliki pemahaman yang lebih rinci tentang model yang diusulkan, silakan lihat Gambar. 3.

Gambar 3: Tampilan keseluruhan RAN. Ada tiga cabang berwarna kuning, biru, dan hijau.

Untuk memecah proses menjadi beberapa langkah setelah gambar input diberikan:

Peta fitur dihasilkan menggunakan arsitektur model yang dipilih (Biasanya ResNet-101 atau VGG16, tetapi dapat bervariasi) untuk mempelajari fitur objek. Kemudian, peta dibagi menjadi dua cabang.

Gbr. 4: Cabang Terbalik (dipotong dari Gbr. 3).

Cabang Terbalik (RB)

Berwarna kuning, model pertama-tama melatih lapisan CONV_rev untuk mempelajari “kelas objek terbalik” secara eksplisit (kelas objek terbalik adalah kebenaran dasar terbalik untuk kelas objek). Untuk mendapatkan kelas objek terbalik, latar belakang dan kelas lainnya diatur ke 1, sedangkan kelas objek diatur ke 0. Namun, ketika masalah segmentasi multi-kelas, alternatif biasanya digunakan dengan membalikkan tanda semua aktivasi berdasarkan kelas (blok NEG) sebelum dimasukkan ke pengklasifikasi berbasis softmax. Pendekatan ini memungkinkan lapisan CONV_rev untuk dilatih menggunakan label kebenaran dasar kelas yang sama.

Gbr. 5: Cabang Perhatian Terbalik (dipotong dari Gbr. 3).

Cabang Perhatian Terbalik (RAB)

Alih-alih secara langsung menerapkan pengurangan elemen-bijaksana ke prediksi asli dengan aktivasi cabang terbalik karena kinerja yang lebih buruk, Cabang Perhatian Terbalik diusulkan untuk menyorot wilayah yang diabaikan oleh prediksi asli (termasuk area campuran dan latar belakang). Output dari perhatian terbalik akan menghasilkan topeng berorientasi kelas untuk memperkuat peta aktivasi terbalik. Seperti yang ditunjukkan pada Gambar. 3 dan Gambar. 5, peta fitur awal dari gambar input dimasukkan ke dalam lapisan CONV_org. Kemudian, nilai piksel peta fitur yang dihasilkan dibalik oleh blok NEG. Kemudian, fungsi sigmoid diterapkan untuk mengubah nilai piksel antara [0, 1], sebelum memasukkan peta fitur ke peta perhatian, tempat topeng perhatian diterapkan. Langkah-langkah tersebut di atas dapat diringkas ke dalam Formula 1, di mana i, j menunjukkan lokasi piksel. Oleh karena itu, wilayah dengan respons kecil atau negatif akan disorot oleh NEG dan operasi sigmoid, tetapi area aktivasi positif (atau skor percaya diri) akan ditekan di cabang perhatian terbalik.

Formula 1

Gabungkan hasilnya

Kemudian, peta dari Cabang Reverse Attention dikalikan secara elemen dengan Reverse Branch. Peta yang dihasilkan dikurangi dari prediksi asli untuk menghasilkan prediksi akhir.

Gambar 3: Tampilan keseluruhan RAN (digandakan untuk referensi yang lebih mudah!).

️ Pelatihan

Ini di luar cakupan artikel ini, jadi kami hanya akan menunjukkan teks asli dari makalah ini kepada Anda:

️ Performa

Tabel 1: Perbandingan kinerja dengan arsitektur segmentasi semantik populer pada kumpulan data populer.

Terima kasih! ❤️

Kutipan

[1] Segmentasi Semantik dengan Perhatian Terbalik

Dijelaskan: Reverse Attention Network (RAN) dalam Segmentasi Gambar awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Jeffrey Hayes