Perjalanan Visual dalam Apa yang Dilihat oleh Vision-Transformers – Menuju AI

visualize vision transformers

Pengarang: Salvatore Raieli

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda membuat produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

Bagaimana beberapa model terbesar melihat dunia

memvisualisasikan visi transformergambar dari artikel asli: sumber

Memvisualisasikan CNN memungkinkan kami mempelajari lebih lanjut tentang cara kerja model ini. Sekarang Vision Transformers mengambil panggung, sebuah artikel baru menjelaskan bagaimana kita dapat melihat seperti apa model luas ini melihat dunia.

Visualisasikan visi transformer

memvisualisasikan visi transformergambar dari artikel asli: sumber

Sejak convolutional neural network (CNN) telah muncul sebagai model pemenang dalam visi komputer, kelompok penelitian yang berbeda berfokus pada pemahaman apa yang dipelajari model ini.

Di satu sisi, jaringan saraf telah muncul di beberapa bidang (dari analisis bahasa hingga visi komputer) tetapi dianggap sebagai “kotak hitam”. Berbeda dengan banyak algoritma lainnya, mereka jauh lebih sulit untuk ditafsirkan. Faktanya, semakin mampu model tersebut (pertumbuhan jumlah parameter), semakin sulit untuk dapat memahami apa yang terjadi di dalamnya.

Oleh karena itu, beberapa metode telah dikembangkan untuk memvisualisasikan apa yang dipelajari oleh jaringan saraf convolutional. Beberapa yang paling banyak digunakan:

Visualisasikan filter (atau visualisasikan bobot). Visualisasikan aktivasi lapisan Untuk mengambil gambar yang mengaktifkan neuron secara maksimal Menyematkan vektor fitur dengan t-SNE. GradCAM, peta arti-penting.

Pada 2016, transformer muncul di panggung. Model luas ini berdasarkan perhatian diri telah terbukti mencapai kinerja yang jauh lebih unggul dalam NLP (terjemahan mesin, klasifikasi bahasa, dan seterusnya). Segera, mereka menjadi standar untuk NLP, dan dengan diperkenalkannya transformer visi, mereka juga diterapkan pada visi komputer.

memvisualisasikan visi transformerdari artikel transformator asli: di sini

Oleh karena itu, para peneliti yang berbeda telah mencoba untuk memvisualisasikan apa yang dipelajari vision transformers (ViTs). ViT terbukti jauh lebih sulit untuk dianalisis, dan sejauh ini, metode yang digunakan menunjukkan keterbatasan. Memahami cara kerja bagian dalam dari model-model ini dapat membantu dalam menjelaskan keberhasilan dan potensi kasus sudut mereka.

Pekerjaan sebelumnya berfokus pada pengamatan aktivasi kunci, kueri, dan nilai dari lapisan perhatian diri, tetapi hasilnya tidak berhasil.

memvisualisasikan visi transformerMemvisualisasikan bobot perhatian diri itu tidak mengarah pada visualisasi yang berwawasan. keterangan dan gambar dari artikel asli: sumber

Sebuah makalah baru-baru ini diterbitkan oleh para peneliti di Universitas New York dan Universitas Maryland yang memberikan pemahaman yang lebih baik tentang apa yang terjadi di dalam model (apakah itu adalah pengubah visi atau model seperti CLIP).

Dalam artikel tersebut, para peneliti merangkum kontribusi mereka:

Sementara metode standar mengarah pada hasil yang tidak dapat diinterpretasikan (terutama bila diterapkan pada kunci, kueri, dan nilai), dimungkinkan untuk memperoleh visualisasi informatif dengan menerapkan teknik yang sama ke lapisan feed-forward berikutnya dari blok transformator yang sama (dan mereka mendemonstrasikannya menggunakan model yang berbeda: ViTs, DeiT, CoaT, ConViT, PiT, Swin, dan transformator Twin). Pola aktivasi gambar patch-wise untuk fitur ViT berperilaku seperti peta arti-penting yang menunjukkan bahwa model mempertahankan hubungan posisi antara patch (dan mempelajarinya selama pelatihan). CNN dan ViT membangun representasi yang kompleks dan progresif (di CNN, lapisan pertama mewakili tepi dan tekstur, sementara lapisan selanjutnya mempelajari pola yang lebih kompleks, dan penulis menunjukkan bahwa hal yang sama terjadi di ViT). ViT, berbeda dengan CNN, lebih mampu menggunakan informasi latar belakang. Penulis juga menerapkan metode mereka pada model menggunakan pengawasan bahasa (seperti CLIP) dan menunjukkan bahwa fitur dapat diekstraksi dari model ini yang dapat diasosiasikan dengan teks keterangan (seperti preposisi, kata sifat, dan kategori konseptual).

Penulis membandingkan ViT dengan jaringan konvolusional dan mencatat bahwa representasi meningkat dalam kompleksitas sepanjang pola (lapisan sebelumnya mempelajari struktur yang lebih sederhana sementara pola yang lebih canggih dipelajari oleh lapisan yang lebih maju). Dalam praktiknya, CNN dan ViT berbagi apa yang disebut spesialisasi progresif.

memvisualisasikan visi transformer“Kemajuan untuk fitur visualisasi ViT B-32. Fitur dari lapisan awal menangkap tepi dan tekstur umum. Pindah ke lapisan yang lebih dalam, fitur berkembang untuk menangkap komponen gambar yang lebih terspesialisasi dan akhirnya objek konkret.” keterangan dan gambar dari artikel asli: sumber
memvisualisasikan visi transformer“Kompleksitas fitur vs kedalaman di ViT B-32. Visualisasi menunjukkan bahwa ViT mirip dengan CNN karena menunjukkan perkembangan fitur dari tekstur ke bagian menjadi objek saat kami berkembang dari fitur yang dangkal ke fitur yang dalam.” keterangan dan gambar dari artikel asli: sumber

Ada juga perbedaan. Para penulis menyelidiki ketergantungan ViT dan CNN pada fitur gambar latar belakang dan latar depan (menggunakan kotak pembatas di ImageNet). ViT mampu mendeteksi informasi latar belakang yang ada pada citra (pada citra misalnya rumput dan salju). Selain itu, dengan menutupi latar belakang atau latar depan pada gambar, para peneliti menunjukkan bahwa ViT tidak hanya menggunakan informasi latar belakang dengan lebih baik tetapi juga tidak terlalu terpengaruh oleh penghapusannya.

memvisualisasikan visi transformer“ ViT-B16 mendeteksi fitur latar belakang. Kiri: Gambar yang dioptimalkan untuk mengaktifkan fitur secara maksimal dari lapisan 6. Tengah: Sesuai dengan contoh pengaktifan secara maksimal dari ImageNet. Kanan: Peta aktivasi patch-wise gambar. (b): Contoh gambar asli dan latar depan dan latar belakang yang disamarkan.” keterangan dan gambar dari artikel asli: sumber

Kami terkejut bahwa meskipun setiap tambalan dapat memengaruhi representasi setiap tambalan lainnya, representasi ini tetap bersifat lokal, bahkan untuk masing-masing saluran di lapisan dalam jaringan. Sementara temuan serupa untuk CNN, yang neuronnya mungkin memiliki bidang reseptif terbatas, tidak mengejutkan, bahkan neuron di lapisan pertama ViT memiliki bidang reseptif yang lengkap. Dengan kata lain, ViT belajar untuk melestarikan informasi spasial, meskipun tidak memiliki bias induktif seperti CNN. -sumber: artikel asli

Dengan kata lain, selama pelatihan, model mempelajari cara melestarikan informasi spasial. Selain itu, lapisan terakhir malah memiliki pola aktivasi yang seragam dan mempelajari cara mengklasifikasikan gambar (menurut penulis, lapisan terakhir memiliki fungsi mengglobal informasi).

Berdasarkan pelestarian informasi spasial di tambalan, kami berhipotesis bahwa token CLS memainkan peran yang relatif kecil di seluruh jaringan dan tidak digunakan untuk globalisasi hingga lapisan terakhir.

memvisualisasikan visi transformer“ Contoh visualisasi fitur dari lapisan feed-forward ViT. Kiri: Gambar yang dioptimalkan untuk mengaktifkan fitur secara maksimal dari lapisan 5. Tengah: Sesuai dengan contoh ImageNet yang mengaktifkan secara maksimal. Kanan: Peta aktivasi patch-wise gambar. (b): Fitur dari lapisan terakhir yang paling banyak diaktifkan oleh keranjang belanja.” keterangan dan gambar dari artikel asli: sumber

Dalam beberapa tahun terakhir, model transformator penglihatan telah dilatih dengan teknik pembelajaran kontrastif dan supervisi bahasa. Salah satu contohnya adalah CLIP. Karena model ini semakin banyak digunakan dan semakin kompetitif, maka penulis juga menganalisis CLIP.

memvisualisasikan visi transformer‘Kiri: Pengoptimalan fitur menunjukkan batas yang tajam, dan contoh ImageNet yang diaktifkan secara maksimal berisi gambar yang berbeda dan berdekatan. Tengah: Pengoptimalan fitur dan pengaktifan foto ImageNet secara maksimal semuanya menampilkan gambar dari sudut pandang yang lebih tinggi. Kanan: Pengoptimalan fitur menunjukkan kerumunan orang, tetapi mengaktifkan gambar secara maksimal menunjukkan bahwa pengulangan objek lebih relevan daripada jenis objek.’ keterangan dan gambar dari artikel asli: sumber

Model tersebut menunjukkan bahwa ada fitur yang terkait dengan konjektur, seperti “sebelum dan sesudah” atau “dari atas”. Dengan kata lain, ada fitur yang mewakili kategori konseptual dan dapat dilihat dengan jelas:

Tujuh gambar yang sangat aktif dari kumpulan data termasuk objek berbeda lainnya seperti senjata berdarah, zombie, dan kerangka. Dari sudut pandang yang benar-benar visual, kelas-kelas ini memiliki atribut yang sangat berbeda, menunjukkan bahwa fitur ini mungkin bertanggung jawab untuk mendeteksi komponen gambar yang terkait secara luas dengan morbiditas.

memvisualisasikan visi transformer“Fitur dari ViT dilatih dengan CLIP yang berhubungan dengan kategori morbiditas. Gambar kiri atas di setiap kategori: Gambar dioptimalkan untuk mengaktifkan fitur secara maksimal dari lapisan 10. Sisanya: Tujuh dari sepuluh gambar ImageNet yang paling mengaktifkan fitur tersebut.” keterangan dan gambar dari artikel asli: sumber

Kesimpulan

Untuk memahami, melihat selalu lebih baik. Dalam beberapa tahun terakhir telah terjadi peningkatan penekanan pada kebutuhan akan interpretabilitas model. Meskipun ada banyak metode yang berhasil di CNN, tidak mungkin untuk memvisualisasikan fitur ViT.

Para penulis tidak hanya mengidentifikasi metode untuk dapat melakukan ini (mereka menunjukkan bahwa seseorang harus menggunakan lapisan umpan-maju dan bukan lapisan perhatian-diri) tetapi juga menganalisis sifat dari fitur-fitur ini. Mereka menunjukkan bagaimana model mampu mempelajari hubungan spasial selama pelatihan dan bagaimana, di sisi lain, lapisan terakhir tidak berpartisipasi dalam representasi spasial ini.

Selain itu, meskipun ViT mirip dengan jaringan konvolusional, sebagian dari kesuksesan mereka bagi penulis berasal dari cara mereka memanfaatkan informasi terkait latar belakang dengan lebih baik. Mereka juga menunjukkan bahwa ketika ViT dilatih dengan d dengan pengawasan model bahasa, mereka mempelajari lebih banyak fitur semantik dan konseptual daripada fitur visual khusus objek.

Kode: di sini, artikel: di sini

jika Anda menemukan itu menarik:

Anda dapat mencari artikel saya yang lain, Anda juga dapat berlangganan untuk mendapatkan pemberitahuan ketika saya menerbitkan artikel, dan Anda juga dapat menghubungkan atau menghubungi saya di LinkedIn. Terima kasih atas dukunganmu!

Ini tautan ke repositori GitHub saya, tempat saya berencana untuk mengumpulkan kode dan banyak sumber daya yang terkait dengan pembelajaran mesin, kecerdasan buatan, dan banyak lagi.

GitHub – SalvatoreRa/tutorial: Tutorial tentang pembelajaran mesin, kecerdasan buatan, ilmu data dengan penjelasan matematika dan kode yang dapat digunakan kembali (dalam python dan R)

Atau jangan ragu untuk melihat beberapa artikel saya yang lain di Medium:

A Visual Journey in What Vision-Transformers See awalnya diterbitkan di Towards AI on Medium, di mana orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Jeffrey Hayes