Menghasilkan Musik dengan Mendengar Cuplikan Lagu – Menuju AI

Google AudioLM generating music

Pengarang: Salvatore Raieli

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

Baik musik atau ucapan, model baru Google dapat terus memainkan apa yang didengar.

Google AudioLM menghasilkan musikgambar oleh Marius Masalar di unsplash.com

AudioLM adalah model baru Google, yang mampu menghasilkan musik dengan gaya yang sama seperti prompt. Model ini juga mampu menghasilkan suara yang kompleks seperti musik piano atau pembicaraan orang. hasilnya memukau. Bahkan, sepertinya tidak bisa dibedakan dari aslinya.

Mengapa menghasilkan musik itu sulit?

Google AudioLM menghasilkan musikgambar oleh Dolo Iglesias di unsplash.com

Menghasilkan musik bukanlah tugas yang mudah. Faktanya, menghasilkan sinyal audio (musik, suara sekitar, ucapan orang) membutuhkan beberapa skala abstraksi. Misalnya, musik memiliki struktur yang harus dianalisis dalam jangka waktu yang lama dan juga terdiri dari banyak sinyal yang saling berinteraksi. Bahkan pidato pribadi itu sendiri dapat dianalisis pada tingkat yang berbeda, baik itu sinyal akustik sederhana atau fonetik, tetapi juga dalam hal prosodi, sintaksis, tata bahasa, atau semantik.

Beberapa upaya telah dilakukan sebelumnya. Upaya pertama untuk menghasilkan musik berfokus pada menghasilkan file MIDI (proyek menarik di mana mereka menghasilkan musik MIDI untuk piano dibuat pada tahun 2018 menggunakan transformator). Selain itu, beberapa penelitian berfokus pada tugas-tugas seperti text-to-speech, di mana ucapan dihasilkan dari transkrip. Masalahnya adalah semua yang tidak ada dalam transkrip tidak diterjemahkan ke dalam file audio. Beberapa penelitian menjelaskan bagaimana komunikasi manusia, jeda dan infleksi, dan sinyal lainnya sangat penting.

Misalnya, mereka yang menggunakan Alexa atau speaker lain telah memperhatikan bahwa suaranya tidak terdengar alami. Terutama di hari-hari awal, tidak peduli seberapa benar pengucapannya, itu terdengar tidak wajar dan memberikan efek yang luar biasa.

AudioLM, model Google baru

Google AudioLM menghasilkan musikgambar oleh Priscilla Du Preez di unsplash.com

Beberapa hari yang lalu, Google mengumumkan rilis model baru: “AudioLM: Pendekatan Pemodelan Bahasa untuk Generasi Audio”. Model baru ini mampu menghasilkan audio (seperti musik dan ucapan yang realistis) hanya dengan mendengarkan audio.

Google AI on Twitter: “Pelajari tentang AudioLM, kerangka kerja pembuatan audio yang menunjukkan konsistensi jangka panjang (misalnya, sintaksis dalam ucapan & melodi dalam musik) dan ketepatan tinggi, dengan aplikasi untuk sintesis ucapan dan musik yang dibantu komputer. ↓ https:/ /t.co/onTH6HdCcX / Twitter”

Pelajari tentang AudioLM, kerangka pembuatan audio yang menunjukkan konsistensi jangka panjang (misalnya, sintaksis dalam ucapan & melodi dalam musik) dan fidelitas tinggi, dengan aplikasi untuk sintesis ucapan dan musik yang dibantu komputer. https://t.co/onTH6HdCcX

Saat mereka membuat blog, ada peningkatan besar di bidang Natural Language Processing (NLP) dalam beberapa tahun terakhir. Faktanya, model bahasa telah terbukti sangat efektif dalam sejumlah tugas. Banyak dari sistem ini didasarkan pada penggunaan trafo, dan mereka yang telah menggunakannya tahu bahwa salah satu langkah pra-pemrosesan awal adalah membuat tokenize (memecah teks menjadi unit yang lebih kecil yang diberi nilai numerik).

Intuisi utama di balik AudioLM adalah memanfaatkan kemajuan seperti itu dalam pemodelan bahasa untuk menghasilkan audio tanpa dilatih pada data beranotasi. — Blogpost Google AI

AudioLM tidak memerlukan transkripsi atau pelabelan. Penulis mengumpulkan database suara dan memasukkannya langsung ke model. Model memampatkan file suara menjadi serangkaian cuplikan (semacam token). Token ini kemudian digunakan seolah-olah mereka adalah model NLP (model, dengan cara ini, menggunakan pendekatan yang sama untuk mempelajari pola dan hubungan antara berbagai cuplikan audio). Dengan cara yang sama seperti model penghasil teks, AudioLM menghasilkan suara dari prompt.

Hasilnya sangat menarik, suaranya jauh lebih natural. AudioLM tampaknya dapat menemukan dan menciptakan kembali pola-pola tertentu yang ada dalam musik manusia (seperti getaran halus yang terkandung dalam setiap nada saat tuts piano dipukul). Pada tautan di bawah ini, Google telah memberikan sejumlah contoh jika Anda penasaran untuk mendengarkan:

AudioLM

AudioLM telah dilatih di perpustakaan suara yang luas yang mencakup tidak hanya musik tetapi juga suara manusia. Untuk itu, model dapat menghasilkan kalimat yang dihasilkan oleh manusia. Model ini mampu menangkap aksen pembicara dan menambahkan jeda dan seruan. Meskipun banyak kalimat yang dihasilkan oleh model tidak masuk akal, hasilnya sangat mengesankan.

Memang, memperlakukan urutan suara seolah-olah itu adalah urutan kata mungkin tampak seperti pendekatan yang cerdas, namun, beberapa kesulitan tetap ada:

Pertama, kita harus mengatasi fakta bahwa kecepatan data untuk audio secara signifikan lebih tinggi, sehingga mengarah ke urutan yang lebih lama — sementara kalimat tertulis dapat diwakili oleh beberapa lusin karakter, bentuk gelombang audionya biasanya berisi ratusan ribu nilai. Kedua, ada hubungan satu-ke-banyak antara teks dan audio. Ini berarti bahwa kalimat yang sama dapat diberikan oleh pembicara yang berbeda dengan gaya bicara, isi emosional, dan kondisi perekaman yang berbeda. — Blogpost Google AI

Secara lebih rinci, pendekatan tokenization audio sudah dicoba oleh OpenAI Jukebox, hanya saja modelnya menghasilkan lebih banyak artefak, dan suaranya tidak terdengar natural.

Google AudioLM menghasilkan musikIkhtisar tokenizer yang digunakan di AudioLM. gambar dari kertas asli (di sini)

Seperti yang dijelaskan oleh penulis, model terdiri dari tiga bagian:

model tokenizer, yang memetakan urutan suara ke dalam urutan token yang terpisah. Langkah ini juga mengurangi ukuran urutan (laju pengambilan sampel berkurang sekitar 300 kali). transformator hanya-dekoder (model bahasa klasik) yang memaksimalkan kemungkinan memprediksi token berikutnya dalam urutan. Model ini berisi 12 lapisan dengan 16 kepala perhatian, dimensi penyematan 1024, dimensi lapisan umpan-maju 4096, model detokenizer yang mengubah token yang diprediksi menjadi token audio.

Model dilatih pada 60.000 jam pidato bahasa Inggris dan 40.000 jam musik untuk eksperimen piano.

Untuk ini, kami melatih ulang semua komponen AudioLM pada dataset internal 40 ribu jam musik piano yang mencakup pemain dari tingkat pemula hingga ahli, dan menunjukkan berbagai kondisi akustik yang berbeda, dengan konten mulai dari latihan skala piano hingga karya terkenal. — sumber artikel asli

Anda juga dapat melihat hasilnya dalam video singkat ini:

https://medium.com/media/9f3b58e39293b135ac594422b81dd81b/href

Penulis melaporkan bahwa orang yang mendengarkan hasil AudioLM gagal melihat perbedaan dengan rekaman asli ucapan manusia. Karena model tersebut dapat digunakan untuk melawan prinsip AI (aplikasi berbahaya, pemalsuan mendalam, dan sebagainya), penulis telah membangun pengklasifikasi yang dapat mengenali audio yang dibuat dengan AudioLM dan sedang menyelidiki teknologi untuk “watermarking” audio.

Pikiran perpisahan

Google AudioLM menghasilkan musikGambar yang dihasilkan dengan OpenAI Dall-E 2

Dalam beberapa bulan terakhir kita telah melihat bagaimana beberapa model mampu menghasilkan gambar (DALL-E, difusi stabil) dan ada model seperti GPT3 yang mampu menghasilkan urutan teks. Menghasilkan urutan audio menghadirkan beberapa kesulitan tambahan tetapi tampaknya kita akan segera melihat beberapa kemajuan besar di bagian depan ini.

Faktanya, Google baru saja meluncurkan AudioLM, model yang mampu menggunakan audio prompt (suara atau piano) dan menghasilkan kelanjutannya. Di sisi lain, kelompok yang sama yang mempresentasikan difusi stabil baru saja mempresentasikan Harmonai (yang sebenarnya menggunakan algoritma difusi stabil yang serupa).

Teknologi ini di masa depan dapat digunakan sebagai musik latar untuk video dan presentasi, aplikasi yang lebih baik untuk pengaturan perawatan kesehatan, atau aksesibilitas Internet. Di sisi lain, teknologi ini dapat digunakan untuk pemalsuan yang mendalam, penyebaran informasi yang salah, penipuan, dan sebagainya.

Jika Anda menganggapnya menarik:

Anda dapat mencari artikel saya yang lain, Anda juga dapat berlangganan untuk mendapatkan pemberitahuan ketika saya menerbitkan artikel, dan Anda juga dapat menghubungkan atau menghubungi saya di LinkedIn. Terima kasih atas dukunganmu!

Berikut ini tautan ke repositori GitHub saya, tempat saya berencana untuk mengumpulkan kode dan banyak sumber daya yang terkait dengan pembelajaran mesin, kecerdasan buatan, dan banyak lagi.

GitHub – SalvatoreRa/tutorial: Tutorial tentang pembelajaran mesin, kecerdasan buatan, ilmu data dengan penjelasan matematika dan kode yang dapat digunakan kembali (dalam python dan R)

Atau jangan ragu untuk membaca beberapa artikel saya yang lain di Medium:

Audiolm Google: Menghasilkan Musik dengan Mendengar Cuplikan Lagu awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Jeffrey Hayes