AI Boleh Memesan Restoran atau Janji Temu Rambut, Tetapi Jangan Mengharapkan Perbualan Lengkap Pasti pembantu AI anda boleh membuat janji temu untuk anda, tetapi bagaimana dengan perbualan yang bermakna? Shutterstock / Bas Nastassia

Google baru-baru ini diperkenalkan AI yang terbaharu, yang disebut Duplex. Dupleks berbunyi seperti orang sebenar, lengkap dengan jeda, "umms" dan "ahhs".

Raksasa teknologi itu mengatakan bahawa ia boleh bercakap dengan orang di telefon untuk membuat janji temu dan memeriksa waktu buka perniagaan.

Duplex menjadualkan temujanji salun rambut. Google445 KB (Muat Turun)

Dalam rakaman perbualan yang dimainkan di Google, ia bercakap dengan manusia dengan lancar, yang kelihatannya tidak menyedari bahawa mereka tidak bercakap dengan orang lain.

Dupleks memanggil restoran. Google399 KB (Muat Turun)

Panggilan ini meninggalkan khalayak berorientasikan teknologi di pertunjukan Google terengah-engah dan bersorak. Dalam satu contoh, AI bahkan mengerti ketika orang yang sedang bercakap dengannya bercampur baur, dan dapat terus mengikuti perbualan dan memberi respons yang tepat apabila diberitahu bahawa ia tidak perlu membuat tempahan.


grafik langganan dalaman


Peningkatan pembantu AI

Sekiranya anda telah menggunakan mana-mana pembantu suara yang ada sekarang, seperti Google Home, Apple's Siri atau Amazon Echo, fleksibiliti ini mungkin mengejutkan anda. Pembantu ini adalah terkenal sukar untuk digunakan untuk apa pun selain permintaan biasa seperti menelefon kenalan, memainkan lagu, melakukan carian web mudah, atau menetapkan peringatan.

Apabila kita bercakap dengan pembantu generasi sekarang ini, kita selalu sedar bahawa kita bercakap dengan AI dan kita sering menyesuaikan apa yang kita katakan dengan sewajarnya, dengan cara yang kita harap dapat memaksimumkan peluang kita untuk menjadikannya berfungsi.

Tetapi orang yang bercakap dengan Duplex tidak tahu. Mereka ragu-ragu, mundur, melangkau kata-kata, dan bahkan mengubah fakta melalui ayat. Duplex tidak ketinggalan. Ia seolah-olah memahami apa yang sedang berlaku.


Baca lebih lanjut: Pembesar suara pintar boleh menjadi titik tolak untuk automasi rumah


Jadi adakah masa depan telah tiba lebih awal daripada yang diharapkan? Adakah dunia akan penuh dengan pembantu AI dalam talian (dan melalui telefon) yang berbual dengan gembira dan melakukan segalanya untuk kita? Atau lebih buruk lagi, tiba-tiba kita akan dikelilingi oleh AI pintar dengan pemikiran dan idea mereka sendiri yang mungkin atau tidak termasuk kita manusia?

Jawapannya adalah "tidak" yang pasti. Untuk memahami sebabnya, dapat melihat sekilas apa yang mendorong AI seperti ini.

Dupleks: bagaimana ia berfungsi

Inilah yang Sistem AI dupleks kelihatan seperti.

Suara masuk diproses melalui sistem ASR. Ini menghasilkan teks yang dianalisis dengan data konteks dan input lain untuk menghasilkan teks respons yang dibaca dengan kuat melalui sistem teks-ke-ucapan (TTS). Google

Sistem mengambil "input" (ditunjukkan di sebelah kiri) yang merupakan suara orang yang sedang bercakap dengannya di telefon. Suara melalui pengecaman pertuturan automatik (ASR) dan ditukar menjadi teks (perkataan bertulis). ASR itu sendiri adalah sistem AI canggih, tetapi jenis yang sudah biasa digunakan dalam pembantu suara yang ada.

Teks kemudian diimbas untuk menentukan jenis kalimatnya (seperti ucapan, pernyataan, soalan atau arahan) dan mengekstrak maklumat penting. Maklumat penting kemudian menjadi sebahagian daripada Konteks, yang merupakan input tambahan yang menjadikan sistem sentiasa terkini dengan apa yang telah diperkatakan selama ini dalam perbualan.

Teks dari ASR dan Konteks kemudian dikirim ke jantung Duplex, yang disebut Artificial Neural Network (ANN).

Dalam rajah di atas, ANN ditunjukkan oleh bulatan dan garis yang menghubungkannya. ANN secara longgar menjadi model otak kita, yang mempunyai berbilion neuron disambungkan bersama ke dalam rangkaian yang sangat besar.

Belum cukup otak

ANN jauh lebih mudah daripada otak kita. Satu-satunya perkara yang cuba dilakukan ini adalah memadankan kata-kata masukan dengan respons yang sesuai. ANN belajar dengan menunjukkan transkrip ribuan perbualan orang yang membuat tempahan untuk restoran.

Dengan contoh yang cukup, ia dapat mengetahui jenis ayat masukan yang diharapkan dari orang yang sedang berbicara dengannya, dan jenis tindak balas apa yang harus diberikan untuk setiap satu.

Tindak balas teks yang dihasilkan oleh ANN kemudiannya dihantar ke synthesizer teks-ke-ucapan (TTS), yang mengubahnya menjadi kata-kata lisan yang kemudian dimainkan kepada orang di telefon.

Sekali lagi, synthesizer TTS ini adalah AI yang canggih - dalam hal ini lebih maju daripada yang ada di telefon anda, kerana kedengarannya hampir tidak dapat dibezakan dengan suara biasa.

Itu sahaja yang ada. Walaupun canggih, inti sistem ini hanyalah proses pemadanan teks. Tetapi anda mungkin bertanya - jika begitu sederhana, mengapa kita tidak dapat melakukannya sebelumnya?

Respons yang dipelajari

Faktanya adalah bahawa bahasa manusia, dan kebanyakan perkara lain di dunia nyata, terlalu berubah-ubah dan tidak teratur untuk ditangani dengan baik oleh komputer biasa, tetapi masalah seperti ini sangat sesuai untuk AI.

Perhatikan bahawa output yang dihasilkan oleh AI bergantung sepenuhnya pada perbualan yang ditunjukkan semasa belajar.

Ini bermaksud bahawa AI yang berbeza perlu dilatih untuk membuat tempahan dari pelbagai jenis - jadi, sebagai contoh, satu AI boleh menempah restoran dan yang lain dapat membuat janji temu dengan rambut.

Ini perlu kerana jenis soalan dan respons boleh sangat berbeza untuk pelbagai jenis tempahan. Ini juga bagaimana Duplex dapat menjadi jauh lebih baik daripada pembantu suara umum, yang perlu menangani banyak jenis permintaan.

Jadi sekarang sudah jelas bahawa kita tidak akan melakukan perbualan santai dengan pembantu AI kita dalam masa terdekat. Sebenarnya, semua AI semasa kami sebenarnya tidak lebih daripada pemadan corak (dalam kes ini, corak teks yang sepadan). Mereka tidak memahami apa yang mereka dengar, atau apa yang mereka lihat, atau apa yang mereka katakan.

Pemadanan corak adalah satu perkara yang dilakukan oleh otak kita, tetapi mereka juga melakukan lebih banyak perkara. Kunci untuk mewujudkan AI yang lebih kuat mungkin adalah untuk membuka lebih banyak rahsia otak. Adakah kita mahu? Baiklah, itu soalan lain.Perbualan

Tentang Pengarang

Peter Stratton, Felo Penyelidik Pasca Doktoral, Universiti Queensland

Artikel ini diterbitkan semula daripada Perbualan di bawah lesen Creative Commons. Membaca artikel asal.