Bagaimana Model Penargetan Facebook Cambridge Analytica Really WorkedBagaimana dengan tepat anda boleh diprofil dalam talian? Andrew Krasovitckii / Shutterstock.com

Penyelidik yang bekerja di pusat Analisis data Facebook-Cambridge Analytica dan gangguan pengiklanan politik telah mendedahkan bahawa kaedahnya bekerja seperti yang sama Netflix menggunakan untuk mencadangkan filem.

Dalam e-mel kepada saya, ulama dari Cambridge University, Aleksandr Kogan menjelaskan bagaimana model statistiknya memproses data Facebook untuk Cambridge Analytica. Ketepatan yang dia katakan mencadangkan ia berfungsi seperti juga kaedah penargetan pengundi yang ditubuhkan berdasarkan demografi seperti kaum, umur dan jantina.

Sekiranya disahkan, akaun Kogan bermaksud model pemodelan digital Cambridge Analytica yang digunakan tidak bola kristal maya beberapa telah mendakwa. Namun nombor Kogan menyediakan juga tunjukkan apa yang - dan tidak - sebenarnya mungkin by menggabungkan data peribadi dengan pembelajaran mesin untuk tujuan politik.

Berhubung satu kebimbangan awam, walaupun, nombor Kogan mencadangkan maklumat mengenai keperibadian pengguna atau "psikografi"Adalah sebahagian kecil daripada bagaimana model yang disasarkan rakyat. Ia bukanlah model keperibadian yang tegas, tetapi sebaliknya yang merembeskan demografi, pengaruh sosial, keperibadian dan segalanya ke dalam benjolan berkorelasi besar. Pendekatan keperibadian dan korelasi-dan-panggilan-keperibadian ini seolah-olah telah membuat alat promosi yang bernilai, walaupun produk yang dijual tidak begitu kerana ia dibilkan.


grafik langganan dalaman


Janji penyasaran personaliti

Berikutan dengan pendedahan bahawa konsultan kempen Trump Cambridge Analytica digunakan data dari 50 juta pengguna Facebook untuk menyasarkan pengiklanan politik digital semasa pemilihan presiden 2016 AS, Facebook telah hilang bilion dalam nilai pasaran saham, kerajaan pada kedua-dua belah Atlantik mempunyai membuka siasatan, dan yang baru muncul pergerakan sosial sedang memanggil pengguna #DeleteFacebook.

Tetapi soalan utama masih belum dijawab: Adakah Cambridge Analytica benar-benar dapat menyasarkan mesej kempen dengan berkesan kepada warganegara berdasarkan ciri personaliti mereka - atau bahkan "roh jahat, "Sebagai pemberi maklumat syarikat yang didakwa?

Sekiranya ada yang tahu apa yang dilakukan Cambridge Analytica dengan data Facebook yang besar, ia akan menjadi Aleksandr Kogan dan Joseph Chancellor. Ia adalah penyelidikan Global Global Research mereka yang mengumpul maklumat profil dari Pengguna Facebook 270,000 dan berpuluh-puluh juta kawan mereka menggunakan aplikasi uji keperibadian yang dipanggil "thisisyourdigitallife."

Sebahagian daripada penyelidikan saya sendiri memberi tumpuan kepada pemahaman pembelajaran mesin kaedah, dan buku yang akan datang membincangkan bagaimana firma digital menggunakan model cadangan untuk membina khalayak. Saya mempunyai firasat mengenai bagaimana model Kogan dan Canselor bekerja.

Jadi saya menghantar e-mel kepada Kogan untuk bertanya. Kogan masih a penyelidik di Universiti Cambridge; kolaboratorya Canselor kini berfungsi di Facebook. Dalam paparan kebaikan akademik yang luar biasa, Kogan menjawab.

Tanggapannya memerlukan beberapa membongkar, dan beberapa latar belakang.

Daripada Hadiah Netflix kepada "psikometrik"

Kembali ke 2006, ketika masih sebuah syarikat DVD-by-mail, Netflix menawarkan a ganjaran $ 1 juta kepada sesiapa sahaja yang mengembangkan cara yang lebih baik untuk membuat ramalan mengenai kedudukan filem pengguna daripada syarikat yang sudah ada. Peserta kejutan atas kejutan adalah pemaju perisian bebas menggunakan nama samaran Simon Funk, yang pendekatan asasnya akhirnya dimasukkan ke dalam semua penyertaan pasukan teratas. Funk menyesuaikan teknik yang dipanggil "penguraian nilai tunggal, "Mengadili penarafan filem pengguna ke dalam a siri faktor atau komponen - pada dasarnya satu set kategori yang disimpulkan, berdasarkan nilai. Sebagai Funk dijelaskan dalam catatan blog,

"Jadi, sebagai contoh, kategori mungkin mewakili filem tindakan, dengan filem dengan banyak tindakan di bahagian atas, dan filem perlahan di bahagian bawah, dan pengguna yang suka filem tindakan di bahagian atas, dan mereka yang suka filem perlahan di bawah."

Faktor adalah kategori buatan, yang tidak selalu seperti jenis kategori manusia akan tampil. The faktor terpenting dalam model Netflix awal Funk didefinisikan oleh pengguna yang suka filem seperti "Pearl Harbor" dan "Perancang Perkawinan" sambil membenci filem seperti "Lost in Translation" atau "Sunshine Eternal of the Mindless Spot". Modelnya menunjukkan bagaimana pembelajaran mesin dapat mencari korelasi di antara kumpulan orang, dan kumpulan filem, bahawa manusia sendiri tidak akan dapat melihatnya.

Pendekatan umum Funk menggunakan faktor 50 atau 100 yang paling penting bagi kedua-dua pengguna dan filem untuk meneka pendapat tentang bagaimana setiap pengguna akan menilai setiap filem. Kaedah ini, sering dipanggil pengurangan dimensi atau pemfaktoran matriks, bukan baru. Penyelidik sains politik telah menunjukkan bahawa teknik yang sama menggunakan data undi roll-call boleh meramalkan undi ahli Kongres dengan ketepatan peratus 90. Dalam psikologi, "Big Five"Model juga telah digunakan untuk meramalkan tingkah laku dengan mengumpulkan soalan personaliti peribadi yang cenderung dijawab dengan sama.

Namun, model Funk adalah kemajuan yang besar: Ia membenarkan teknik untuk bekerja dengan baik dengan set data yang besar, walaupun mereka yang mempunyai banyak data yang hilang - seperti kumpulan Netflix, di mana pengguna biasa hanya menilai beberapa filem sedozen daripada ribuan syarikat perpustakaan. Lebih daripada satu dekad selepas pertandingan Hadiah Netflix berakhir, Kaedah berasaskan SVD, Atau model berkaitan untuk data tersirat, masih merupakan alat pilihan untuk banyak laman web untuk meramalkan apa yang pengguna akan membaca, menonton, atau membeli.

Model-model ini boleh meramalkan perkara-perkara lain juga.

Facebook tahu jika anda seorang Republikan

Di 2013, penyelidik Universiti Cambridge Michal Kosinski, David Stillwell dan Thore Graepel menerbitkan artikel mengenai kuasa ramalan data Facebook, menggunakan maklumat yang dikumpul melalui ujian keperibadian dalam talian. Analisis awal mereka hampir sama dengan yang digunakan pada Hadiah Netflix, menggunakan SVD untuk mengkategorikan kedua-dua pengguna dan perkara-perkara yang mereka "suka" ke dalam faktor 100 teratas.

Kertas ini menunjukkan bahawa model faktor yang dibuat dengan Facebook pengguna "suka" sahaja Peratus 95 tepat pada membezakan antara responden hitam dan putih, peratus 93 tepat pada lelaki yang membezakan wanita, dan peratus 88 tepat pada perbezaan orang yang dikenal pasti sebagai lelaki gay dari lelaki yang dikenal pasti sebagai lurus. Ia juga boleh membezakan Republikan dari Parti Demokrat 85 dengan betul pada masa itu. Ia juga berguna, walaupun tidak tepat, untuk meramalkan skor pengguna pada ujian keperibadian "Big Five".

Terdapat bantahan awam sebagai tindak balas; dalam beberapa minggu Facebook telah menjadikan pengguna suka secara peribadi secara lalai.

Kogan dan Canselor, juga penyelidik Universiti Cambridge pada masa itu, mula menggunakan data Facebook untuk penargetan pilihan raya sebagai sebahagian daripada kerjasama dengan firma induk Cambridge Analytica SCL. Kogan menjemput Kosinski dan Stillwell untuk menyertai projeknya, tetapi ia tidak berjaya. Kosinski dilaporkan mengesyaki Kogan dan Canselor mungkin mempunyai terbalik-kejuruteraan model "suka" Facebook untuk Cambridge Analytica. Kogan menafikan ini, mengatakan projeknya "membina semua model kami menggunakan data kami sendiri, dikumpulkan menggunakan perisian kami sendiri. "

Apa sebenarnya yang dilakukan Kogan dan Canselor?

Semasa saya mengikuti perkembangan dalam cerita, ia menjadi jelas Kogan dan Canselor sememangnya telah mengumpulkan banyak data mereka sendiri melalui aplikasi thisisyourdigitallife ini. Mereka pasti dapat membina model SVD ramalan seperti yang dipaparkan dalam kajian Kosinski dan Stillwell yang diterbitkan.

Jadi saya menghantar emel kepada Kogan untuk bertanya sama ada itu yang dilakukannya. Sekurang-kurangnya saya terkejut, dia menulis semula.

"Kami tidak betul-betul menggunakan SVD," tulisnya sambil menceritakan bahawa SVD boleh berjuang apabila sesetengah pengguna mempunyai "lebih suka" daripada yang lain. Sebaliknya, Kogan menjelaskan, "Teknik itu adalah sesuatu yang sebenarnya kita bangunkan ... Ini bukan sesuatu yang ada dalam domain awam." Tanpa menerangkannya, Kogan menerangkan kaedah mereka sebagai "pelbagai langkah kejadian bersama pendekatan. "

Walau bagaimanapun, mesejnya terus mengesahkan bahawa pendekatannya sama seperti SVD atau kaedah penumpukan matriks lain, seperti dalam pertandingan Hadiah Netflix, dan model Facebook Kosinki-Stillwell-Graepel. Pengurangan dimensi data Facebook adalah teras modelnya.

Betapa tepatnya?

Kogan mencadangkan model tepat yang digunakan tidak penting, walaupun - apa yang penting adalah ketepatan ramalannya. Menurut Kogan, "korelasi antara skor yang diramalkan dan sebenar ... adalah sekitar [30 peratus] untuk semua dimensi keperibadian." Sebagai perbandingan, skor Big Five sebelum ini adalah kira-kira 70 ke 80 peratus tepat dalam meramalkan skor mereka apabila mereka mengambil semula ujian.

Tuntutan ketepatan Kogan tidak boleh disahkan secara bebas, tentu saja. Dan sesiapa di tengah-tengah skandal berprofil tinggi itu mungkin mempunyai insentif untuk mengecilkan sumbangannya. Dalam dia penampilan di CNN, Kogan menjelaskan kepada Cooper Anderson yang semakin teragak-agak, sebenarnya, model sebenarnya tidak berfungsi dengan baik.

{youtube}APqU_EJ5d3U{/youtube}

Aleksandr Kogan menjawab soalan mengenai CNN.

Sebenarnya, ketepatan ketepatan Kogan nampaknya agak rendah, tetapi masuk akal. Kosinski, Stillwell dan Graepel melaporkan hasil yang setanding atau sedikit lebih baik, seperti yang ada beberapa kajian akademik lain menggunakan jejak kaki digital untuk meramalkan keperibadian (walaupun beberapa kajian itu mempunyai lebih banyak data daripada sekadar Facebook "suka"). Adalah mengejutkan bahawa Kogan dan Canselor akan pergi ke masalah untuk mereka bentuk model proprietari mereka sendiri jika penyelesaian di luar jangkaan mungkin tepat.

Walau bagaimanapun, pentingnya ketepatan model mengenai skor personaliti membolehkan perbandingan hasil Kogan dengan penyelidikan lain. Model yang diterbitkan dengan ketepatan yang sama dalam memprediksi keperibadian adalah semua lebih tepat pada meneka demografi dan pembolehubah politik.

Sebagai contoh, model SVD Kosinski-Stillwell-Graepel yang serupa adalah peratus 85 yang tepat dalam meneka gabungan parti, walaupun tanpa menggunakan maklumat profil selain daripada suka. Model Kogan mempunyai ketepatan yang serupa atau lebih baik. Menambah walaupun sedikit maklumat tentang rakan-rakan atau demografi pengguna mungkin akan meningkatkan ketepatan ini di atas peratus 90. Tebak mengenai jantina, bangsa, orientasi seksual dan ciri-ciri lain mungkin lebih daripada 90 peratus juga tepat.

Secara kritikal, tekaan ini akan menjadi sangat baik untuk pengguna Facebook yang paling aktif - orang-orang model itu digunakan terutamanya untuk disasarkan. Pengguna yang kurang aktif untuk menganalisis mungkin tidak banyak di Facebook.

Apabila psikografi kebanyakannya demografi

Mengetahui bagaimana model yang dibina membantu menerangkan pernyataan yang jelas bercanggah di Cambridge Analytica peranan - atau kekurangannya - profil keperibadian dan psikografi yang dimainkan dalam pemodelannya. Mereka secara tekal konsisten dengan apa yang diterangkan oleh Kogan.

Model seperti Kogan akan memberi anggaran untuk setiap pembolehubah yang ada pada mana-mana kumpulan pengguna. Ini bermakna ia secara automatik Anggarkan skor personaliti Big Five untuk setiap pengundi. Tetapi skor keperibadian ini adalah output model, bukan input. Semua model tahu bahawa suka Facebook tertentu, dan pengguna tertentu, cenderung dikumpulkan bersama.

Dengan model ini, Cambridge Analytica boleh mengatakan bahawa ia mengenal pasti orang yang mempunyai keterbukaan rendah untuk mengalami dan neurotikisme yang tinggi. Tetapi model yang sama, dengan ramalan yang sama untuk setiap pengguna, hanya boleh mendakwa dengan tepat untuk mengenal pasti kurang ramai lelaki Republik yang berpendidikan.

Maklumat Kogan juga membantu menjelaskan kekeliruan mengenai sama ada Cambridge Analytica sebenarnya dipadamkannya data Facebook, apabila model dibina daripada data nampaknya masih beredar, Dan juga sedang dibangunkan lagi.

PerbualanSeluruh titik model pengurangan dimensi adalah secara matematik mewakili data dalam bentuk yang lebih mudah. Ia seolah-olah Cambridge Analytica mengambil gambar resolusi yang sangat tinggi, mengubah saiznya menjadi lebih kecil, dan kemudian memadam asalnya. Foto masih wujud - dan selagi model Cambridge Analytica wujud, data juga berkesan.

Tentang Pengarang

Matthew Hindman, Profesor Madya Media dan Hal Ehwal Awam, Universiti George Washington

Artikel ini pada asalnya diterbitkan pada Perbualan. Membaca artikel asal.

Buku-buku yang berkaitan

at InnerSelf Market dan Amazon