Bagaimana Rakan Anda Di Twitter Boleh Memberikan Anda Anonymity Anda

Semasa anda melayari internet, pengiklan dalam talian menjejaki hampir setiap tapak yang anda lawati, mengumpulkan maklumat mengenai kebiasaan dan keinginan anda. Apabila anda melawat laman berita, mereka mungkin melihat anda peminat bola keranjang, opera dan novel misteri, dan dengan itu pilih iklan yang disesuaikan dengan citarasa anda.

Pengiklan menggunakan maklumat ini untuk membuat pengalaman yang sangat peribadi, tetapi biasanya mereka tidak tahu dengan tepat siapa anda. Mereka hanya mengamati jejak digital anda, bukan identiti anda sendiri, dan oleh itu anda mungkin merasakan bahawa anda telah mengekalkan tahap tak mahu namanya disiarkan.

Tetapi, dalam satu kertas yang saya coauthored dengan Ansh Shukla, Sharad Goel dan Arvind Narayanan, kami menunjukkan bahawa rekod pelayaran web tanpa nama itu sebenarnya mungkin terikat kepada identiti dunia sebenar.

Untuk menguji pendekatan kami, kami membina laman web di mana orang boleh menderma sejarah pelayaran mereka untuk tujuan kajian ini. Kami kemudian cuba untuk melihat sama ada kami boleh menghubungkan sejarah mereka kembali ke profil Twitternya dengan hanya menggunakan data yang tersedia secara awam. Tujuh puluh dua peratus daripada orang yang kami cuba nyatakan tidak dapat dikenal pasti sebagai calon tertinggi dalam hasil carian, dan peratus 81 adalah antara calon 15 teratas.

privasi2 2 8Tangkapan skrin laman web deanonymization.

Inilah, pengetahuan kami, demonstrasi skala terbesar dari deanonymization hingga kini, kerana ia memilih pengguna yang benar dari ratusan juta pengguna Twitter yang mungkin. Di samping itu, kaedah kami hanya memerlukan seseorang mengklik pada pautan yang terdapat dalam suapan media sosial mereka, bukannya mereka menyiarkan apa-apa kandungan - jadi orang yang berhati-hati tentang apa yang mereka kongsi di internet masih terdedah kepada serangan ini.


grafik langganan dalaman


Bagaimana ia berfungsi

Pada tahap yang tinggi, pendekatan kami adalah berdasarkan pemerhatian yang mudah. Setiap orang mempunyai rangkaian sosial yang sangat tersendiri, terdiri daripada keluarga dan rakan dari sekolah, kerja dan pelbagai peringkat kehidupan mereka. Akibatnya, rangkaian pautan dalam suapan Facebook dan Twitter anda adalah sangat tersendiri. Mengklik pada pautan ini meninggalkan tanda ceritanya dalam sejarah penyemakan imbas anda.

Dengan melihat laman web individu yang telah dikunjungi, kami dapat memilih suapan media sosial yang serupa, menghasilkan senarai calon yang mungkin menjana sejarah pelayaran web. Dengan cara ini, kita boleh mengikat identiti dunia sebenar seseorang ke set hubungan yang hampir lengkap yang telah mereka lawati, termasuk pautan yang tidak pernah dipaparkan di mana-mana laman media sosial.

Menjalankan strategi ini melibatkan dua cabaran utama. Yang pertama adalah teori: Bagaimanakah anda mengira bagaimana sejenis suapan media sosial tertentu untuk sejarah pelayaran web yang diberikan? Satu cara yang mudah ialah mengukur pecahan pautan dalam sejarah penyemakan imbas yang turut muncul dalam suapan. Ini berfungsi dengan baik dalam amalan, tetapi ia melebih-lebihkan persamaan untuk suapan besar, kerana ia hanya mengandungi lebih banyak pautan. Sebaliknya kita mengambil pendekatan alternatif. Kami menyesuaikan model kebarangkalian model yang mudah digunakan, dan kemudian mengira kemungkinan pengguna dengan suapan media sosial yang menjana sejarah penyemakan imbas yang diperhatikan. Kemudian kami memilih suapan media sosial yang paling mungkin.

Cabaran kedua melibatkan mengenalpasti suapan paling banyak dalam masa nyata. Di sini kita berpaling ke Twitter, kerana suapan Twitter (berbeza dengan Facebook) sebahagian besarnya awam. Walau bagaimanapun, walaupun suapan adalah umum, kita tidak boleh membuat salinan Twitter tempatan yang mana kita dapat menjalankan pertanyaan kami. Sebaliknya kami menggunakan beberapa teknik untuk mengurangkan ruang carian secara mendadak. Kami kemudian menggabungkan teknik caching dengan merangkak rangkaian atas permintaan untuk membina suapan calon yang paling menjanjikan. Mengenai set calon yang dikurangkan, kami menggunakan ukuran kesamaan kami untuk menghasilkan keputusan akhir. Memandangkan sejarah penyemakan imbas, kami biasanya boleh menjalankan proses keseluruhan ini di bawah 60 saat.

Kaedah kami lebih tepat untuk orang yang menjelajah Twitter lebih aktif. Sembilan puluh peratus peserta yang telah mengklik 100 atau lebih banyak pautan di Twitter dapat dipadankan dengan identitas mereka.

Banyak syarikat mempunyai sumber pengesanan untuk melakukan serangan seperti ini, walaupun tanpa persetujuan peserta. Kami cuba untuk menamakan setiap peserta percubaan kami hanya menggunakan bahagian sejarah pelayaran mereka yang dapat dilihat oleh syarikat penjejakan tertentu (kerana syarikat mempunyai pelacak di halaman tersebut). Kami mendapati bahawa beberapa syarikat mempunyai sumber untuk mengenal pasti peserta dengan tepat.

privasi 2 8Kajian deanonymization lain

Beberapa kajian lain telah menggunakan jejak kaki umum untuk menodalkan data sensitif.

Mungkin kajian yang paling terkenal di sepanjang garis ini telah dilakukan oleh Latanya Sweeney di Harvard University di 2002. Dia mendapati itu Persentase 87 Amerika adalah unik berdasarkan gabungan kod ZIP, jantina dan tarikh lahir. Ketiga sifat tersebut terdapat dalam data pendaftaran pemilih awam (yang dia beli untuk US $ 20) dan data perubatan tanpa nama (yang diedarkan secara meluas, kerana orang menganggap data itu tidak dikenali). Dengan menyambungkan sumber data ini, dia mendapati rekod perubatan gubernur Massachusetts.

Dalam 2006, Netflix bertanding untuk meningkatkan kualiti cadangan filemnya. Mereka mengeluarkan dataset tanpa nama dari rating filem orang, dan menawarkan $ 1 juta kepada pasukan yang dapat meningkatkan algoritma cadangan mereka oleh 10 peratus. Saintis komputer Arvind Narayanan and Vitaly Shmatikov menyedari bahawa filem yang dilihat oleh orang ramai sangat tersendiri, dan kebanyakan orang dalam kumpulan data itu unik sekali dikenali berdasarkan subset kecil filem mereka. Dengan kata lain, berdasarkan pilihan filem Netflix dan ulasan IMDB, penyelidik dapat menentukan siapa pengguna Netflix sebenarnya.

Dengan kebangkitan media sosial, semakin ramai orang berkongsi maklumat yang kelihatan tidak berbahaya, tetapi sebenarnya mendedahkan banyak maklumat peribadi. Satu kajian yang diketuai oleh Michal Kosinski di Universiti Cambridge menggunakan Facebook suka meramal orang orientasi seksual, pandangan politik dan sifat keperibadian.

Satu lagi pasukan yang dipimpin oleh Gilbert Wondracek di Vienna University of Technology, membina "mesin deanonymization" yang menggambarkan kumpulan mana yang menjadi sebahagian daripada rangkaian sosial Xing, dan menggunakannya untuk mengetahui siapa mereka - kerana kumpulan yang anda adalah sebahagian sering cukup untuk mengenal pasti secara unik anda.

Apa yang boleh anda lakukan

Kebanyakan serangan ini adalah sukar untuk mempertahankan diri melainkan jika anda berhenti menggunakan internet atau mengambil bahagian dalam kehidupan awam.

Walaupun anda berhenti menggunakan internet, syarikat masih boleh mengumpul data mengenai anda. Jika beberapa rakan anda memuat naik kenalan telefon mereka ke Facebook, dan nombor anda berada dalam semua senarai kenalan mereka, maka Facebook boleh membuat ramalan tentang anda, walaupun anda tidak menggunakan perkhidmatan mereka.

Cara terbaik untuk mempertahankan terhadap algoritma deanonymizing seperti kami adalah untuk menghadkan set orang yang mempunyai akses kepada data penyemakan tanpa nama anda. Pelanjutan penyemak imbas seperti Ghostery blok pelacak pihak ketiga. Ini bermakna, walaupun syarikat yang laman web yang anda lawati akan mengetahui bahawa anda melawat mereka, syarikat pengiklanan yang memaparkan iklan pada halaman mereka tidak akan dapat mengumpulkan data penyemakan imbas anda dan mengagregasikannya di beberapa tapak.

Jika anda seorang juruweb, anda boleh membantu melindungi pengguna anda dengan membiarkan mereka melayari laman web anda menggunakan HTTPS. Pelayaran menggunakan HTTP membolehkan penyerang untuk mendapatkan sejarah penyemakan imbas anda dengan menghidupkan lalu lintas rangkaian, yang membolehkan mereka melakukan serangan ini. Banyak laman web telah bertukar kepada HTTPS; apabila kita mengulangi eksperimen deanonymization kami dari perspektif sniffer trafik rangkaian, hanya 31 peratus peserta boleh dinononi.

Walau bagaimanapun, terdapat sedikit yang anda boleh lakukan untuk melindungi diri anda daripada serangan deanonymization secara umum, dan mungkin tindakan terbaik adalah menyesuaikan harapan seseorang. Tidak ada yang peribadi dalam era digital ini.

Tentang Pengarang

Jessica Su, Ph.D. Pelajar di Stanford, Universiti Stanford

Artikel ini pada asalnya diterbitkan pada Perbualan. Membaca artikel asal.

Buku-buku yang berkaitan

at InnerSelf Market dan Amazon