Bagaimana Twitter Memberi Para saintis Tetingkap Ke Bahagia Dan Kesihatan Manusia

Sejak pelancarannya pada 10 tahun lalu, Twitter telah digunakan sebagai platform rangkaian sosial di kalangan rakan-rakan, perkhidmatan pesanan ringkas untuk pengguna telefon pintar dan alat promosi untuk syarikat dan ahli politik.

Tetapi ia juga merupakan sumber data yang tidak ternilai bagi penyelidik dan saintis - seperti saya sendiri - yang ingin mengkaji bagaimana manusia merasa dan berfungsi dalam sistem sosial yang rumit.

Dengan menganalisis tweet, kami dapat melihat dan mengumpul data mengenai interaksi sosial berjuta-juta orang "di alam liar," di luar eksperimen makmal terkawal.

Ia membolehkan kami untuk membangunkan alat untuk memantau emosi kolektif populasi besar, Cari tempat paling bahagia di Amerika Syarikat dan banyak lagi.

Jadi, bagaimanakah Twitter menjadi sumber yang unik untuk saintis sosial pengkomputeran? Dan apa yang telah membolehkan kami menemui?


grafik langganan dalaman


Hadiah terbesar Twitter kepada penyelidik

Pada Julai 15, 2006, Twittr (seperti yang diketahui kemudian) secara terbuka dilancarkan sebagai "perkhidmatan mudah alih yang membantu kumpulan kawan melantun pemikiran secara rawak dengan SMS." Keupayaan untuk menghantar teks kumpulan 140-aksara percuma mendorong banyak pengguna awal (termasuk saya sendiri) untuk menggunakan platform.

Dengan masa, bilangan pengguna meletup: daripada 20 juta dalam 2009 hingga 200 juta dalam 2012 dan 310 juta hari ini. Daripada berkomunikasi secara langsung dengan rakan-rakan, pengguna hanya akan memberitahu pengikutnya bagaimana perasaan mereka, bertindak balas terhadap berita secara positif atau negatif, atau jenaka retak.

Bagi para penyelidik, hadiah terbesar Twitter adalah penyediaan data terbuka yang besar. Twitter adalah salah satu daripada rangkaian sosial utama pertama yang menyediakan sampel data melalui sesuatu yang disebut Interface Programming Application (API), yang membolehkan para penyelidik menanyakan Twitter untuk jenis tweet tertentu (mis., Tweet yang mengandungi kata-kata tertentu), serta maklumat pengguna .

Ini membawa kepada letupan projek penyelidikan yang mengeksploitasi data ini. Hari ini, pencarian Google Scholar untuk "Twitter" menghasilkan enam juta hits, berbanding dengan lima juta untuk "Facebook." Perbezaannya sangat menarik memandangkan Facebook mempunyai kira-kira lima kali lebih banyak pengguna sebagai Twitter (dan dua tahun lebih tua).

Dasar data Twitter yang baik sekali lagi membawa kepada beberapa publisiti percuma yang sangat baik untuk syarikat itu, kerana kajian saintifik menarik diperoleh oleh media arus perdana.

Mempelajari kebahagiaan dan kesihatan

Dengan data banci tradisional yang lambat dan mahal untuk dikumpulkan, suapan data terbuka seperti Twitter berpotensi untuk menyediakan tetingkap masa nyata untuk melihat perubahan dalam populasi yang besar.

Universiti Vermont Makmal Cerita Komputasi telah diasaskan dalam 2006 dan kajian masalah di seluruh matematik, sosiologi dan fizik yang digunakan. Sejak 2008, Makmal Story telah mengumpul berbilion tweet menerusi suapan "Gardenhose" Twitter, sebuah API yang menyalurkan sampel rawak 10 peratus daripada semua tweet awam secara real time.

Saya menghabiskan masa tiga tahun di Lab Computational Story dan bernasib baik untuk menjadi sebahagian daripada banyak kajian menarik menggunakan data ini. Sebagai contoh, kami membangunkan a hedonometer yang mengukur kebahagiaan Twittersphere dalam masa nyata. Dengan memberi tumpuan kepada tweets geolocated yang dihantar dari telefon pintar, kami dapat peta tempat paling bahagia di Amerika Syarikat. Mungkin tidak mengejutkan, kami dapati Hawaii menjadi negeri paling bahagia dan berkembang wain Napa bandar paling bahagia untuk 2013. 

Satu peta 13 juta tweet AS geolocated dari 2013, berwarna dengan kebahagiaan, dengan kebahagiaan merah menunjukkan dan kesedihan biru menunjukkan. PLOS ONE, Pengarang disediakanSatu peta 13 juta tweet AS geolocated dari 2013, berwarna dengan kebahagiaan, dengan kebahagiaan merah menunjukkan dan kesedihan biru menunjukkan. PLoS ONE, Pengarang disediakan.Kajian-kajian ini mempunyai aplikasi yang lebih mendalam: Korelasi penggunaan perkataan Twitter dengan demografi membantu kami memahami corak sosioekonomi yang mendasari di bandar-bandar. Sebagai contoh, kita boleh menghubungkan penggunaan kata dengan faktor kesihatan seperti obesiti, jadi kami membina sebuah lexicocalorimeter untuk mengukur "kandungan kalori" jawatan media sosial. Tweets dari rantau tertentu yang menyebutkan makanan berkalori tinggi meningkatkan "kandungan kalori" rantau itu, sementara tweet yang menyebutkan aktiviti senaman menurunkan metrik kami. Kami mendapati bahawa langkah mudah ini berkorelasi dengan metrik kesihatan dan kesejahteraan yang lain. Dalam erti kata lain, tweet dapat memberi kita gambaran, pada masa tertentu dalam masa, kesihatan keseluruhan bandar atau rantau.

Menggunakan kekayaan data Twitter, kami juga mampu lihat corak pergerakan harian manusia dalam terperinci yang belum pernah terjadi sebelumnya. Memahami corak mobiliti manusia, pada gilirannya, mempunyai kapasiti untuk mengubah pemodelan penyakit, membuka bidang baru epidemiologi digital.

Untuk kajian lain, kami melihat sama ada pelancong menampakkan kebahagiaan yang lebih besar di Twitter daripada mereka yang tinggal di rumah (jawapan: mereka lakukan) dan jika individu bahagia cenderung untuk bersatu dalam rangkaian sosial (sekali lagi, mereka lakukan). Malah, Positif kelihatan dipanggang ke dalam bahasa itu sendiri, dalam erti kata bahawa kita mempunyai lebih banyak kata positif daripada kata-kata negatif. Ini bukan hanya di Twitter tetapi di dalam pelbagai media (contohnya, buku, filem dan surat khabar) dan bahasa.

Kajian-kajian ini - dan beribu-ribu orang lain seperti mereka dari seluruh dunia - hanya mungkin terima kasih kepada Twitter.

Tahun 10 akan datang

Jadi apa yang boleh kita harapkan untuk belajar dari Twitter sepanjang tahun 10 seterusnya?

Beberapa kerja yang paling menarik kini melibatkan penyambungan data media sosial dengan model matematik untuk meramalkan fenomena tahap penduduk seperti wabak penyakit. Penyelidik telah mempunyai beberapa kejayaan dalam menambah model penyakit dengan data Twitter untuk meramalkan influenza, terutamanya FluOutlook platform yang dibangunkan oleh Northeastern University dan Institut Pertukaran Saintifik.

Masih terdapat banyak cabaran. Data media sosial menderita "nisbah isyarat-ke-bunyi" yang sangat rendah. Dalam erti kata lain, tweet yang berkaitan dengan kajian tertentu sering ditenggelamkan oleh "bising" yang tidak relevan.

Oleh itu, kita mesti terus menyedari apa yang telah digelar "hubris data besar"Apabila membangunkan kaedah baru dan tidak terlalu yakin terhadap keputusan kami. Berhubung dengan ini harus menjadi matlamat untuk menghasilkan ramalan "kotak kaca" yang ditafsirkan dari data ini (yang bertentangan dengan ramalan "hitam kotak", di mana algoritma tersembunyi atau tidak jelas).

Data media sosial sering (agak) dikritik kerana menjadi kecil, sampel tidak mewakili daripada penduduk yang lebih luas. Salah satu cabaran utama bagi para penyelidik adalah mencari tahu cara menyumbang data miring seperti dalam model statistik. Sementara itu lebih banyak orang menggunakan media sosial setiap tahun, kita mesti terus cuba memahami pemikiran dalam data ini. Sebagai contoh, data masih cenderung terlalu menggambarkan individu yang lebih muda dengan mengorbankan populasi yang lebih tua.

Hanya selepas membangunkan kaedah pembetulan bias yang lebih baik, penyelidik dapat membuat ramalan yakin sepenuhnya daripada tweet.

Tentang Pengarang

Lewis Mitchell, Pensyarah dalam Matematik Gunaan, University of Adelaide

Artikel ini pada asalnya diterbitkan pada Perbualan. Membaca artikel asal.

Buku-buku yang berkaitan

at InnerSelf Market dan Amazon