Membongkar Kekeliruan Antara Korelasi Dan Penyebab 

Berikut adalah berita sejarah yang mungkin tidak anda ketahui. Antara tahun-tahun 1860 dan 1940, kerana jumlah menteri Methodist yang tinggal di New England meningkat, begitu juga jumlah rum Cuba diimport ke Boston - dan kedua-duanya meningkat dengan cara yang sangat serupa. Oleh itu, menteri Methodist pasti telah membeli banyak rum dalam tempoh masa itu!

Sebenarnya tidak, itulah kesimpulan bodoh untuk menarik. Apa yang sebenarnya berlaku ialah kedua-dua kuantiti - menteri Methodist dan rum Cuba - didorong oleh faktor-faktor lain, seperti pertumbuhan penduduk.

Untuk mencapai kesimpulan yang tidak tepat, kami telah membuat kesilapan yang terlalu umum mengelirukan korelasi dengan sebab.

Apa perbezaannya?

Dua kuantiti dikatakan korelasi  jika kedua-dua kenaikan dan berkurang bersama ("berkorelasi positif"), atau jika seseorang bertambah apabila yang lain berkurangan dan sebaliknya ("berkorelasi negatif").

Korelasi mudah dikesan melalui pengukuran statistik Pekali korelasi Pearson, yang menunjukkan bagaimana mengikat kedua-dua kuantitinya secara ketat adalah, dari -1 (berkorelasi dengan sempurna secara negatif) melalui 0 (tidak semua berkorelasi) dan sehingga 1 (berkorelasi secara sempurna).


grafik langganan dalaman


 penyebab1tylervigen.com

Tetapi hanya kerana dua kuantitinya berkorelasi tidak semestinya bermakna bahawa seseorang itu secara langsung menyebabkannya yang lain berubah. Korelasi tidak bermaksud penyebab, sama seperti cuaca mendung tidak menunjukkan hujan, walaupun sebaliknya adalah benar.

Sekiranya dua kuantitinya berkorelasi maka mungkin terdapat hubungan sebab dan akibat yang tulen (seperti paras hujan dan jualan payung), tetapi mungkin pemboleh ubah lain memandu kedua-duanya (seperti nombor lanun dan pemanasan global), atau mungkin ia hanya kebetulan (seperti Penggunaan keju Amerika Syarikat dan lembaran penyejukan).

Walaupun penyebabnya ada, kita mesti berhati-hati untuk tidak mencampurkan sebab itu dengan kesannya, atau kita mungkin menyimpulkan, sebagai contoh, penggunaan pemanas yang lebih tinggi menyebabkan cuaca yang lebih sejuk.

Untuk menimbulkan sebab-dan-akibat, kita perlu melampaui statistik dan mencari bukti yang berasingan (bersifat saintifik atau bersejarah) dan penalaran logik. Korelasi boleh mendorong kita untuk mencari bukti sedemikian di tempat pertama, tetapi tidak semestinya bukti dalam haknya sendiri.

Isu-isu halus

Walaupun contoh-contoh di atas jelas-jelas bodoh, korelasi sangat sering disalah anggap sebagai penyebab dalam cara yang tidak begitu nyata di dunia nyata. Apabila membaca dan menafsirkan statistik, seseorang mesti mengambil berat untuk memahami dengan tepat apa data dan perangkaannya menyiratkan - dan yang lebih penting, apa yang mereka tidak menyiratkan.

 penyebab2

Satu contoh baru-baru ini tentang keperluan untuk berhati-hati dalam mentafsir data adalah kegembiraan awal tahun ini sekitar ketaksempurnaan jelas pengesanan gelombang graviti - pengumuman yang nampak telah dibuat awal, sebelum semua pemboleh ubah yang mempengaruhi data diambilkira.

Malangnya, menganalisis statistik, kebarangkalian dan risiko bukan satu set kemahiran yang disambungkan kepada kami intuisi manusia, dan begitu juga terlalu mudah disesatkan. Keseluruhan buku telah ditulis mengenai cara-cara halus di mana statistik boleh disalahtafsirkan (atau digunakan untuk mengelirukan). Untuk membantu menjaga pengawal anda, berikut adalah beberapa masalah statistika yang licik yang perlu anda ketahui:

1) Kesan Pekerja yang Sihat, di mana kadangkala dua kumpulan tidak dapat dibandingkan secara langsung pada medan bermain tahap.

Pertimbangkan kajian hipotetikal yang membandingkan kesihatan sekumpulan pekerja pejabat dengan kesihatan sekumpulan angkasawan. Sekiranya kajian ini tidak menunjukkan perbezaan yang signifikan antara kedua - tiada kaitan antara kesihatan dan persekitaran kerja - adakah kita menyimpulkan bahawa hidup dan bekerja di angkasa tidak membawa risiko kesihatan jangka panjang untuk angkasawan?

Tidak! Kumpulan tidak berada di pijakan yang sama: pemohon skrin korps angkasawan untuk mencari calon yang sihat, yang kemudian mengekalkan rejim kecergasan komprehensif untuk secara proaktif memerangi kesan hidup dalam "mikrograviti".

Oleh itu, kami menjangkakan mereka menjadi lebih sihat daripada pekerja pejabat, secara purata, dan harus berhati-hati jika tidak.

2) Pengkategorian dan Kesan Migrasi Peringkat - orang yang mengosongkan antara kumpulan boleh mempunyai kesan dramatik terhadap hasil statistik.

Ini juga dikenali sebagai Will Rogers kesan, selepas pelawak AS yang dilaporkan berkata:

Apabila Okies meninggalkan Oklahoma dan berpindah ke California, mereka menaikkan tahap kecerdasan purata di kedua-dua negeri.

Untuk menggambarkan, bayangkan membahagikan kumpulan kawan-kawan yang besar ke dalam kumpulan "pendek" dan kumpulan "tinggi" (mungkin untuk mengaturnya untuk foto). Setelah melakukannya, sangat mudah untuk meningkatkan ketinggian purata kedua-dua kumpulan sekaligus.

Cuma tanya orang yang paling pendek dalam kumpulan "tinggi" untuk beralih kepada kumpulan "pendek". Kumpulan "tinggi" kehilangan anggota terkecil mereka, sehingga menaikkan ketinggian purata mereka - tetapi kumpulan "pendek" mendapat ahli tertinggi mereka, dan dengan demikian juga mendapat ketinggian rata-rata.

Ini mempunyai implikasi besar dalam kajian perubatan, di mana pesakit sering disusun ke dalam kumpulan "sihat" atau "tidak sihat" semasa menguji rawatan baru. Jika kaedah diagnostik bertambah baik, sesetengah pesakit yang sangat tidak sihat dapat dikelaskan semula - yang membawa kepada hasil kesihatan kedua-dua kumpulan bertambah baik, tidak kira bagaimana berkesan (atau tidak) rawatan.

 penyebab3Memilih dan memilih antara data boleh membawa kepada kesimpulan yang salah. Para skeptis melihat tempoh penyejukan (biru) apabila data benar-benar menunjukkan pemanasan jangka panjang (hijau). skepticalscience.com 

3) Perlombongan data - apabila terdapat banyak data yang ada, potongan dan potongan boleh dijadikan ceri untuk menyokong kesimpulan yang diinginkan.

Ini adalah amalan statistik yang buruk, tetapi jika dilakukan secara sengaja boleh menjadi sukar untuk ditemui tanpa pengetahuan tentang set data asal yang lengkap.

Pertimbangkan graf di atas yang menunjukkan dua tafsiran data pemanasan global, contohnya. Atau fluorida - dalam jumlah yang kecil ia adalah salah satu ubat pencegahan yang paling berkesan dalam sejarah, tetapi kesan positif hilang sepenuhnya jika seseorang hanya menganggap jumlah toksik fluorida.

Atas sebab yang sama, adalah penting bahawa prosedur untuk eksperimen statistik diberikan tetap di tempat sebelum eksperimen dimulai dan kemudian tetap tidak berubah sampai eksperimen berakhir.

4) Clustering - yang dijangkakan walaupun dalam data rawak sepenuhnya.

Pertimbangkan satu kajian perubatan yang meneliti bagaimana penyakit tertentu, seperti kanser atau Sklerosis Pelbagai diedarkan secara geografi. Sekiranya penyakit itu menyerang secara rambang (dan alam sekitar tidak mempunyai kesan) kita akan menjangkakan untuk melihat banyak kelompok pesakit sebagai perkara yang sudah tentu. Jika pesakit tersebar dengan sempurna, pengedaran akan menjadi paling tidak rawak!

Oleh itu kehadiran satu kelompok, atau beberapa kelompok kecil kes, adalah sama sekali normal. Kaedah statistik yang canggih diperlukan untuk menentukan berapa banyak clustering diperlukan untuk menyimpulkan bahawa sesuatu di kawasan itu mungkin menyebabkan penyakit.

Malangnya, mana-mana kelompok sama sekali - bahkan yang tidak penting - membuat tajuk berita mudah (dan pada pandangan pertama, menarik).

 penyebab4

Analisis statistik, seperti alat berkuasa lain, harus digunakan dengan sangat hati-hati - dan khususnya, harus selalu berhati-hati ketika membuat kesimpulan berdasarkan fakta bahwa dua kuantitas berkorelasi.

Sebaliknya, kita mesti sentiasa menegaskan bukti berasingan untuk membantah sebab-dan-akibat - dan bukti itu tidak akan datang dalam bentuk nombor statistik tunggal.

Nampaknya korelasi yang menarik, katakan antara gen yang diberikan dan skizofrenia atau antara a diet tinggi lemak dan penyakit jantung, boleh berubah berdasarkan metodologi yang sangat meragukan.

Kita mungkin sebagai spesies yang tidak disengajakan secara kognitif untuk menangani isu-isu ini. Sebagai pendidik Kanada Kieran Egan letakkan dalam bukunya Mendapatkannya Salah dari Permulaan:

Berita buruk ialah evolusi kami menyediakan kita untuk hidup dalam masyarakat kecil, stabil, pemburu-pengumpul. Kami adalah orang Pleistocene, tetapi otak kita telah mencipta masyarakat besar, pelbagai budaya, teknologi yang canggih dan cepat berubah untuk kita hidup.

Sebagai akibatnya, kita mesti sentiasa menentang godaan untuk melihat makna secara kebetulan dan mengelirukan hubungan dan penyebab.Perbualan

Artikel ini pada asalnya diterbitkan pada Perbualan
Baca artikel asal.


Mengenai Pengarang

borwein jonathanJonathan Borwein (Jon) adalah Profesor Matematik Laureate di University of Newcastle. Beliau adalah Profesor Matematik Laureate di University of Newcastle dan Pengarah Pusat Matematik Penyelidikan Bantuan Komputer dan Aplikasi (CARMA). Beliau telah bekerja di Carnegie-Melon, Dalhousie, Simon Fraser, dan Waterloo Universities dan telah mengadakan dua Kerusi Penyelidikan Kanada dalam pengkomputeran.

naik michaelMichael Rose adalah Calon PhD, Sekolah Matematik dan Sains Fiz di Universiti Newcastle. Pelajar PhD matematik di bawah pengawasan Prof Laureate Jon Borwein di Universiti Newcastle, Australia. Kini sedang membantu dengan penyelidikan memohon matematik fraktal untuk memodelkan pengedaran sinaps otak.

Kenyataan Pendedahan: Penulis tidak bekerja untuk, berunding, memiliki saham atau menerima dana dari mana-mana syarikat atau organisasi yang akan mendapat manfaat dari artikel ini. Mereka juga tidak mempunyai gabungan yang berkaitan.


Tempah disyorkan:

Wang, Seks, Perang, Karma: Nota untuk Revolusi Buddha
oleh David R. Loy.

Wang, Seks, Perang, Karma: Nota untuk Revolusi Buddha oleh David R. Loy.David Loy telah menjadi salah satu penganjur yang paling kuat dalam pandangan Buddha, menjelaskan seperti tidak ada orang lain yang mampu mengubah landskap sosiopolitik dunia moden. In Wang, Seks, Perang, Karma, dia menawarkan persembahan yang tajam dan bahkan jelas yang jelas tentang staples Buddha yang salah - salah faham - kerja karma, sifat diri, penyebab masalah pada tahap individu dan masyarakat - dan alasan sebenar di sebalik rasa kolektif kita "tidak pernah cukup , "sama ada waktunya, wang, jantina, keselamatan ... bahkan peperangan. "Revolusi Buddha" David adalah tidak kurang daripada perubahan radikal dalam cara kita dapat mendekati kehidupan kita, planet kita, khayalan kolektif yang merangkumi bahasa, budaya kita, dan juga kerohanian kita.

Klik di sini untuk maklumat lanjut dan / atau untuk memerintahkan buku ini di Amazon.