Satu Sebab Beberapa Kajian Saintifik Mungkin Salah

Terdapat krisis replikasi dalam sains - yang tidak dikenali "positif palsu" adalah merangkumi jurnal penyelidikan utama kami.

Positif palsu adalah tuntutan bahawa kesan wujud apabila sebenarnya tidak. Tidak ada yang tahu berapa bahagian kertas yang diterbitkan mengandungi hasil yang tidak betul atau terlalu banyak, tetapi ada menandakan bahawa perkadaran itu tidak kecil.

Ahli epidemiologi John Ioannidis memberikan penjelasan terbaik untuk fenomena ini dalam kertas terkenal di 2005, provokatif bertajuk "Kenapa keputusan penyelidikan yang paling diterbitkan adalah palsu". Salah satu sebab yang diberikan Ioannidis untuk banyak hasil palsu telah dipanggil "p penggodaman ", yang timbul dari tekanan para penyelidik merasakan untuk mencapai kepentingan statistik.

Apa gunanya statistik?

Untuk membuat kesimpulan dari data, penyelidik biasanya bergantung ujian penting. Secara ringkas, ini bermakna mengira "p nilai ", yang kebarangkalian keputusan seperti kita jika tidak benar-benar tiada kesan. Sekiranya p Nilai adalah cukup kecil, hasilnya diisytiharkan secara statistik secara signifikan.

Secara tradisinya, a p nilai kurang daripada .05 adalah kriteria untuk kepentingannya. Sekiranya anda melaporkan p<.05, pembaca mungkin percaya bahawa anda telah menemui kesan yang nyata. Mungkin, bagaimanapun, sebenarnya tidak ada kesan dan anda telah melaporkan positif palsu.


grafik langganan dalaman


Banyak jurnal hanya akan menerbitkan kajian yang boleh melaporkan satu atau lebih kesan signifikan secara statistik. Pelajar siswazah dengan cepat belajar bahawa mencapai mitos p

Tekanan ini untuk dicapai ppenggodaman.

Gegaran p hacking

Untuk menggambarkan p peretasan, ini adalah contoh hipotesis.

Bruce baru-baru ini telah menamatkan pengajian PhD dan telah menderma geran berprestij untuk menyertai salah satu pasukan penyelidikan teratas di bidangnya. Percubaan pertama beliau tidak berfungsi dengan baik, tetapi Bruce cepat menyempurnakan prosedur dan menjalankan kajian kedua. Ini kelihatan lebih menjanjikan, tetapi masih tidak memberi p nilai kurang daripada .05.

Yakin bahawa dia ada sesuatu, Bruce mengumpulkan lebih banyak data. Dia memutuskan untuk menggugurkan beberapa keputusan, yang kelihatan jelas.

Dia kemudian mendapati bahawa salah satu langkahnya memberikan gambaran yang lebih jelas, jadi dia memberi tumpuan kepada itu. Beberapa tweak dan Bruce akhirnya mengenal pasti kesan yang agak mengejutkan tetapi sangat menarik yang dicapai p

Bruce berusaha keras untuk mencari kesan bahawa dia tahu sedang mengintai di suatu tempat. Dia juga merasakan tekanan untuk melanda p

Terdapat hanya satu tangkapan: sebenarnya tiada kesan. Walaupun keputusan yang signifikan secara statistik, Bruce telah menerbitkan positif palsu.

Bruce merasakan dia menggunakan wawasan saintifiknya untuk mendedahkan kesan mengintai apabila dia mengambil pelbagai langkah selepas memulakan pengajiannya:

  • Beliau mengumpul data lanjut.
  • Dia menjatuhkan beberapa data yang kelihatan menyimpang.
  • Dia menurunkan beberapa langkahnya dan memberi tumpuan kepada yang paling menjanjikan.
  • Beliau menganalisis data sedikit berbeza dan membuat beberapa tweak lebih lanjut.

Masalahnya ialah semua pilihan ini dibuat selepas melihat data. Bruce boleh, secara tidak sedar, telah mencantikkan - memilih dan menaikkan taraf sehingga dia mendapat yang sukar difahami pp

Para ahli statistik mengatakan: jika anda menyeksa cukup data, mereka akan mengaku. Pilihan dan tweak yang dibuat selepas melihat data adalah amalan penyelidikan yang dipersoalkan. Menggunakan ini, sengaja atau tidak, untuk mencapai keputusan statistik yang betul adalah p hacking, yang merupakan salah satu sebab penting yang diterbitkan, keputusan yang signifikan secara statistik mungkin positif palsu.

Apakah ramalan keputusan yang diterbitkan yang salah?

Ini adalah soalan yang baik, dan yang rumit. Tiada siapa tahu jawapannya, yang mungkin berbeza dalam bidang penyelidikan yang berbeza.

Usaha besar dan mengagumkan untuk menjawab persoalan untuk psikologi sosial dan kognitif telah diterbitkan dalam 2015. Dipimpin oleh Brian Nosek dan rakan-rakannya di Pusat Sains Terbuka, the Projek Replicability: Psikologi (RP: P) mempunyai kumpulan penyelidikan 100 di seluruh dunia masing-masing menjalankan replikasi berhati-hati dari salah satu keputusan yang diterbitkan 100. Keseluruhannya, kira-kira 40 direplikasi dengan baik, sedangkan di sekitar 60 kes-kes kajian replikasi diperolehi kesan yang lebih kecil atau lebih kecil.

Kajian-kajian Replikasi 100 RP: P melaporkan kesan-kesan yang rata-rata hanya separuh saiz kesan yang dilaporkan oleh kajian semula. Replikasi yang dilakukan dengan teliti mungkin memberikan anggaran yang lebih tepat daripada mungkin p kajian asal yang telah diretas, jadi kita dapat membuat kesimpulan bahawa kajian-kajian asal meremehkan kesan sebenar oleh, secara purata, faktor dua. Itu membimbangkan!

Bagaimana untuk mengelakkan p hacking

Cara terbaik untuk dielakkan p penggodaman adalah untuk mengelakkan membuat sebarang pemilihan atau tweak selepas melihat data. Dengan kata lain, elakkan daripada mengamalkan amalan penyelidikan. Dalam kebanyakan kes, cara terbaik untuk melakukan ini adalah dengan menggunakannya pendaftaran semula.

Pendaftaran pendaftaran memerlukan anda menyediakan terlebih dahulu pelan penyelidikan terperinci, termasuk analisis statistik yang akan digunakan untuk data. Kemudian anda mendaftarkan semula pelan, dengan cap tarikh, di Rangka Kerja Sains Terbuka atau beberapa pendaftaran dalam talian lain.

Kemudian menjalankan kajian, menganalisis data mengikut pelan, dan melaporkan hasilnya, apa sahaja. Pembaca boleh menyemak pelan preregisterasi dan dengan itu yakin bahawa analisis telah ditentukan terlebih dahulu, dan tidak p digodam. Preregistration adalah idea baru yang mencabar untuk banyak penyelidik, tetapi mungkin menjadi jalan masa depan.

Anggaran bukan p nilai

Godaan untuk p hack adalah salah satu kelemahan besar bergantung p nilai-nilai. Satu lagi ialah bahawa pagak seperti mengatakan ada kesan atau tidak.

Tetapi dunia tidak hitam dan putih. Untuk mengenali pelbagai warna kelabu, lebih baik digunakan anggaran daripada p nilai-nilai. Tujuan dengan anggaran adalah untuk menganggarkan saiz kesan - yang mungkin kecil atau besar, sifar, atau bahkan negatif. Dari segi anggaran, hasil positif palsu adalah anggaran yang lebih besar atau lebih besar daripada nilai sebenar kesan.

Mari kita ambil kajian hypothetical mengenai kesan terapi. Kajian mungkin, sebagai contoh, menganggarkan bahawa terapi memberikan, secara purata, penurunan 7-point dalam kebimbangan. Katakan kita mengira dari data kita a selang keyakinan - pelbagai ketidakpastian sama ada sisi anggaran terbaik kami - [4, 10]. Ini memberitahu kita bahawa perkiraan 7 adalah, kemungkinan besar, dalam kira-kira kira-kira 3 pada skala kegelisahan kesan sebenar - jumlah purata sebenar faedah terapi.

Dengan kata lain, selang keyakinan menunjukkan betapa tepat anggaran kami. Mengetahui apa-apa anggaran dan selang keyakinannya jauh lebih bermaklumat daripada mana-mana p nilai.

Saya merujuk kepada anggaran sebagai salah satu daripada "statistik baru". Teknik itu sendiri bukanlah sesuatu yang baru, tetapi menggunakannya sebagai cara utama untuk membuat kesimpulan dari data akan banyak penyelidik yang baru, dan langkah besar ke depan. Ia juga akan membantu mengelakkan gangguan yang disebabkan oleh p penggodaman.

Tentang Pengarang

Geoff Cumming, Profesor Emeritus, La Trobe University

Artikel ini pada asalnya diterbitkan pada Perbualan. Membaca artikel asal.

Buku berkaitan:

at InnerSelf Market dan Amazon