Data Massa Dalam Sampah Daripada Adakah Nemesis Daripada Data Besar

Data besar ialah berita besar hari ini. Tetapi kebanyakan organisasi hanya menimbun seram data yang luas, meninggalkannya dengan repositori besar yang tidak berstruktur - atau "gelap" - data yang kurang digunakan untuk sesiapa sahaja.

Memandangkan potensi potensi data besar, penting bagi kita untuk mencari cara yang lebih baik untuk mengumpulkan, menyimpan dan menganalisis data agar dapat memanfaatkannya.

Cerita daripada kejayaan data besar telah mencetuskan pelaburan penting dalam inisiatif data besar. Ini telah mendorong banyak organisasi untuk mengumpul jumlah data luaran dan dalaman yang signifikan ke dalam apa yang dipanggil "tasik data". Ini adalah repositori yang mengandungi data dalam sebarang format, sama ada berstruktur, seperti pangkalan data, atau tidak berstruktur, seperti e-mel atau audio dan video.

Akibatnya, pertumbuhan jumlah data yang dihasilkan, dikumpulkan dan disimpan terus pada kadar eksponen.

Tetapi menurut yang baru-baru ini Kajian IBM, lebih daripada 80% daripada semua data tidak aktif, tidak diurus, sering tidak tersusun, kurang metadata bermakna, dan bahkan tidak diketahui oleh organisasi. Perkadaran data gelap ini dijangka mencapai 93% oleh 2020.

Sebagai contoh, data yang dijana daripada peranti dalam kenderaan boleh dijangka mencapai data 350MB setiap saat. Di mana semua data ini pergi dan siapa yang menggunakannya?

Organisasi juga boleh menjana data dalaman yang penting. Sebagai contoh, a kajian baru-baru mendapati bahawa syarikat dengan pekerja 1,500 mempunyai sekitar 2.5 juta spreadsheet, setiap satunya hanya digunakan oleh orang 12 secara purata.

Terlebih lagi, terdapat bukti pelbagai data tidak terstruktur seperti versi dokumen, nota projek dan e-mel yang ditinggalkan dari proses organisasi dan kemudiannya berada di pelayan data yang tidak aktif.

Gunakannya atau hilangkannya

Pelajaran yang diperoleh dari tahun penyelidikan dalam penggunaan sistem maklumat telah menunjukkan bahawa andaian bahawa "lebih baik" apabila ia datang kepada data tidak berasas.

Walaupun dalam projek IT tradisional yang mengikuti analisis dan kitaran hayat reka bentuk yang dibuat dengan teliti, kesilapan antara nilai yang dilihat dan sebenar telah menjadi masalah yang sangat sukar, yang sering menyebabkan pulangan yang lemah dalam pelaburan.

Dalam projek data besar, data sering boleh diperolehi secara luaran dengan sedikit atau tiada pengetahuan mengenai skema, kualiti atau utiliti yang diharapkan. Oleh itu, risiko membuat pelaburan yang tidak dapat disampaikan sangat meningkat.

Pepatah lama "menggunakan atau kehilangannya" tidak semestinya usang, dan membawa perhatian kembali kepada tujuan bagaimana kita menggunakan data besar. Organisasi boleh menyimpan data untuk berbagai sebab, termasuk peraturan pengekalan data, tetapi nilai masa depan yang dilihat biasanya merupakan sebab utama.

Walaupun penyimpanan agak murah, memandangkan jumlah data yang diasimilasi, penyelenggaraan dan penggunaan tenaga pusat data tidak begitu penting. Selain itu, terdapat kos dan risiko yang berkaitan dengan keselamatan data yang tidak dikendalikan itu.

Oleh itu, mendefinisikan tujuan adalah penting untuk memastikan bahawa pelaburan data besar disasarkan ke arah masalah yang bermakna, dan pengumpulan dan penyimpanan data adalah wajar.

Pendekatan seperti pemikiran seni reka, yang mendorong orang menggunakan pemikiran yang berfokuskan penyelesaian kreatif, terbukti sangat berjaya dalam rumusan masalah tulen untuk data besar.

Apakah Perancangan Reka Bentuk?

Apabila diterapkan dengan sewajarnya, pemikiran reka bentuk boleh melengkapkan saintis data untuk menyatukan keinginan (keperluan pelanggan) dan daya maju (nilai perniagaan) dengan kemungkinan teknologi, dan dengan itu membimbing mereka ke arah penyelesaian yang bermakna.

Sampah di, sampah keluar

Apabila jurang antara penciptaan data dan penggunaan menjadi lebih besar, ia menjadikannya lebih berkemungkinan bahawa kualiti data berkurang. Ini bermakna organisasi perlu menggunakan banyak data pembersihan lama jika mahu menggunakannya hari ini.

Menurut Ketua Sains Data Amerika Syarikat DJ Patil:

Data adalah terlalu kemas, dan pembersihan data akan sentiasa menjadi 80% daripada kerja. Dengan kata lain, data adalah masalah.

Awal tahun ini, sekumpulan pemimpin pemikiran global dari komuniti penyelidikan pangkalan data menggariskan cabaran besar dalam mendapatkan nilai daripada data besar. Mesej utama adalah keperluan untuk membangunkan keupayaan untuk "memahami bagaimana kualiti data tersebut memberi kesan kepada kualiti wawasan yang kita dapatkan daripadanya".

Prinsip keemasan "sampah, sampah" masih berlaku dalam konteks data besar. Tanpa pengetahuan yang boleh dipercayai saintifik yang menyediakan keupayaan untuk menilai secara cekap ciri-ciri kualiti data yang mendasari, terdapat risiko besar organisasi dan kerajaan yang mengumpulkan jumlah besar data ketumpatan nilai yang rendah, atau melabur dalam produk data pulangan atas pelaburan yang rendah.

Selain itu, kekurangan pengetahuan mengenai data asas (pengagihan, semantik dan nuansa lain) boleh menyebabkan perangkap analisis, di mana analisis data boleh membawa kepada kesimpulan yang salah, dan kemungkinan berbahaya.

Penerokaan data muncul sebagai pendekatan yang menjanjikan untuk memberi kuasa kepada pengguna dengan keupayaan penerokaan untuk menyiasat kualiti data dan mendapatkan kesedaran tentang kekurangan data dari segi penggunaan yang mereka maksudkan, dan berbuat demikian sebelum mereka melabur dalam tugas pembersihan data dan pembekalan mahal.

Mencari pencerahan dari banjir data akan memakan tenaga dan pelaburan masyarakat yang didorong data pada masa hadapan. Sedangkan terdapat kuasa besar dalam skala data, apabila ditinggalkan tanpa pengawasan akan mendorong organisasi ke dalam jurang gelap data.

Semua ini menggariskan keperluan yang semakin meningkat bagi para saintis data terlatih yang mempunyai keupayaan untuk mengartikulasikan tujuan perniagaan, saintifik atau sosial yang wajar dan menyelaraskannya dengan usaha teknologi untuk pengumpulan, penyimpanan, pengumpulan dan analisa data.

Perbualan

Tentang Pengarang

Shazia Sadiq, Profesor, Kejuruteraan Data dan Pengetahuan, Universiti Queensland

Artikel ini pada asalnya diterbitkan pada Perbualan. Membaca artikel asal.

Buku-buku yang berkaitan

{amazonWS: searchindex = Books; keywords = data besar; maxresults = 3}

enafarzh-CNzh-TWnltlfifrdehiiditjakomsnofaptruessvtrvi

ikuti InnerSelf pada

icon-facebooktwitter-iconrss-icon

Dapatkan Yang Terbaru Dengan E-mel

{Emailcloak = mati}