Mengenal Apa Itu Data Wrangling Sampai Langkah Utama Melakukannya
Bayangin, kamu lagi buka lemari dan dapetin isinya yang super berantakan. Kamu mau cari baju favorit aja butuh usaha setengah mati. Nah, data mentah itu mirip sama lemari berantakan itu, kamu bakal nemuin data kosong, dobel, salah tempat, sampai data yang nggak layak pakai. Terus apa hubungannya sama data wrangling? Apa Itu Data Wrangling? Apa itu data wrangling? gampangnya adalah proses ngerubah data mentah jadi bentuk yang lebih berguna biar kamu gampang menganalisis. Atau kamu juga bisa sebut sebagai seni ngerapiin data yang “berantakan” biar proses analisis lebih akurat. Kamu nggak mau kan, hasil analisis kacau balau karena data semrawut? Makannya yuk ikutin artikel yang bakal kupas tiga langkah utama dalam data wrangling. Langkah Utama Data Wrangling 1. Ngumpulin Data yang Berceceran (Gathering Data) Langkah utama data wrangling paling dasar adalah ngumpulin semua data dulu nin. Data yang perlu kamu kumpulin bisa datang dari berbagai sumber. Kamu bisa mulai dari: database perusahaan, surevi, dataset, sampai hasin scraping website. Kalau kamu masih di fase belajar, ada 3 rekomendasi data gratis yang bisa kamu pakai: 2. Ngumpulin Data dari Banyak Sumber Dalam proses ngumpulin data, bisa aja kamu dapat data dari sumber yang berbeda. Nah, di fase ini kamu butuh skill gabung-gabungin data. Ada sejumlah teknik yang bisa kamu pakai buat proses ini: 4. Outer Join: Menggabungkan dua set data dan menampilkan semua entitas dari kedua set data, cocok nggak cocok tetep tampil. 3. Assessing Data atau Ngecek kondisi Data Langkah utama data wranging yang ke-3 adalah mengecek kondisi data sebenernya. Ya, coba kamu bayangin, kalau mau beli mobil bekas pasti kamu bakal cek ujung ke ujung kan? Sama kaya data perlu dicek juga.Dalam proses analisis, kamu bisa aja nemuin sejumlah masalah. Mulai dari Missing Value dimana data ada yang kosong, Invalid Value kayak tanggal “32 Maret” yang jelas-jelas nggak mungkin, sampai Duplicate Data yang bikin hasil analisis jadi bias. Masalah lainnya yang nggak kalah menarik adalah Inaccurate Value dimana ada kesalahan input data, Inconsistent Value dengan penulisan yang nggak konsisten seperti “Jaksel” vs “Jakarta Selatan”, dan si bikin pusing bernama Outlier. Contoh data yang nilainya ekstrem banget kayak gaji Rp 999 juta padahal rata-rata cuma Rp 5-10 juta. Kalau data-datanya kayak gini nggak dicek, bisa-bisa hasil analisis kamu ngawur dan menyesatkan. 4. Bersihin Data Langkah utama data wrangling yang paling puncak adalah bersih-bersih. Setelah kamu tahu masalah, lihat data mana aja yang nggak layak pakai, maka tiba saatnya kamu beraksi buat bersihin data sampai kinclong. Ada beberapa cara yang bisa kamu lakuin buat proses ini, tergantung jenis masalahnya. Dropping bisa kamu pakai buat menghapus data yang bermasalah, tapi harus hati-hati jangan sampai data penting ikut kehapus. Imputation berguna untuk mengisi data yang kosong dengan nilai rata-rata atau median, terakhir Interpolation cocok untuk data deret waktu dengan mengisi data yang hilang berdasarkan nilai di sekitarnya. Kamu tahu kan apa itu outlier? Yup data yang nilainya jauh banget dari data lain. Bisa aja karena salah input. Buat ngatasin masalah ini, kamu bisa pakai Drop kalau jumlahnya sedikit dan memang salah. Nggak cuma itu kamu juga bisa pakai Imputation dengan mengganti nilainya biar lebih masuk akal. Jangan lupa juga sama si data dobel yang bisa nge-bias hasil analisis. Untuk yang satu ini, kamu bisa Remove Exact Duplicates buat data yang 100% sama persis, Remove Near Duplicates buat data yang mirip banget, atau Grouping & Aggregation buat gabungin data yang mirip dan ambill nilai rata-ratanya. Nag itu dia pembahasan terkait apa itu data wrangling yang kalau diibaratkan kaya spring cleaning buat dataset kamu. Langkah utama data wrangling juga cukup gampang, karena terdiri dari 4 langkah yang gampang banget kamu tiruin. Semoga bermanfaat.







