Bayangin, kamu lagi buka lemari dan dapetin isinya yang super berantakan. Kamu mau cari baju favorit aja butuh usaha setengah mati. Nah, data mentah itu mirip sama lemari berantakan itu, kamu bakal nemuin data kosong, dobel, salah tempat, sampai data yang nggak layak pakai. Terus apa hubungannya sama data wrangling?
Apa Itu Data Wrangling?
Apa itu data wrangling? gampangnya adalah proses ngerubah data mentah jadi bentuk yang lebih berguna biar kamu gampang menganalisis. Atau kamu juga bisa sebut sebagai seni ngerapiin data yang “berantakan” biar proses analisis lebih akurat. Kamu nggak mau kan, hasil analisis kacau balau karena data semrawut? Makannya yuk ikutin artikel yang bakal kupas tiga langkah utama dalam data wrangling.
Langkah Utama Data Wrangling
1. Ngumpulin Data yang Berceceran (Gathering Data)
Langkah utama data wrangling paling dasar adalah ngumpulin semua data dulu nin. Data yang perlu kamu kumpulin bisa datang dari berbagai sumber. Kamu bisa mulai dari: database perusahaan, surevi, dataset, sampai hasin scraping website. Kalau kamu masih di fase belajar, ada 3 rekomendasi data gratis yang bisa kamu pakai:
- Kaggle: platform komunitas data sains yang kayak mall data scientist, isinya ribuan dataset siap pakai.
- Google Data Search: kalau kamu butuh yang jangkauannya lebih luas, bisa pakai ini. Cara kerjanya mirip Google tapi khusus nyari dataset.
- Satu Data Indonesia: Jangan lupa juga sama Satu Data Indonesia, portal resmi pemerintah yang isinya data-data aktual tentang ekonomi, pendidikan, hingga kesehatan.
2. Ngumpulin Data dari Banyak Sumber
Dalam proses ngumpulin data, bisa aja kamu dapat data dari sumber yang berbeda. Nah, di fase ini kamu butuh skill gabung-gabungin data. Ada sejumlah teknik yang bisa kamu pakai buat proses ini:
- Inner Join: Teknik gabungin dua set data, nanti di gabung kalau entitasnya punya nilai senada. Kalau entitasnya nggak cocok bakal dikeluarin dari hasil. Kalau kamu mau ambil data yang pas dari dua tabel, cocok pakai teknik ini.
- Left Join:Left Join adalah metode buat gabungin dua tabel dengan aturan utama: “Ambil SEMUA data dari tabel pertama (kiri), dan cocokkan dengan data dari tabel kedua (kanan) jika ada.” teknik ini berguna kalau kamu mau ambil semua data dari tabel utama dan hanya data yang match dari tabel kedua
- Right Join: Kebalikan dari Left Join. Menggabungkan dua set data dengan menampilkan semua entitas dari set data kedua (kanan), dan hanya entitas dari set data pertama (kiri) yang memiliki nilai yang cocok.
- Outer Join: Menggabungkan dua set data dan menampilkan semua entitas dari kedua set data, cocok nggak cocok tetep tampil.
4. Outer Join: Menggabungkan dua set data dan menampilkan semua entitas dari kedua set data, cocok nggak cocok tetep tampil.
3. Assessing Data atau Ngecek kondisi Data
Langkah utama data wranging yang ke-3 adalah mengecek kondisi data sebenernya. Ya, coba kamu bayangin, kalau mau beli mobil bekas pasti kamu bakal cek ujung ke ujung kan? Sama kaya data perlu dicek juga.Dalam proses analisis, kamu bisa aja nemuin sejumlah masalah. Mulai dari Missing Value dimana data ada yang kosong, Invalid Value kayak tanggal “32 Maret” yang jelas-jelas nggak mungkin, sampai Duplicate Data yang bikin hasil analisis jadi bias.
Masalah lainnya yang nggak kalah menarik adalah Inaccurate Value dimana ada kesalahan input data, Inconsistent Value dengan penulisan yang nggak konsisten seperti “Jaksel” vs “Jakarta Selatan”, dan si bikin pusing bernama Outlier. Contoh data yang nilainya ekstrem banget kayak gaji Rp 999 juta padahal rata-rata cuma Rp 5-10 juta. Kalau data-datanya kayak gini nggak dicek, bisa-bisa hasil analisis kamu ngawur dan menyesatkan.
4. Bersihin Data
Langkah utama data wrangling yang paling puncak adalah bersih-bersih. Setelah kamu tahu masalah, lihat data mana aja yang nggak layak pakai, maka tiba saatnya kamu beraksi buat bersihin data sampai kinclong.
Ada beberapa cara yang bisa kamu lakuin buat proses ini, tergantung jenis masalahnya. Dropping bisa kamu pakai buat menghapus data yang bermasalah, tapi harus hati-hati jangan sampai data penting ikut kehapus. Imputation berguna untuk mengisi data yang kosong dengan nilai rata-rata atau median, terakhir Interpolation cocok untuk data deret waktu dengan mengisi data yang hilang berdasarkan nilai di sekitarnya.
Kamu tahu kan apa itu outlier? Yup data yang nilainya jauh banget dari data lain. Bisa aja karena salah input. Buat ngatasin masalah ini, kamu bisa pakai Drop kalau jumlahnya sedikit dan memang salah. Nggak cuma itu kamu juga bisa pakai Imputation dengan mengganti nilainya biar lebih masuk akal.
Jangan lupa juga sama si data dobel yang bisa nge-bias hasil analisis. Untuk yang satu ini, kamu bisa Remove Exact Duplicates buat data yang 100% sama persis, Remove Near Duplicates buat data yang mirip banget, atau Grouping & Aggregation buat gabungin data yang mirip dan ambill nilai rata-ratanya.
Nag itu dia pembahasan terkait apa itu data wrangling yang kalau diibaratkan kaya spring cleaning buat dataset kamu. Langkah utama data wrangling juga cukup gampang, karena terdiri dari 4 langkah yang gampang banget kamu tiruin. Semoga bermanfaat.
4 komentar untuk “7 Bahasa Pemrograman Paling Dicari di 2026, Kamu Harus Mulai dari Mana?”
Hey very interesting blog!
Materi singkat padat dan jelas, semoga bermafaat
I couldn’t resist commenting. Exceptionally well written!
mantap