Apa itu Deep Learning dan Convolutional Neural Network?

Special Skill Indonesia

Maret 8, 2025

Apa itu Deep Learning dan Convolutional Neural Network?

Apa itu Deep Learning? jadi Deep Learning tuh cabang dari Machine Learning yang cara kerjanya dapat inspirasi dari otak manusia. Sistem satu ini juga dikenal dengan istilah Artificial Neural Networks (ANN). Artinya apa? jaringan saraf tiruan.

Nah, biar kamu lebih paham aku jelasin dengan lebih sederhana. Jadi Deep Learning bisa diartikan sebagai jaringan saraf yang punya tiga atau lebih lapisan yang terhubung satu sama lain. Tiap lapisan ini berperan buat memproses dan mentransfer informasi dari satu tahap ke tahap berikutnya. Karena itulah, Deep Learning bisa belajar dari data yang super banyak dan bahkan bisa memecahkan masalah kompleks yang nggak bisa dijangkau oleh algoritma Machine Learning biasa.

Jenis-Jenis Algoritma Deep Learning

Deep Learning punya banyak tipe jaringan saraf tiruan yang masing-masing punya keunikan dan fungsinya sendiri. Nih, beberapa yang paling terkenal dan sering dipakai di dunia AI modern.

1. Convolutional Neural Network (CNN)

Apa itu Convolutional Neural Network (CNN)? kalau dianalogikan CNN itu kayak raja dalam ngolah gambar. Bayangin aja, dia punya banyak layer yang kerjaannya buat mengekstrak fitur-fitur penting dari dara visual mulai dari: pola, tepi, sampai warna.

CNN ini sering banget dipakai buat hal-hal kayak pengenalan wajah di kamera, identifikasi citra medis, sampai deteksi anomali di data satelit. Keren banget kan? CNN jadi pilihan utama karena bisa mengenali pola visual secara otomatis tanpa perlu bantuan manusia.

Kalau dijelasin lebih simpel, CNN itu kerjaannya mirip kayak kamu pakai filter di foto. Setiap layer-nya bakal “menyaring” gambar pakai filter kecil yang disebut kernel buat nemuin detail penting. Setelah fitur-fitur itu dikumpulin, hasilnya dikombinasikan di layer berikutnya sampai akhirnya sistem bisa tahu objek apa yang ada di dalam gambar. Intinya, CNN belajar ngerti gambar dari potongan kecil sampai bisa melihat makna besarnya secara keseluruhan.

**2. Recurrent Neural Network (RNN)**

Kalau CNN jagonya dalam dunia visual, RNN itu andalan buat data yang berurutan kayak teks, suara, data sampai waktu. RNN disusun khusus biar bisa memahami konteks antar data yang muncul secara berurutan. Misalnya: dalam kalimat “Aku lagi belajar”, model RNN bakal nginget kata “Aku lagi” supaya bisa nebak kata selanjutnya “belajar”.

Itulah kenapa RNN banyak dipakai buat hal-hal kayak: prediksi cuaca, analisis sentimen di media sosial, atau chatbot yang bisa paham konteks obrolan. Oh iya, RNN juga punya “memori” internal yang bikin dia bisa menyimpan informasi dari langkah sebelumnya dan gunain itu buat langkah selanjutnya. Tapi RNN klasik kadang suka kesulitan ngingat konteks yang terlalu panjang, dan di situ lah muncul versi yang lebih keren dan tangguh: LSTM.

**3. Long Short-Term Memory (LSTM)**

LSTM ini bisa dibilang versi upgrade dari RNN yang punya kemampuan super buat mengingat informasi jangka panjang. Dia punya sistem yang disebut cell state dan beberapa gerbang pengatur, yaitu input gate, forget gate, dan output gate. Masing-masing punya peran buat mutusin informasi mana yang perlu disimpan dan mana yang harus dilupain.

Dengan mekanisme ini, LSTM bisa memahami konteks yang lebih panjang dalam data. Makanya, LSTM sering banget dipakai buat speech recognition, konversi suara ke teks, dan bahkan komposisi musik otomatis. Nggak cuma itu, beberapa riset di bidang farmasi juga udah mulai pakai LSTM buat memprediksi efek dari senyawa baru. Jadi, bisa dibilang LSTM ini otaknya AI yang bisa berpikir lebih dalam dan tahan lama.

**4. Self Organizing Maps (SOM)**

Nah, kalau yang satu ini beda banget gayanya. SOM alias Self Organizing Maps termasuk jenis neural network yang belajar tanpa pengawasan alias Unsupervised. Tugasnya bikin visualisasi data secara otomatis biar pengguna bisa lebih gampang memahami data berdimensi tinggi yang kompleks. Dengan SOM, data besar bisa diubah jadi peta visual yang lebih intuitif dan gampang dicerna manusia.

Cara kerjanya juga cukup unik. Setiap data akan menarik neuron yang paling mirip dengannya, lalu neuron itu dan tetangganya bakal menyesuaikan diri supaya makin mirip dengan data tadi. Proses ini terus berulang sampai akhirnya terbentuk peta yang menggambarkan hubungan antar data. Hasil akhirnya bikin kita bisa “melihat” pola dan kedekatan antar data secara visual tanpa harus pusing ngitung manual.

Manfaat Deep Learning

Setelah tahu jenis-jenisnya, kamu pasti penasaran: seberapa bergunanya sih Deep Learning? Jawabannya: Sangat berguna. Teknologi satu ini bisa jadi fondasi utama banyak inovasi digital yang kamu pakai tiap hari. Deep learning bisa memproses data yang nggak terstruktur kayak teks, gambar, atau suara. Ia juga bisa otomatis mengekstrak fitur penting tanpa perlu label manual, hasilnya lebih akurat dan efisien. Selain itu, deep learning juga bikin biaya operasional lebih hemat karena bisa mengotomatisasi proses yang dulunya butuh tenaga manusia.

Penerapan Deep Learning

Kamu udah ngikutin pembahasan dari tadi seputar apa itu Deep Learning dan jenis-jenisnya. Tapi biar makin kebayang, ada beberapa penerapan Deep Learning di kehidupan sehari-hari yang sering banget kamu temui diantaranya:

1. Pengenalan Gambar

Deep learning bisa mengenali dan mendeteksi objek dalam gambar atau video. Contohnya, fitur face unlock di smartphone, sistem tagging otomatis di media sosial, atau deteksi wajah di Google Photos. Semua itu pakai teknologi Deep Learning yang belajar dari jutaan contoh gambar.

2. Pengenalan Suara

Kamu tahu Google Assistant ? Nah, itu pakai teknologi Deep Learning juga. Teknologi satu ini juga bisa bantu sistem buat memahami suara manusia terus mengubahnya jadi teks. Eh, bisa juga diubah jadi perintah yang bisa dijalankan komputer.

**3. Natural Language Processing (NLP)**

NLP bisa disebut cabang AI yang fokus memahami bahasa manusia. Kamu bisa lihat penerapannya di mesin penerjemah, chatbot, asisten digital, atau sistem rekomendasi yang bisa “ngobrol” kayak manusia beneran.

4. Deteksi Anomali

Deep Learning juga bisa dipakai buat deteksi anomali alias pola yang nggak biasa. Misalnya, buat mendeteksi penipuan kartu kredit, memantau kesehatan pasien, bahkan bisa juga dipakai buat memprediksi sistem yang eror sebelum kejadian.

Apa itu Convolutional Neural Network?

Tadi udah sempat dijelasin apa itu CNN, tapi kamu perlu banget kenal CNN lebih dalam. Jadi Convolutional Neural Network atau (CNN) adalah salah satu jenis Deep Learning yang paling populer dan punya pengaruh yang cukup besar. CNN ini super efektif buat ngerjain tugas-tugas pengenalan gambar dan analisis data yang bentukannya grid. CNN juga sukses besar karena bisa otomatis belajar fitur spasial dari data tanpa bantuan manusia.

Teknologi ini udah dipakai di banyak hal, mulai dari pengenalan wajah, analisis citra medis, pengenalan tulisan tangan, sampai analisis video. Secara konsep, CNN terinspirasi dari cara kerja mata manusia dalam memproses gambar. Sama seperti neural network lainnya, CNN punya neuron dengan weight, bias, dan activation function. Tapi yang bikin beda, neuron-neuron ini disusun dalam bentuk filter yang akan “menyapu” gambar untuk menemukan pola penting.

Seorang anak sedang menaiki kuda mainan di atas rumput-rumput. Image by Adam Geitgey via Medium

Bagaimana CNN bekerja?

Secara umum, CNN bekerja lewat proses yang disebut konvolusi. Proses ini tuh menggunakan filter (atau kernel) yang digeser di atas gambar buat mengekstrak informasi penting. Dari sini, komputer bisa dapat representasi baru dari gambar tersebut dan tahu fitur mana yang paling menonjol.

Ilustrasi pergeseran kernel pada sebuah gambar. Image via PyImage Search

Langkah 1: Memecah gambar menjadi gambar yang lebih kecil yang tumpang tindih

Pertama, gambar besar akan dipecah jadi potongan-potongan kecil yang saling tumpang tindih. Contoh: gambar seseorang naik kuda mainan bisa dipecah jadi banyak patch kecil.

Dengan ini, gambar asli dari seorang anak kecil diatas menjadi 77 gambar yang lebih kecil dengan konvolusi yang sama.

Langah 2 : Memasukkan setiap gambar yang lebih kecil ke small neural network

Tiap potongan kecil dari konvolusi kemudian dimasukkan ke small neural network buat menghasilkan representasi fitur. Langkah ini bisa bikin CNN punya kemampuan mengenal objel, dimanapun posisi objek muncul.

Diulang sebanyak 77 kali pada masing-masing gambar kecilnya. Image by Adam Geitgey via Medium

Proses ini dilakukan buat semua bagian dari masing-masing gambar kecil pakai filter yang sama. Artinya, tiap gambar akan memiliki faktor pengali yang sama, yang dalam konteks neural network disebut weights sharing. Kalau ada sesuatu yang kelihatan menarik di setiap gambarnya, bagian itu bakal ditandai sebagai object of interest.

Langkah 3 : Menyimpan hasil dari masing-masing gambar kecil ke dalam array baru

Setelah itu, semua hasilnya dikumpulkan jadi array baru yang bisa dilihat di gambar ini:

Langkah 4 : Downsampling

Kalau array masih kebesaran, buat ngecilin ukuran array kamu bisa pakai downsampling yang biasanya disebut Max Polling . Teknik Max Polling gampangnya proses ngambil nilai pixel paling tinggi di setiap pooling kernel. Jadi meskipun jumlah parameternya dipangkas, info yang paling penting tetap ke capture. Efisien banget tapi tetap fokus ke inti gambarnya

Ilustrasi Max Pooling. Image by Adam Geitgey via Medium

Langkah 5 : Membuat prediksi

Sampai sini, gambar yang tadinya gede banget udah kita ubah jadi array yang lebih kecil. Array itu cuma kumpulan angka, tapi dengan ukuran mini ini kita bisa masukin ke jaringan saraf lain. Jaringan saraf terakhir bakal nge-judge, gambar ini cocok atau enggak. Biar beda sama langkah konvolusi, jaringan ini bisa kamu sebut fully connected network.

Singkatnya kamu bisa perhatiin gambar ini biar lebih paham langkah-langkah tadi:

Arsitektur CNN

Secara garis besar, arsitektur CNN terdiri dari dua bagian utama:
Pertama, Feature Extraction Layer, yang tugasnya mengubah gambar jadi fitur angka yang mewakili isi gambar. Lapisan ini biasanya terdiri dari Convolutional Layer dan Pooling Layer.
Kedua, Fully Connected Layer (MLP), yaitu bagian yang mengolah semua fitur tadi buat menghasilkan prediksi akhir.

Feature Extraction Layer

Proses yang terjadi pada bagian ini tuh melakukan “encoding” dari image menjadi features yang berupa angka-angka yang merepresentasikan image tersebut (Feature Extraction). Feature extraction layer terdiri dari dua bagian yaitu Convolutional Layer dan Pooling Layer. Namun kadang ada beberapa riset/paper yang tidak menggunakan pooling.

Convolutional Layer (Conv. Layer)

Gambar ini punya format RGB alias Red, Green, Blue, dengan ukuran 32×32 pixel, yang sebenernya berupa multidimensional array 32×32 dengan 3 channel. Convolutional layer terdiri dari neuron yang tersusun jadi filter dengan panjang dan tinggi tertentu dalam pixel. Misalnya, layer pertama di feature extraction adalah conv layer 5x5x3, artinya panjang 5 pixel, tinggi 5 pixel, dan tebalnya 3 sesuai jumlah channel gambar.

Ketiga filter ini bakal digeser ke seluruh bagian gambar. Setiap geserannya dilakukan operasi dot antara input dan nilai filter, sehingga tercipta output yang biasa disebut activation map atau feature map. Proses pembuatan feature map bisa dilihat pada gambar berikut.

Ilustrasi proses konvolusi dengan dua filter (W0 dan W1). Image by CS231n

Kesimpulan

Setelah tahu apa itu Deep Learning dan CNN, kamu pasti ngerti kenapa teknologi ini disebut “otak” dari AI modern. Deep learning bikin komputer bisa belajar dari pengalaman, sementara CNN bikin mesin bisa “melihat” dan mengenali gambar seperti manusia. Kombinasi keduanya bikin AI makin canggih kayak: bisa menebak, menganalisis, bahkan berkreasi dari data yang kompleks.

By Special Skill Indonesia

| 24 Juli 2026

Belajar Data Analyst dari Nol? Mulai dari 5 Langkah Ini

Belajar Data Analyst menjadi pilihan banyak mahasiswa, fresh graduate, dan career switcher yang ingin berkarier di dunia data…

By Special Skill Indonesia

| 22 Juli 2026

Skill UI/UX yang Bikin Kamu Dilirik Perusahaan, Gak Cuma Figma!

Kalau kamu baru mulai belajar UI/UX, kemungkinan besar Figma jadi tools pertama yang kamu pelajari. Memang tidak ada..

By Special Skill Indonesia

| 20 Juli 2026

Machine Learning Masih Layak Dipelajari? Ini Faktanya

Kalau kamu mengikuti perkembangan teknologi beberapa tahun terakhir, pasti sering mendengar istilah Machine Learning. Di sisi lain, kemunculan..

Special Skill Indonesia