Tugas 3 Algoritma Dasar
ALGORITMA DASAR
algoritma
adalah suatu urutan dari beberapa langkah yang logis guna menyelesaikan
masalah. Pada saat kita memiliki masalah, maka kita harus dapat untuk
menyelesaikan masalah tersebut dengan menggunakan langkah-langkah yang logis
ALGORITMA NAIVE BAYES
Algoritma
Naive Bayes merupakan sebuah metoda klasifikasi menggunakan metode probabilitas
dan statistik yg dikemukakan oleh ilmuwan Inggris Thomas Bayes. Algoritma Naive
Bayes memprediksi peluang di masa depan berdasarkan pengalaman di masa
sebelumnya sehingga dikenal sebagai Teorema Bayes. Ciri utama dr Naïve Bayes
Classifier ini adalah asumsi yg sangat kuat (naïf) akan independensi dari
masing-masing kondisi / kejadian
Keuntungan penggunan adalah bahwa metoda ini hanya
membutuhkan jumlah data pelatihan (training data) yang kecil untuk menentukan
estimasi parameter yg diperlukan dalam proses pengklasifikasian. Karena yg
diasumsikan sebagai variabel independent, maka hanya varians dari suatu
variabel dalam sebuah kelas yang dibutuhkan untuk menentukan klasifikasi, bukan
keseluruhan dari matriks kovarians.
Tahapan dari proses algoritma Naive Bayes adalah:
1.Menghitung jumlah kelas / label.
2.Menghitung Jumlah Kasus Per Kelas
3.Kalikan Semua Variable Kelas
4.Bandingkan Hasil Per Kelas
*K-Means Clustering
K-Means
Clustering adalah suatu metode penganalisaan data atau metode Data Mining yang
melakukan proses pemodelan tanpa supervisi (unsupervised) dan merupakan salah
satu metode yang melakukan pengelompokan data dengan sistem partisi.
Metode K-Means Clustering berusaha mengelompokkan data yang
ada ke dalam beberapa kelompok, dimana data dalam satu kelompok mempunyai
karakteristik yang sama satu sama lainnya dan mempunyai karakteristik yang
berbeda dengan data yang ada di dalam kelompok yang lain.
Dengan kata lain, metode K-Means Clustering bertujuan untuk
meminimalisasikan objective function yang diset dalam proses clustering dengan
cara meminimalkan variasi antar data yang ada di dalam suatu cluster dan
memaksimalkan variasi dengan data yang ada di cluster lainnya.
Data clustering menggunakan metode K-Means Clustering ini
secara umum dilakukan dengan algoritma dasar sebagai berikut:
1.Tentukan jumlah cluster
2.Alokasikan data ke dalam cluster secara random
3.Hitung centroid/rata-rata dari data yang ada di
masing-masing cluster
4.Alokasikan masing-masing data ke centroid/rata-rata
terdekat
5.Kembali ke Step 3, apabila masih ada data yang berpindah
cluster atau apabila perubahan nilai centroid, ada yang di atas nilai threshold
yang ditentukan atau apabila perubahan nilai pada objective function yang
digunakan di atas nilai threshold yang ditentukan
*Algoritma K-Nearest Neighbors (KNN)
K-nearest
neighbors atau knn adalah algoritma yang berfungsi untuk melakukan klasifikasi
suatu data berdasarkan data pembelajaran (train data sets), yang diambil dari k
tetangga terdekatnya (nearest neighbors). Dengan k merupakan banyaknya tetangga
terdekat.
Cara Kerja Algoritma K-Nearest Neighbors (KNN)
K-nearest neighbors melakukan klasifikasi dengan proyeksi
data pembelajaran pada ruang berdimensi banyak. Ruang ini dibagi menjadi
bagian-bagian yang merepresentasikan kriteria data pembelajaran. Setiap data
pembelajaran direpresentasikan menjadi titik-titik c pada ruang dimensi banyak.
Klasifikasi Terdekat (Nearest Neighbor Classification)
Data baru yang diklasifikasi selanjutnya diproyeksikan pada
ruang dimensi banyak yang telah memuat titik-titik c data pembelajaran. Proses
klasifikasi dilakukan dengan mencari titik c terdekat dari c-baru (nearest
neighbor). Teknik pencarian tetangga terdekat yang umum dilakukan dengan
menggunakan formula jarak euclidean. Berikut beberapa formula yang digunakan
dalam algoritma knn.
Euclidean Distance
Jarak Euclidean adalah formula untuk mencari jarak antara 2
titik dalam ruang dua dimensi.
euclidean
Hamming Distance
Jarak Hamming adalah cara mencari jarak antar 2 titik yang
dihitung dengan panjang vektor biner yang dibentuk oleh dua titik tersebut
dalam block kode biner.
Manhattan Distance
Manhattan Distance atau Taxicab Geometri adalah formula
untuk mencari jarak d antar 2 vektor p,q pada ruang dimensi n.
Minkowski Distance
Minkowski distance adalah formula pengukuran antar 2 titik
pada ruang vektor normal yang merupakan hibridisasi yang mengeneralisasi
euclidean distance dan mahattan distance.
Teknik pencarian tetangga terdekat disesuaikan dengan
dimensi data, proyeksi, dan kemudahan implementasi oleh pengguna.
Algoritma K-Nearest Neighbors
1.Tentukan k bilangan bulat positif berdasarkan ketersediaan
data pembelajaran.
2.Pilih tetangga terdekat dari data baru sebanyak k.
3.Tentukan klasifikasi paling umum pada langkah (ii), dengan
menggunakan frekuensi terbanyak.
4.Keluaran klasifikasi dari data sampel baru.
Komentar
Posting Komentar