Skip to main content

Metode Data Mining

Untuk setiap pertanyaan yang dapat dijawab dengan menggunakan sistem Data Mining, ada banyak metode yang harus dilakukan untuk menjawab pertanyaan-pertanyaan itu. Pada beberapa kasus, jawabannya akan langsung ditemukan pada sebuah metode Data Mining, tapi pada kasus lain, anda harus mencoba untuk mengeksplorasi dan menggabungkan beberapa metode untuk mendapatkan sebuah solusi. Nah bagian ini akan menjelaskan metode-metode umum yang digunakan pada data mining, saya akan gunakan istilah aslinya ketimbang terjemahan, karena istilah-istilah ini akan digunakan pada saat penerapan data mining.


Classification


Classification adalah metode yang paling umum pada data mining. Persoalan bisnis sperti Churn Analysis, dan Risk Management biasanya melibatkan metode Classification.


Classification adalah tindakan untuk memberikan kelompok pada setiap keadaan. Setiap keadaan berisi sekelompok atribut, salah satunya adalah class attribute. Metode ini butuh untuk menemukan sebuah model yang dapat menjelaskan class attribute itu sebagai fungsi dari input attribute.


Contohnya kita lihat pada contoh kasus College Plan pada postingan Pengenalan data mining.



Class adalah attribute CollegePlans yang berisi dua pernyataan, Yes dan No, perhatikan ini.


Sebuah Classification Model akan menggunakan atribut lain dari kasus tersebut (input attribut; yaitu kolom IQ, Gender, ParentIncome, dan ParentEncouragement) untuk dapat menentukan pola (pattern) class (Output Attribute; yaitu Kolom CollegePlans yang berisi Yes atau No).


Algoritma Data Mining yang membutuhkan variabel target untuk belajar (sampai mendapatkan rule / pola yang berlaku pada data tersebut) kita standarkan dengan sebuthan dengan Supervised Algorithm.


Nah, yang termasuk kepada Classification Algorithm adalah Decision Trees, Neural Network dan Naives Bayes.


Clustering


Clustering juga disebut sebagai segmentation. Metoda ini digunakan untuk mengidentifikasi kelompok alami dari sebuah kasus yang di dasarkan pada sebuah kelompok atribut, mengelompokkan data yang memiliki kemiripan atribut.


Gambar dibawah ini menunjukkan kelompok data pelanggan sederhana yang berisi dua atribut, yaitu Age (Umur) dan Income (Pendapatan).



Algoritma Clustering mengelompokkan kelompok data kedalam tiga segment berdasarkan kedua atribut ini.



  • Cluster 1 berisi populasi berusia muda dengan pendapatan rendah

  • Cluster 2 berisi populasi berusia menengah dengan pendapatan yang lebih tinggi

  • Cluster 3 berisi populasi berusia tua dengan pendapatan yang relatif rendah.


Clustering adalah metode data mining yang Unsupervised, karena tidak ada satu atributpun yang digunakan untuk memandu proses pembelajaran, jadi seluruh atribut input diperlakukan sama.


Kebanyakan Algoritma Clustering membangun sebuah model melalui serangkaian pengulangan dan berhenti ketika model tersebut telah memusat atau berkumpul (batasan dari segmentasi ini telah stabil).


Association


Association juga disebut sebagai Market Basket Analysis. Sebuah problem bisnis yang khas adalah menganalisa tabel transaksi penjualan dang mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer, misalnya apabila orang membeli sambal, biasanya juga dia membeli kecap. Kesamaan yang ada dari data pembelian digunakan untuk mengidentifikasi kelompok kesamaan dari produk dan kebiasaan apa yang terjadi guna kepentingan cross-selling seperti gambar dibawah ini.



Anda bisa lihat disini, beberapa hal dapat kita baca, misalnya :



  • Ketika orang membeli susu, dia biasanya membeli keju

  • Ketika orang membeli pepsi atau coke, biasanya dia membeli juice


Didalam istilah association, setiap item dipertimbangkan sebagai informasi.


Metode association memiliki dua tujuan:



  1. Untuk mencari produk apa yang biasanya terjual bersamaan

  2. Untuk mencari tahu apa aturan yang menyebabkan kesamaan tersebut.


Regression


Metode Regression mirip dengan metode Classification, yang membedakannya adalah metode regression tidak bisa mencari pola yang dijabarkan sebagai class (kelas).


Metoda regression bertujuan untuk mecari pola dan menentukan sebuah nilai numerik.


Sebuah Teknik Linear Line-fitting sederhana adalah sebuah contoh dari Regression, dimana hasilnya adalah sebuah fungsi untuk menentukan hasil yang berdasarkan nilai dari input.


Bentuk yang lebih canggih dari regression sudah mendukung input berupa kategori, jadi tidak hanya input berupa numerik. Teknik paling popular yang digunakan untuk regression adalah linear regression dan logistic regression. Teknik lain yang didukung oleh SQL Server Data mining adalah Regression Trees (bagian dari dari algoritma Microsoft Decission Trees) dan Neural Network.


Regression digunakan untuk memecahkan banyak problem bisnis – contohnya untuk memperkirakan metode distribusi, kapasitas distribusi, musim dan untuk memperkirakan kecepatan angin berdasarkan temperatur, tekanan udara, dan kelembaban.


Forecasting


Forecasting juga adalah metode data mining yang sangat penting. Contohnya digunakan untuk menjawab pertanyaan seperti berikut:



  • Seperti apa jadinya nilai saham dari Microsoft Corporation (pada NASDAQ, disimbolkan sebagai MSFT) pada keesokan hari?

  • Sebanyak apa penjualan produk tertentu pada bulan depan?


Teknik Forecasting dapat membantu menjawab pertanyaan-pertanyaan diatas. Sebagai inputnya teknik Forecasting akan mengambil sederetan angka yang menunjukkan nilai yang berjalan seiring waktu dan kemudian Teknik Forecasting ini akan menghubungkan nilai masa depan dengan menggunakan bermacam-macam teknik machine-learning dan teknik statistik yang berhubungan dengan musim, trend, dan noise pada data.


Gambaranya dapat anda lihat sebagai berikut:



Gambar diatas menunjukkan dua kurva, garis yang tegas adalah time-series data sebenarnya dari nilai saham Microsoft, dan garis putus-putus adalah time series model yang memprediksi nilai saham berdasarkan nilai saham pada masa lalu.


Sequence Analysis


Sequence Anlysis digunakan untuk mencari pola pada serangkaian kejadian yang disebut dengan Sequence. Sebagai contoh sebuah DNA terdiri dari rangaian bagian: A, G, C, dan T. dan rangkaian klik pada sebuah website berisi rentetan URL. Pada kejadian nyata anda mungkin memodelkan pembelian oleh pelanggan sebagai sebuah sequence (rangkaian) data, rangkaian tersebut adalah:



  • Pertama-tama Seorang pelanggan membeli komputer

  • kemudian membeli speaker

  • dan akhirnya membeli sebuah webcam.


Baik Sequence maupun time-series data mempunyai kemiripan, mereka sama sama berisi tinjauan berdekatan yang urutannya bergantung. Bedanya adalah sebuah time-series berisi data bertipe numerik, dan sebuah sequence series berisi bagian yang khas.


Gambar dibawah ini menunjukan rangkaian klik pada sebuah website berita. Setiap node adalah sebuah kategori URL. Dan garis melambangkan transisi antar kategori URL tersebut. Setiap transisi di kelompokan dengan sebuah bobot yang menggambarkan kemungkinan transisi antara satu URL dan URL yang lain.



Deviation Analysis


Deviation Analysis digunakan untuk mencari kasus yang bertindak sangat berbeda dari normalnya. Deviation analysis pengguaannya sangat luas, yang paling umum menggunakan metode ini adalah pendeteksian penyalah gunaan Kartu kredit. Mengidentifikasi kasus yang tidak normal diantara jutaan transaksi adalah pekerjaan yang sangat menantang. Penggunaan yang lainnya misalnya, pendeteksian gangguan jaringan komputer, analisa kesalahan produksi, dan lain-lain.


Tidak ada teknik standar dalam deviation analysis. Hanya saja biasanya para analis menggunakan decision trees, clustering atau neural network untuk pekerjaan ini.

Comments

Popular posts from this blog

Ahli / Tukang Urut di Bandung

Bagi yang pernah kecelakaan, keseleo, tulang keluar dari persendian, patah tulang, dan masalah-masalah lain dengan tulang dan otot, ahli urut atau tukang urut adalah seseorang yang kita andalkan untuk pengobatan alternatif diluar kedokteran. Persepsi masyarakat mengenai lembaga rumah sakit dan kedokteran masih terdapat kebimbangan walau sudah lebih lebih baik dibanding 10 tahun lalu. Masih ada pemikiran dokter + rumah sakit lebih mementingkan test-test yang berlebihan untuk pasien. Disinilah celah yang diisi oleh ahli urut. Ahli urut berperan sebagai seorang dokter dan ahli terapi. Perlu diperhatikan, menurut saya, sebaiknya tetap ke dokter dulu, x-ray kalau memang diperlukan. Apabila tulang retak atau patah, sebaiknya kunjungan ke ahli urut ditunda dulu. Berikut daftar Ahli urut yang berhasil dihimpun berkat teman2 di facebook...

ExoticAzza : Lola

Find out the differences between NonaManis.com, MoreNonaManis.com, ExoticAzza.com and IndoAmateurs.com - read our FAQ or go to  NonaManis.com . Your email program/account might have a spam filter which mistakenly marks our emails as spam. Please make sure to add admin@exoticazza.com, admin@indoamateurs.com and admin@morenonamanis.com to your safe senders list. WARNING: ADULT MATERIALS FOR CONSENTING ADULTS OVER 21 YEARS OF AGE

More Nona Manis : Fina

Find out the differences between NonaManis.com, MoreNonaManis.com, ExoticAzza.com and IndoAmateurs.com - read our FAQ or go to  NonaManis.com . Your email program/account might have a spam filter which mistakenly marks our emails as spam. Please make sure to add admin@exoticazza.com, admin@indoamateurs.com and admin@morenonamanis.com to your safe senders list. WARNING: ADULT MATERIALS FOR CONSENTING ADULTS OVER 21 YEARS OF AGE