Merupakan sebuah hal yang penting untuk menjelaskan apa arti dari Istilah Data Mining. Istilah Data Mining disini berarti sebuah proses menganalisa data untuk mencari pola-pola tersembunyi dengan menggunakan metodologi otomatis, nah proses yang seperti ini sering kali juga disebut dengan istilah lain, seperti Machine Learning, Knowledge Discovery in Database (KDD), atau Predictive Analytics. Jangan dibingungkan oleh istilah-istilah tersebut, walaupun berbeda, tetapi fungsinya tetap sama.
Saat ini istilah yang terpopuler adalah Predictive Analytics, tetapi ironisnya beberapa perusahaan menggunakan istilah tersebut untuk membedakan Predictive Analytics dari proses Data Mining yang mereka lakukan (tapi ingat, pada hakikatnya ini adalah proses yang sama). Menurut mereka, proses Data Mining terbatas hanya pada pencarian pola, sedangkan Predictive analytics dapat menggunakan pola yang didapat dari data mining untuk menghubungkan atau meramalkan suatu nilai yang belum diketahui.
Nah sekarang, apa sih yang dapat dilakukan dengan Data Mining, dan kenapa anda membutuhkannya? Mari kita bahas disini.
Anda pasti tahu bahwa belakangan ini kekuatan penghitungan processor sangat meningkat secara signifikan, kapasitas media penyimpanan seperti harddisk juga meningkat tajam dan dengan harga yang sangat lebih terjangkau, akibatnya kemampuan untuk menyimpan data berlari lebih cepat daripada kemampuan untuk memproses data pada media penyimpanan tersebut. Ini menjadikan data-data yang telah terkumpul hanya terdiam di dalam database, kebanyakan data-data ini datang dari perangkat lunak bisnis, seperti aplikasi finansial, Sistem Enterprise Resource Planning (ERP), Sistem Customer Relationship Management (CRM), dan lainnya.
Data-data yang diam terkumpul tersebut seringkali luput dari perhatian, perusahaan biasanya sudah merasa aman punya data, akan tetapi mereka yang tidak melakukan proses data mining sebenarnya kaya akan data tapi miskin informasi akan data-data yang mereka miliki. Nah disini tujuan utama dari Data Mining, yaitu untuk mengangkat informasi yang ada pada data-data yang telah dikumpulkan, dan membuat informasi tersebut menjadi sesuatu yang berguna bagi perusahaan atau organisasi.
Contoh Kasus College Plan
Pada gambar dibawah ini menunjukan sebuah table relasi yang berisi daftar yang didapat dari sebuah sekolah. Pada setiap siswa, table ini mencatat informasi seperti Jenis Kelamin (Gender),Kecerdasan (IQ), Pendapatan orang tua (ParentIncome), catatan keinginan orang tua siswa supaya anaknya melanjutkan ke perguruan tinggi (ParentEncouragement) , dan catatan pernyataan apakah anak-anaknya mau melanjutkan ke perguruan tinggi (CollegePlan), dengan menggunakan data ini, bagaimana cara anda menjawab pertanyaan "Apa yang mendorong lulusan SMA untuk melanjutkan ke perguruan tinggi?"
Dengan menggunakan metode tradisional anda dapat melakukan Query atau Slice data menggunakan tools OnLine Analytical Processing (OLAP) untuk mencari tahu berapa banyak Siswa Pria yang melanjutkan ke perguruan tinggi VERSUS Siswi Wanita. Anda juga dapat menuliskan sebuah Query untuk melihat relasi antara dukungan orangtua dan keinginan siswa. Tapi bagaimana dengan siswa pria yang didukung oleh orangtuanya? Atau bagaimana apabila dilihat dari sisi siswi wanita yang tidak didukung oleh orangtuanya? Tentungnya anda harus menulis banyak sekali Query untuk mengcover seluruh kombinasi yang mungkin terjadi #CapekDeh.
Kolom bersifat numeric seperti ParentIncome dan IQ lebih sulit untuk dianalisa, sebagai contoh anda perlu memutuskan untuk memilih range didalam nilai numeric untuk menentukan apakah range pendapatan antara $40.000 sampai dengan $50.000 berdampak kepada keputusan untuk melanjutkan sekolah atau tidak. Walaupun dengan dataset yang sederhana ini, menggunakan Query dan OLAP tidak cocok untuk tugas ini. Bayangkan kalau ada seribu kolom pada table ini , anda akan dengan cepat menyerah ketika dihadapkan pada jumlah kemungkinan yang harus anda coba untuk menjawab pertanyaan dasar tentang arti dari data ini.
Kontras dengan pendekatan diatas, Pendekatan data mining untuk problem ini hampir kebalikan dari metode Query-and-Explore. Daripada menebak-nebak hipotesa dan mencobanya dengan berbagai cara, anda dapat menggunakan metode data mining untuk mengeksplorasi data tersebut.
Pada kasus ini coba anda tandai kolom IQ, Gender, ParentIncome, dan ParentEncouragement untuk digunakan sebagai hipotesa dalam menentukan CollegePlans. Ketika system yang dilakukan untuk melakukan data mining memproses seluruh data, system ini akan menganalisa pengaruh dari setiap kolom input (IQ, Gender,ParentIncome, dan ParentEncouragement) kepada kolom target (CollegePlans).
Gambar berikutnya menunjukkan hasil dari hipotesis algoritma decision tree yang di operasikan pada kumpulan data ini.
Pada kasus ini setiap alur dari root node ke leaf node membentuk sebuah rule yang ada pada data. Dengan melihat decision tree ini, anda dapat melihat bahwa siswa dengan IQ lebih besar dari 100 dan yang didukung oleh orangtua mereka lebih besar keinginannya untuk melanjutkan ke perguruan tinggi. Pada kasus ini anda telah mengeluarkan pengetahuan atau informasi yang ada dalam kumpulan data ini. Seperti ditunjukkan disini, data mining menggunakan sebuah algoritma seperti Decision Tree, Clustering, Association, Time Series, dan sebagainya kepada kumpulan data, dan menganalisa isinya.
Analisa ini menghasilkan pola yang dapat di ekplorasi untuk diambil informasi berharga yang ada didalam data, dan tergantung pada algoritma yang digunakan, pola yang dihasilkan dapat berbentuk pohon (tree), aturan (rules), kelompok (cluster), atau sebuah formula matematika yang sederhana.
Comments
Post a Comment