Implementasi Seleksi Fitur dengan Backward Elimination untuk Klasifikasi Prediksi Perceraian

Pratama Haryandi, Muhammad Alif Raihan, Riduwan Purnaminyan, Raihan Adyatma Subagja, Nurul Chamidah

Abstract


Berdasarkan studi mengenai prediksi perceraian yang memanfaatkan “Divorce Predictors Scale” yang berdasar pada terapi pasangan Gottman, performa model untuk memprediksi perceraian dapat ditingkatkan dengan menerapkan metode seleksi fitur correlation-based feature selection. Meskipun demikian, apabila data tidak dilakukan prapemrosesan seperti menghapus data yang duplikat, maka prediksi model dapat membias ke kelas data yang duplikat yang tentunya berdampak negatif bagi model. Sehingga dalam ruang lingkup penelitian ini, sebelum melatih model prediksi perceraian dengan data “Divorce Predictors Scale”, dilakukan prapemrosesan data dengan menghapus data duplikat dan melakukan normalisasi fitur dengan min-max. Selanjutnya metode seleksi fitur backward elimination diterapkan ke empat algoritma klasifikasi. Fitur yang terseleksi adalah 6 fitur yang menghasilkan performa terbaik bagi masing-masing algoritma dengan pembagian data hold-out. Keenam fitur tersebut divalidasikan ke setiap algoritma klasifikasi dengan stratified 10-fold cross-validation. Hasilnya, algoritma naive Bayes menghasilkan performa terbaik dengan akurasi 97.34%, presisi 100%, dan f-score 96.88%.

Berdasarkan studi mengenai prediksi perceraian yang memanfaatkan “Divorce Predictors Scale” yang berdasar pada terapi pasangan Gottman, performa model untuk memprediksi perceraian dapat ditingkatkan dengan menerapkan metode seleksi fitur correlation-based feature selection. Meskipun demikian, apabila data tidak dilakukan prapemrosesan seperti menghapus data yang duplikat, maka prediksi model dapat membias ke kelas data yang duplikat yang tentunya berdampak negatif bagi model. Sehingga dalam ruang lingkup penelitian ini, sebelum melatih model prediksi perceraian dengan data “Divorce Predictors Scale”, dilakukan prapemrosesan data dengan menghapus data duplikat dan melakukan normalisasi fitur dengan min-max. Selanjutnya metode seleksi fitur backward elimination diterapkan ke empat algoritma klasifikasi. Fitur yang terseleksi adalah 6 fitur yang menghasilkan performa terbaik bagi masing-masing algoritma dengan pembagian data hold-out. Keenam fitur tersebut divalidasikan ke setiap algoritma klasifikasi dengan stratified 10-fold cross-validation. Hasilnya, algoritma naive Bayes menghasilkan performa terbaik dengan akurasi 97.34%, presisi 100%, dan f-score 96.88%.
Berdasarkan studi mengenai prediksi perceraian yang memanfaatkan “Divorce Predictors Scale” yang berdasar pada terapi pasangan Gottman, performa model untuk memprediksi perceraian dapat ditingkatkan dengan menerapkan metode seleksi fitur correlation-based feature selection. Meskipun demikian, apabila data tidak dilakukan prapemrosesan seperti menghapus data yang duplikat, maka prediksi model dapat membias ke kelas data yang duplikat yang tentunya berdampak negatif bagi model. Sehingga dalam ruang lingkup penelitian ini, sebelum melatih model prediksi perceraian dengan data “Divorce Predictors Scale”, dilakukan prapemrosesan data dengan menghapus data duplikat dan melakukan normalisasi fitur dengan min-max. Selanjutnya metode seleksi fitur backward elimination diterapkan ke empat algoritma klasifikasi. Fitur yang terseleksi adalah 6 fitur yang menghasilkan performa terbaik bagi masing-masing algoritma dengan pembagian data hold-out. Keenam fitur tersebut divalidasikan ke setiap algoritma klasifikasi dengan stratified 10-fold cross-validation. Hasilnya, algoritma naive Bayes menghasilkan performa terbaik dengan akurasi 97.34%, presisi 100%, dan f-score 96.88%.


Keywords


Seleksi fitur, backward elimination, klasifikasi, perceraian

References


Yöntem, M.K., Adem, K., İlhan, T. and Kılıçarslan, S., 2019. Divorce prediction using correlation based feature selection and artificial neural networks. Nevşehir Hacı Bektaş Veli Üniversitesi SBE Dergisi, 9(1), pp.259-273.

Yöntem, M.K. and İlhan, T. (2018). Boşanma Göstergeleri Ölçeğinin Geliştirilmesi. [Development of the Divorce Predictors Scale]. Sosyal Polika Çalışmaları Dergisi. 41, 339-358.

Gottman, J. M. (2014). What Predicts Divorce? The Relationship Between Marital Processes and Marital Outcomes. New York: Psychology Press.

Wah, Y. B., Ibrahim, N., Hamid, H. A., Abdul-Rahman, S., & Fong, S. (2018). Feature selection methods: Case of filter and wrapper approaches for maximising classification accuracy. Pertanika Journal of Science and Technology, 26(1), 329–340.

Larose, D.T. and Larose, C.D., 2014. Discovering Knowledge in Data: An Introduction to Data Mining. 2nd ed.

Oktafianto. (2016). ‘Analisis Kepuasan Mahasiswa Terhadap Pelayanan Akademik Menggunakan Metode Algoritma C4.5 (Studi Kasus: Stmik Pringsewu)’, jurnal: TIM Darmajaya Vol. 02 No. 01 Mei 2016, ISSN: 2442-5567, E-ISSN: 2443-289X.

Setiadi, A. (2012). Penerapan Algoritma Multilayer Perceptron Untuk Deteksi Dini Penyakit Diabetes. Paradigma-Jurnal Komputer Dan Informatika, 14(1), 46–59.

Marsland, S., 2014. Machine Learning: An Algorithmic Perspective. 2nd ed.

Yöntem, M.K., Adem, K., İlhan, T. and Kılıçarslan, S., 2019. UCI Machine Learning Repository: Divorce Predictors data set Data Set. [online] Archive.ics.uci.edu. Available at: https://archive.ics.uci.edu/ml/datasets/Divorce+Predictors+data+set [Accessed 30 March 2021].

Pedregosa et al., 2011. Scikit-learn: Machine Learning in Python. JMLR 12, pp. 2825-2830.

Buitinck et al., 2013. API design for machine learning software: experiences from the scikit-learn project. ECML PKDD Workshop: Languages for Data Mining and Machine Learning. pp. 108–122.

Scikit-learn.org. n.d. sklearn.tree.DecisionTreeClassifier — scikit-learn 0.24.1 documentation. [online] Available at: https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html [Accessed 1 April 2021].

Scikit-learn.org. n.d. sklearn.naive_bayes.GaussianNB — scikit-learn 0.24.1 documentation. [online] Available at: https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html [Accessed 1 April 2021].

Scikit-learn.org. n.d. sklearn.ensemble.RandomForestClassifier — scikit-learn 0.24.1 documentation. [online] Available at: https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html [Accessed 1 April 2021].

Scikit-learn.org. n.d. sklearn.neural_network.MLPClassifier — scikit-learn 0.24.1 documentation. [online] Available at: https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html [Accessed 1 April 2021].


Refbacks

  • There are currently no refbacks.


Copyright (c) 2021 Senamika

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.