Implementasi Algoritma Convolutional Neural Network Pada Algoritma K-Means Untuk Kategorisasi Data Teks

Authors

  • Rakha Paleva Kawiswara
  • Farid Thalib

DOI:

https://doi.org/10.31479/jtek.v7i2.48

Abstract

Internet merupakan keberlanjutan dari pesatnya perkembangan teknologi komputer. Dalam kenyataannya pengguna internet menghasilkan banyak data, khususnya data berupa teks seperti posting pada social media dan artikel-artikel. Untuk itu, diperlukan kategorisasi data untuk mengelompokkan data teks yang memiliki kategori tertentu. Bag of Words merupakan algoritma yang dapat merepresentasikan kalimat menjadi vektor. Namun Bag of Words seringkali menghasilkan dimensi data atau jumlah fitur yang sangat tinggi, sehingga memerlukan daya komputasi yang sangat tinggi. Pendekatan untuk mengatasi masalah tersebut adalah pembuatan model yang dapat merepresentasikan kalimat menjadi vektor. Model yang menggunakan algoritma Convolutional Neural Network (ConvNet) dapat dipakai untuk mempelajari kalimat dalam data teks untuk merepresentasikan kalimat dalam bentuk vektor. Pelatihan dan pengujian model menggunakan empat data teks yaitu SMS Spam, Komentar Bully, Amazon Alexa Reviews, dan Large Movie Reviews. Hasil vektor kalimat menggunakan ConvNet lebih efisien dalam waktu latih dan waktu uji dibanding dengan representasi menggunakan Bag of Words. Hasil pengujian vektor kalimat ConvNet dengan pengukuran Fowlkes-Mallow Index untuk data teks SMS Spam adalah 0.738, untuk data teks komentar Bully adalah 0.735, untuk data teks Amazon Alexa Reviews adalah 0.908 dan untuk data teks Large Movie Reviews adalah 0.680.

References

Huang, Anna. "Similarity measures for text document clustering." In Proceedings of the sixth new zealand computer science research student conference (NZCSRSC2008), Christchurch, New Zealand, vol. 4, pp. 9-56. 2008.

X. Zhang, J. Zhao, and Y. LeCun, “Character-level convolutional networks for text classification,” in Advances in neural information processing systems, pp. 649–657, 2015.

S. C. Eshan and M. S. Hasan, “An application of machine learning to detect abusive bengali text,” in 2017 20th International Conference of Computer and Information Technology (ICCIT), pp. 1–6, IEEE, 2017.

Verleysen, Michel, and Damien François. "The curse of dimensionality in data mining and time series prediction." In International Work-Conference on Artificial Neural Networks, pp. 758-770. Springer, Berlin, Heidelberg, 2005.

F. Rahmi, APLIKASI SMS SPAM FILTERING PADA ANDROID MENGGUNAKAN ALGORITMA NAÏVE BAYES. PhD thesis, Universitas Pendidikan Indonesia, 2016.

H. M. Saputro, “Klasifikasi komentar bully dengan implementasi algoritma random forest,” 2019.

“Amazon alexa reviews corpus.” (https://www.kaggle.com/sid321axn/ amazon-alexa-reviews. [Online; Diakses pada 17-April-2019].

A. L. Maas, R. E. Daly, P. T. Pham, D. Huang, A. Y. Ng, and C. Potts, “Learning word vectors for sentiment analysis,” in Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, (Portland, Oregon, USA), pp. 142–150, Association for Computational Linguistics, June 2011.

E. Grave, P. Bojanowski, P. Gupta, A. Joulin, and T. Mikolov, “Learning word vectors for 157 languages,” in Proceedings of the International Conference on Language Resources and Evaluation (LREC 2018), 2018.

Keren, Gil, S.Sabato, and B. Schuller. "Fast single-class classification and the principle of logit separation." In 2018 IEEE International Conference on Data Mining (ICDM), pp. 227-236. IEEE, 2018.

Downloads

Published

2020-05-28