OPTIMASI PARAMETER ALGORITMA ROCCHIO DAN ANALISIS KOMPARATIF MODEL NEURAL DALAM PENINGKATAN RELEVANSI TEMU KEMBALI INFORMASI TEKS BERBAHASA INDONESIA
Keywords:
sistem temu kembali informasi, algoritma rocchio, relevance feedback, TF-IDF, indoBERTAbstract
Sistem Temu Kembali Informasi (STKI) menghadapi tantangan besar berupa ketidaksesuaian kueri pengguna dengan dokumen relevan akibat ambiguitas leksikal dan kurangnya konteks dalam bahasa Indonesia. Penelitian ini bertujuan untuk mengoptimalkan pencarian dokumen teks dengan menerapkan algoritma Rocchio sebagai metode umpan balik relevansi (relevance feedback). Metode yang digunakan berbasis Vector Space Model (VSM) dengan integrasi pembobotan Term Frequency-Inverse Document Frequency (TF-IDF) dan pra-pemrosesan teks menggunakan library Sastrawi. Efektivitas algoritma diuji pada berbagai dataset, termasuk koleksi hadis, portal berita, dan data tanaman obat, serta dibandingkan dengan model saraf modern seperti IndoBERT. Hasil penelitian menunjukkan bahwa algoritma Rocchio secara signifikan meningkatkan presisi dan recall, dengan peningkatan Mean Average Precision (MAP) mencapai 28,6% pada dataset berita. Pada domain spesifik seperti kamus digital tanaman obat, akurasi sistem mencapai 100%. Meskipun model IndoBERT unggul dalam pemahaman semantik, algoritma Rocchio menawarkan transparansi dan efisiensi komputasi yang lebih tinggi untuk adaptasi real-time. Penelitian ini merekomendasikan penggunaan parameter dan untuk mencapai keseimbangan optimal dalam penyempurnaan peringkat dokumen.
Downloads
References
Bahtera, P.B., Kartawijaya, D.S., 2024. Content Classification of the Official Website of the Ministry of Foreign Affairs of the Republic of Indonesia ( MoFA RI ) using Vector Space Model ( VSM ) 4, 1309–1319.
Madyatmadja, E.D., Fheren, F., Angelica, H., Juwitasary, H., Sembiring, D.J.M., 2023. Comparative Study : Algorithms for Short Message Service Classification. https://doi.org/10.3844/jcssp.2023.1333.1344
Maesya, A., Warnars, H.L.H.S., Gaol, F.L., Soewito, B., 2024. Measurement of airline service sentiment analysis using vector space model. AIP Conf. Proc. 3132, 20007. https://doi.org/10.1063/5.0211335
Muhammad Yunus, 2025. Text Preprocessing menggunakan Pandas, NLTK dan Sastrawi untuk Large Dataset [WWW Document]. URL https://yunusmuhammad007.medium.com/text-preprocessing-menggunakan-pandas-nltk-dan-sastrawi-untuk-large-dataset-5fb3c0a88571 (accessed 12.24.25).
Nakpih, C.I., 2024. A modified Vector Space Model for semantic information retrieval. Nat. Lang. Process. J. 8, 100081. https://doi.org/10.1016/j.nlp.2024.100081
Noto, A., Bimantoro, P., Amalia, I.Z., Arifin, A.Z., Sholikah, R.W., Indraswari, R., 2021. INDONESIAN-TRANSLATED HADITH CONTENT WEIGHTING IN PSEUDO-RELEVANCE FEEDBACK QUERY EXPANSION 11, 9–18.
Nugroho, K.S., 2025. Dasar Text Preprocessing dengan Python [WWW Document]. URL https://ksnugroho.medium.com/dasar-text-preprocessing-dengan-python-a4fa52608ffe (accessed 1.3.26).
Qur’ania, A., Triastinurmiatiningsih, Ikhbal, N.M., 2020. KAMUS DIGITAL TANAMAN OBAT MENGGUNAKAN ALGORITMA ROCCHIO BERBASIS MOBILE 17, 364–371.
Riadi, I., Sunardi, Widiandana, P., 2022. CYBERBULLYING DETECTION ON INSTANT MESSAGING SERVICES USING ROCCHIO AND DIGITAL FORENSICS RESEARCH WORKSHOP FRAMEWORK 17, 1408–1421.
Rosid, M.A., Fitrani, A.S., Astutik, I.R.I., Mulloh, N.I., Gozali, H.A., 2020. Improving Text Preprocessing For Student Complaint Document Classification Using Sastrawi. https://doi.org/10.1088/1757-899X/874/1/012017
Sunendar, N.S., Saputra, I., 2025. COMPARATIVE PERFORMANCE OF TRANSFORMER AND LSTM MODELS FOR INDONESIAN INFORMATION RETRIEVAL WITH INDOBERT. J. Pilar Nusa Mandiri 21, 228–233. https://doi.org/10.33480/pilar.v21i2.6920
Tanuwijaya, E., Adam, S., Anggris, M., 2019. Query Expansion menggunakan Word Embedding dan Pseudo Relevance Feedback. Regist. J. Ilm. Teknol. Sist. Inf. 5, 47. https://doi.org/10.26594/register.v5i1.1385
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2026 Ela Sania, Safrizal, Fachri Husyaini, Habib Syafikri, Tono Arika

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.










