2018 : DEEP LEARNING FOR INDONESIAN NATURAL LANGUAGE PROCESSING: Penerapan Teknologi Terkini dalam Pengolahan Bahasa Alami untuk Bahasa Indonesia

Faizal Johan Atletiko S.Kom. , M.T.
Renny Pradina Kusumawardani ST., MT.

External link

Type

RESEARCH

Keywords

-


Abstract

Pertukaran informasi yang dilakukan masyarakat melalui media sosial sering kali mengandung muatan informasi yang berharga untuk menunjang aktivitas dan produktivitas dari masyarakat. Hal inilah yang menjadi dasar pemikiran dari penelitian-penelitian yang telah dilakukan peneliti sebelumnya dalam kerangka pengolahan bahasa alami (Natural Language Processing) untuk Bahasa Indonesia. Penelitian ini merupakan lanjutan dari pembuatan aplikasi Citiviz dan Citiviz 2.0 (http://128.199.74.185/citiviz/public/), yang dalam penelitian tersebut, peneliti menerapkan teknologi Natural Language Processing untuk melakukan ekstraksi informasi dari Bahasa Indonesia, khususnya yang berasal dari media sosial. Namun, pengolahan teks dari media sosial memiliki tantangan tersendiri, utamanya disebabkan corak bahasa yang digunakan yaitu bahasa percakapan. Corak bahasa ini cenderung bersifat informal dan memiliki keragaman yang tinggi jika dibandingkan dengan corak bahasa standar. Sebagai contoh, teks yang cenderung singkat, struktur yang secara gramatika kurang tepat, maupun ejaan yang sangat bervariasi. Sebagai akibatnya, ekstraksi informasi dari teks menjadi lebih sulit untuk dilakukan. Semantik dari teks tidak lagi terkandung hanya pada struktur permukaan teks tersebut, melainkan membutuhkan inferensi dari konteksnya. Bahasa Indonesia sendiri merupakan bahasa yang memiliki sumber daya linguistik komputasional yang terbatas bahkan untuk corak bahasa standar. Keragaman yang tinggi dari corak bahasa media sosial mengakibatkan sumber daya yang terbatas ini seringkali menjadi tidak relevan untuk diimplementasikan pada kasus media sosial. Untuk itu, dalam penelitian ini akan dilakukan eksplorasi dan penerapan terhadap kelompok teknik yang dikenal sebagai Deep Learning. Kelompok teknik ini terdiri dari berbagai algoritma, teknik optimasi, serta programming frameworks yang merupakan pengembangan dari neural networks yang mampu memanfaatkan ketersediaan data dalam jumlah besar, ditunjang dengan hardware komputasi dengan arsitektur yang bersifat spesifik. Pada saat ini, penerapan Deep Learning memberikan performa state-of-the-art dari berbagai bidang yang memanfaatkan machine learning yang sebelumnya dilakukan dengan menggunakan berbagai fitur yang diciptakan secara manual, sehingga sering kali tidak dapat diimplementasikan pada domain baru, dan dalam konteks NLP, pada bahasa yang berbeda. Akan tetapi, perlu digaris bawahi pula bahwa penelitian ini tidak sekedar melakukan eksplorasi terhadap Deep Learning karena popularitasnya yang tinggi, namun juga berdasarkan kesimpulan dari berbagai literatur maupun penelitian pendahuluan yang telah dilakukan oleh peneliti bahwa Deep Learning sesuai untuk mengatasi berbagai permasalahan yang telah dikemukakan di atas. Secara spesifik, pada penelitian ini akan dilakukan eksplorasi penerapan teknik Deep Learning pada topic modelling yang telah dilakukan pada penelitian sebelumnya dengan pengintegrasian word embeddings, pengembangan normalisasi teks dengan embeddings, serta penggunaan Convolutional Neural Networks untuk analisis sentiment teks media sosial berbahasa Indonesia. Hasil-hasil dari penelitian ini diharapkan akan dapat memperkaya khasanah penelitian NLP dengan objek Bahasa Indonesia dan mendukung ketersediaan teknologi ini untuk pewicara Bahasa Indonesia, sehingga meningkatkan daya saing bangsa di era informasi saat ini.