NGÀNH CNTT TUYỂN SINH NHIỀU CHỈ TIÊU NGÀNH CNTT, CNTT VIỆT NHẬT VÀ KHOA HỌC DỮ LIỆU

CHUẨN HÓA TỪ VỰNG TIẾNG VIỆT CHO VĂN BẢN TRUYỀN THÔNG XÃ HỘI

on .

CHUẨN HÓA TỪ VỰNG TIẾNG VIỆT CHO VĂN BẢN TRUYỀN THÔNG XÃ HỘI

LÊ THANH PHONG – 21520395 NGUYỄN THANH NHI – 21521232

Trong bối cảnh mạng xã hội tại Việt Nam phát triển mạnh mẽ với hàng chục triệu người dùng, việc xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) trên các văn bản không chính thống như bình luận trực tuyến, tin nhắn hay bài đăng đang trở thành một thách thức lớn. Những biến thể ngôn ngữ như viết tắt, teencode, hoặc lỗi chính tả thường xuyên xuất hiện, khiến các mô hình NLP truyền thống - vốn được huấn luyện trên văn bản chuẩn - gặp nhiều khó khăn trong việc hiểu và xử lý.

Trước nhu cầu cấp thiết đó, khóa luận "Chuẩn hóa từ vựng tiếng Việt cho văn bản truyền thông xã hội" được thực hiện với mục tiêu xây dựng một hệ thống giúp chuyển đổi những từ ngữ phi chuẩn trong văn bản mạng xã hội sang dạng chuẩn, từ đó hỗ trợ nâng cao hiệu quả cho các bài toán xử lý ngôn ngữ khác như phân tích cảm xúc, phát hiện ngôn ngữ thù địch hay phát hiện spam.

Điểm nổi bật của khóa luận là xây dựng ViLexNorm – một bộ ngữ liệu chuẩn hóa từ vựng tiếng Việt với hơn 10,000 cặp câu được gán nhãn cẩn thận từ dữ liệu Facebook và TikTok. Bên cạnh đó, nhóm sinh viên còn đề xuất phương pháp tổng hợp dữ liệu dựa trên mô phỏng lỗi ngôn ngữ thực tế, giúp mở rộng dữ liệu huấn luyện một cách hiệu quả.

Khóa luận cũng tiến hành thực nghiệm với nhiều nhóm mô hình từ cơ bản đến hiện đại như NLP hiện đại, bao gồm: Recurrent Neural Network, Transformer, Language Model Large Language Model. Thực nghiệm cho thấy mô hình sequence-to-sequence được huấn luyện trước (pre-trained) đạt hiệu suất cao nhất, với tỉ lệ giảm lỗi (Error Reduction Rate - ERR) là 57.74%. Bên cạnh đó, phương pháp tổng hợp dữ liệu được đề xuất cũng giúp cải thiện hiệu suất mô hình lên 65.22% ERR khi được sử dụng làm dữ liệu tiền huấn luyện (pre-train). Ngoài ra, hiệu suất tốt nhất của các mô hình NLP trong các bài toán downstream có thể được tăng thêm đến 3.87% F1-macro khi áp dụng bước chuẩn hóa từ vựng trước quá trình huấn luyện.

Nhóm hy vọng rằng khoá luận này sẽ đóng góp vào những nỗ lực tiếp theo của bài toán chuẩn hoá từ vựng trên tiếng Việt, và đóng góp vào sự đa dạng của bài toán chuẩn hóa từ vựng đa ngôn ngữ. Hơn nữa, nhóm kỳ vọng đề tài này sẽ đẩy mạnh những nghiên cứu tiếp theo trong việc xử lý dữ liệu nhiễu trên Internet, góp phần xây dựng một môi trường mạng ý nghĩa và lành mạnh.

Trân trọng.