Không thể tin nổi: Trí tuệ nhân tạo đã có thể dịch ngôn ngữ mà không cần tới từ điển
Một bước đột phá rất lớn trong machine learning và trong nghiên cứu, giảng dạy ngôn ngữ.
Cứ đà này, ta sẽ có một ngôn ngữ trí tuệ nhân tạo hoàn toàn khác và hoàn toàn mới, cứ nhìn ví dụ của Facebook này mà xem.
Vừa mới đây thôi, hai công trình nghiên cứu nêu lên cách thức một mạng máy tính neural network có thể dịch được ngôn ngữ mà không cần từ điển, một bước tiến cực kì quan trọng trong việc nghiên cứu và dạy ngôn ngữ.
"Hãy cứ tưởng tượng bạn cho một người một đống sách tiếng Trung và một đống sách tiếng Ả rập – không có nội dung nào trùng nhau cả - và người đó phải học cách dịch tiếng Trung sang tiếng Ả rập. Có vẻ như là bất khả thi phải không?", tác giả của một trong hai nghiên cứu trên, một nhà khoa học máy tính tại Đại học vùng Basque, Tây Ban Nha ,Mikel Artetxe nói. "Nhưng chúng tôi đã cho thấy rằng một cỗ máy có thể làm được như thế".
Từ trước đến giờ, việc "dạy" cho máy tính sẽ bao gồm quy trình máy tính đoán câu trả lời – nhận được câu trả lời đúng – điều chỉnh lại quá trình phân tích để lần sau tạo ra câu trả lời cho đúng; cách thức này là "được giám sát".
Hai nghiên cứu mới này tập trung vào phương thức hoàn toàn khác: cho machine learning chạy mà không cần giám sát, để nó tự học đúng nghĩa. Hai hệ thống tự tạo ra một cuốn từ điển song ngữ của riêng mình mà không có ai sửa sai cho chúng. Điều này khả thi bởi lẽ ngôn ngữ thường có những điểm chung giữa các nhóm từ cũng như cách kết hợp từ.
Ví dụ như "bàn" và "ghế" thường được đi dôi với nhau. Vậy nên máy tính tạo ra một bản đồ từ điểm lớn, những từ là những thành phố lớn, được nối với những từ liên quan bởi những con đường quốc lộ. Dần dần, nó sẽ tìm ra cách tốt nhất để vẽ nên một con đường hiệu quả đi giữa các thành phố. Thế đó, nó đã có một cuốn từ điển song ngữ.
Trong hai nghiên cứu này, các nhà khoa học đều dùng những phương pháp tương tự nhau và đều có thể dịch ngôn ngữ theo từng câu một. Họ đều sử dụng hai chiến lược huấn luyện trí tuệ nhân tạo có tên dịch ngược – back translation và giảm nhiễu – denoising.
Trong phương thức back translation, một câu trong ngôn ngữ A sẽ được dịch thô sang ngôn ngữ B, rồi từ B lại dịch ngược về A. Nếu như câu được dịch ngược lại không đúng với nguyên bản, AI sẽ dần sửa lại cho đúng.
Denoising cũng na ná với back translation, nhưng thay vì dịch đi dịch lại giữa hai ngôn ngữ A và B, AI sẽ thêm các yếu tố khác vào trong câu (sắp xếp lại vị trí từ, loại bỏ bớt từ đi) và cố gắng dịch ngược câu ấy về nguyên bản.
Sử dụng hai phương thức dịch này, AI sẽ hiểu được sâu hơn về cấu trúc của ngôn ngữ.
"Thật là đáng ngạc nhiên khi máy tính có thể dịch ngôn ngữ mà không cần đến sự giúp đỡ của con người", Di He, nhà khoa học máy tính tại Microsoft đã có nghiên cứu truyền cảm hứng cho cả hai nghiên cứu trên, nói.
Hai nghiên cứu trên, một từ Mikel Artetxe và một từ nhà khoa học máy tính tại Facebook, Guillaume Lample và các cộng sự đều đã được đăng tải trên Science. Cả hai đội ngũ đều vui mừng bày tỏ rằng họ có thể cải thiện AI của mình bằng việc áp dụng những yếu tố mới từ đội ngũ còn lại.
Tuy nhiên, hai nghiên cứu này vẫn chưa được kiểm tra và phân tích kĩ càng (peer review).