NGÀNH CNTT TUYỂN SINH NHIỀU CHỈ TIÊU NGÀNH CNTT, CNTT VIỆT NHẬT VÀ KHOA HỌC DỮ LIỆU

Góc học tập

Nâng cao hiệu quả hoạt động của Bộ mã hóa tự động kết hợp điều chế OFDM trong mạng di động 5G

on .

Nâng cao hiệu quả hoạt động của Bộ mã hóa tự động kết hợp điều chế OFDM trong mạng di động 5G

Nguyễn Tiến Thành - CH1802059

Trong thời gian gần đây, sự phát triển vượt bậc của mạng truyền thông không dây và di động đã tạo ra nhu cầu cấp thiết về tốc độ và độ tin cậy trong truyền dữ liệu, cũng như việc tối ưu hóa năng lượng và hiệu suất phổ [1]. Các hệ thống truyền thông nói chung và mạng di động 5G nói riêng phải đáp ứng và đạt được một loạt các mục tiêu cho việc phát triển mạng không dây trong tương lai. Điều này bao gồm việc đặt người dùng vào tâm điểm, hỗ trợ truyền dẫn toàn dải, đảm bảo mức độ bảo mật mạnh mẽ và xây dựng hệ thống thông minh. Trong quá trình phát triển mạng di động 5G, đặc biệt là trong lĩnh vực truyền thông không dây, có một vai trò quan trọng trong các ngành công nghiệp như nhà máy thông minh, giao thông và năng lượng, cũng như các lĩnh vực công cộng như y tế, tự động hóa, công nghệ phương tiện và giáo dục. Do đó, một trong những thách thức quan trọng trong thời đại công nghệ hiện nay là tăng cường hiệu suất và tốc độ truyền dữ liệu trong mạng không dây nói chung và mạng di động 5G nói riêng.

Nhằm giải quyết vấn đề trên, các nhà nghiên cứu đã đề xuất các phương pháp giải quyết sau đây: một là, sử dụng các loại mã hóa kênh truyền như Hamming, Turbo, Polar hay LDPC; hai là, sử dụng các loại điều chế đa sóng mang như OFDM (Orthogonal Frequency Division Multiplexing), FBMC (Filter-bank Multi-carrier), GFDM (Generalized Frequency Division Multiplexing) , …; và một hướng đi mới cũng đem lại rất nhiều triển vọng đó là ứng dụng lĩnh vực học sâu vào trong các hệ thống mạng không dây. Cả ba phương pháp trên đều có những ưu và nhược điểm, tuy nhiên, việc sử dụng lĩnh vực học sâu đang được kì vọng hơn cả không chỉ bởi tính đơn giản trong việc thiết kế mà các tiếp cận này còn được kì vọng sẽ phá vỡ các hạn chế phổ biến trong các hệ thống thông tin liên lạc như giới hạn Shannon.

Gần đây, cùng với sự phát triển trong lĩnh vực học sâu, nhiều nghiên cứu đã đề xuất sử dụng học sâu để tối ưu toàn bộ (học toàn bộ – end-to-end learning) cho các hệ thống truyền thông. Nổi bật trong đó là bộ mã hóa tự động (autoencoder) [1, 2, 3]. Trái ngược với các hệ thống thông tin liên lạc truyền thống, bộ mã hóa tự động cho phép tối ưu hóa chung máy phát và máy thu cho bất kì mô hình kênh nào mà không bị giới hạn bởi việc tối ưu hóa các khối riêng biệt như mã hóa kênh truyền, điều chế, cân bằng kênh, v.v. Cách tiếp cận này được kì vọng phá vỡ các hạn chế phổ biến trong các hệ thống thông tin liên lạc truyền thống bằng cách chuyển từ các khối con được tối ưu độc lập sang các mạng nơ-ron nhân tạo (Neural Network) thích ứng và linh hoạt.

Nhược điểm chung của việc ứng dụng lĩnh vực học sâu nói chung và bộ mã hóa tự động nói riêng đó là hiệu suất của hệ thống phụ thuộc vào dữ liệu học của kênh truyền phải nhiều và dữ liệu học phải đủ lớn. Tuy nhiên, ưu thế của việc ứng dụng bộ mã hóa tự động vào trong hệ thống mạng không dây đó là độ phức tạp của máy phát và máy thu tín hiệu thấp, điều này khiến cho độ khả thi trong việc áp dụng vào trong thực tiễn cũng trở nên triển vọng hơn.

Đề tài đặt mục tiêu là Nghiên cứu các giải pháp nhằm nâng cao hiệu quả hoạt động của bộ mã hóa tự động kết hợp điều chế OFDM trong kênh truyền dẫn đa đường đối với hệ thống 5G NR.

Trong khuôn khổ luận văn đã đề cập và trình bày chi tiết sơ đồ ứng dụng bộ mã hóa tự động (Autoencoder) trong hệ thống truyền thông tin đơn và đa sóng mang (OFDM). Từ cơ sở lý thuyết cũng như kết quả mô phỏng đưa ra những kết luận sau:

  • Trong trường hợp không sử dụng mã hóa kênh truyền, các hệ thống truyền thông sử dụng bộ mã hóa tự động cũng như là các hệ thống truyền thông sử dụng các phương pháp điều chế tín hiệu truyền thống đem lại hiệu năng tương đương nhau theo thông số BLER.
  • Khi so sánh hệ thống truyền thông sử dụng bộ mã hóa tự động với hệ thống sử dụng mã hóa kênh truyền LDPC với tốc độ mã hóa tương ứng, đối với điều chế bậc thấp như QPSK hay 16-QAM (PSK) các hệ thống truyền thông truyền thống vẫn đem lại hiệu quả tốt hơn hoặc tương đương với các hệ thống sử dụng bộ mã hóa tự động. Tuy nhiên đối với trường hợp các loại điều chế bậc cao như 64-QAM hay 256-QAM, hệ thống truyền thông sử dụng bộ mã hóa tự động lại đem lại hiệu năng vượt trội so với hệ thống truyền thông sử dụng mã hóa kênh truyền LDPC tại vùng có tỉ lệ năng lượng tín hiệu/nhiễu thấp. Ngoài ra độ phức tạp trong việc ứng dụng bộ mã hóa tự động trong hệ thống truyền thông cũng thấp hơn so với việc thiết kế bộ mã hóa và giải mã hóa LDPC. Từ đó, trong các hệ thống truyền thông trong tương lai, các hệ thống sử dụng bộ mã hóa tự động nói riêng và ứng dụng lý thuyết học sâu nói chung sẽ được đề xuất nhằm nâng cao hiệu năng của các hệ thống đó.

Trân trọng.

Phát hiện các gian lận kế toán bằng phương pháp máy học tổng hợp

on .

Phát hiện các gian lận kế toán bằng phương pháp máy học tổng hợp

CH2002011 - Huỳnh Thị Tố Ngọc

Báo cáo tài chính (viết tắt là BCTC) là công cụ giúp các nhà đầu tư và những đơn vị liên quan hiểu rõ tài chính của các tổ chức. Trong thời đại ngày nay, tốc độ phát triển của khoa học công nghệ nhanh như vũ bão thì quy mô kinh doanh ngày càng tăng, nguy cơ về gian lận kế toán (GLKT) đã trở thành một thách thức cực kỳ lớn đối với doanh nghiệp và hệ thống tài chính toàn cầu. GLKT không còn đơn thuần là một vấn đề riêng của các doanh nghiệp, mà còn mang theo những hậu quả lớn đối với tính công bằng và minh bạch trong quản lý tài chính. Việc GLKT ngày càng trở nên tinh vi làm cho việc phát hiện và ngăn chặn gian lận trở nên cực kỳ khó khăn.

Trong luận văn này, chúng tôi đã tiến hành trích xuất đặc trưng từ các giá trị dữ liệu thô trong các BCTC và áp dụng phương pháp máy học tổng hợp với thuật toán RUSBoost, AdaBoost, Bagging, phương pháp máy học hồi quy Logistic và SVM để xây dựng mô hình phân loại các GLKT.

Chúng tôi đã tập trung giải quyết hai vấn đề chính. Thứ nhất, đã đóng góp về mặt tập dữ liệu, bổ sung tập dữ liệu cho nghiên cứu khoa học về GLKT từ các BCTC. Thứ hai, qua kết quả số liệu của mô hình thực nghiệm và phân tích số liệu cho thấy kết quả của mô hình máy học tổng hợp tốt hơn so với các mô hình riêng biệt.

Với những kết quả đạt được, đề tài đã phát hiện GLKT trong BCTC và nâng cao độ tin cậy của những BCTC dành cho người sử dụng. Sau khi xây dựng thành công mô hình phát hiện GLKT bằng thuật toán máy học tổng hợp, chúng tôi đề xuất giải pháp tự động hóa quy trình phát hiện GLKT, giảm thiểu sự phụ thuộc vào sự can thiệp của con người. Mục tiêu là tối ưu hóa hiệu suất thời gian, nâng cao độ chính xác, giảm thiểu sai sót do yếu tố con người trong quá trình giám sát, đảm bảo được tính công bằng, minh bạch trong quản lý tài chính và góp phần xây dựng sự ổn định của thị trường kinh doanh và xã hội.

Trân trọng.

Số hóa các chức năng An sinh xã hội tại một Phường ở Thành phố Hồ Chí Minh

on .

Số hóa các chức năng An sinh xã hội tại một Phường ở Thành phố Hồ Chí Minh

Nguyễn Thị Thu Vân – CH1902027

Trong tiến trình chuyển đổi số, Ngành Lao động, Thương binh và Xã hội (LĐTBXH) cần ứng dụng công nghệ thông tin (CNTT) một cách tổng thể và toàn diện, trong đó đặc biệt chú trọng tới xây dựng một cơ sở dữ liệu (CSDL) tập trung và hệ thống quản lý chặt chẽ, thống nhất các nghiệp vụ, quy trình trong tất cả các lĩnh vực, góp phần thúc đẩy triển khai các hoạt động An sinh xã hội (ASXH) đối với mọi người lao động, toàn dân của Ngành LĐTBXH.

Hiện tại, các hệ thống thông tin/phần mềm của ngành LĐTBXH đang hoạt động độc lập, không đồng nhất và thiếu sự kết hợp. Cơ sở dữ liệu phân tán không có khả năng liên kết và kế thừa dữ liệu giữa các phân hệ. Đáng chú ý là nhiều đối tượng hưởng trợ cấp không đúng/ đủ (một đối tượng hưởng cùng lúc nhiều chính sách, hoặc không được hưởng trợ cấp nào).

Căn cứ hiện trạng như trên, đề xuất triển khai giải pháp “Số hóa các chức năng An sinh xã hội tại một Phường ở Thành phố Hồ Chí Minh” bao gồm các phân hệ chính như sau:

  • Phân hệ Quản lý Trẻ em – Bình đẳng giới
  • Phân hệ Quản lý Bảo trợ xã hội – Hộ nghèo
  • Phân hệ Quản lý Hồ sơ Người có công
  • Phân hệ báo cáo và phân tích số liệu ASXH

Kết quả đạt được:

  • Phân tích được bài toán cụ thể: Số hóa một số chức năng ASXH cho một/ nhiều Phường xã có nhu cầu. Hệ thống được xây dựng cho một Phường thực tế là Phường Tân Hưng Thuận – Quận 12 – TP. Hồ Chí Minh, có thể mở rộng triển khai cho 11, Phường trên địa bàn Quận 12.
  • Phân tích và thiết kế hệ thống quản lý dữ liệu về Nhân khẩu/ Hộ gia đình/ HN-HCN/Diện chính sách - NCC, mô tả chi tiết các chức năng chính của Hệ thống.
  • Dữ liệu được tổ chức đầu vào, xây dựng được nhiều biểu đồ thống kê để phân tích số liệu về nhân khẩu/ hộ gia đình, biến động HN-HCN, các chỉ số ảnh hưởng đến biến động HN-HCN, cơ cấu của diện chính sách/ NCC,...

Trân trọng.

Phân loại mã độc Android dựa trên hướng tiếp cận đa lớp đặc trưng

on .

Phân loại mã độc Android dựa trên hướng tiếp cận đa lớp đặc trưng

220201004 - Phạm Nhật Duy

Sự phổ biến rộng rãi của các ứng dụng Android đặt ra những lo ngại và thách thức đáng kể về bảo mật trong việc phát hiện và phân loại mã độc trên nền tảng này. Các kỹ thuật phân tích truyền thống trước đây không thể đối phó với sự thay đổi ngày càng tinh vi của mã độc, đặc biệt là trước các kỹ thuật làm rối mã nguồn nâng cao, do đó đòi hỏi cần phải có các phương pháp mạnh mẽ hơn. Mục tiêu của nghiên cứu này là xây dựng một hệ thống phân loại mã độc Android có khả năng phát hiện được các ứng dụng đã bị làm rối mã nguồn. Tận dụng các kỹ thuật phân loại hình ảnh, luận văn này đề xuất một phương pháp chuyển đổi mã nguồn của ứng dụng Android thành các hình ảnh đặc trưng khác nhau, bao gồm hình ảnh Markov, hình ảnh đồ thị Entropy và hình ảnh ma trận mức xám. Ba loại hình ảnh đặc trưng này được hợp nhất lại thành một hình ảnh màu duy nhất và làm đầu vào cho các mô hình mạng nơ-ron tích chập được tinh chỉnh. Kết quả cho thấy phương pháp đề xuất mang lại hiệu suất vượt trội hơn so với các phương pháp hiện có. Kết quả cũng chỉ ra tầm quan trọng của việc xem xét nhiều loại đặc trưng hình ảnh khác nhau để có được cái nhìn toàn diện hơn về hành vi của ứng dụng Android, mặc dù vẫn có sự đánh đổi về chi phí tính toán. Ngoài ra, việc sử dụng một bộ dữ liệu đa dạng các ứng dụng (bị và không bị làm rối mã) sẽ giúp cải thiện tốt hơn khả năng chống lại trước các kỹ thuật làm rối mã nguồn.

Trân trọng.

Phát hiện thư rác tiếng Việt sử dụng các mô hình học sâu

on .

Phát hiện thư rác tiếng Việt sử dụng các mô hình học sâu

210201001 - Ngô Thanh Bình

Ra đời từ những ngày đầu của mạng máy tính, trải qua nhiều nâng cấp và cải tiến, thư điện tử ngày nay vẫn là một phương thức trao đổi thông tin chính thức được sử dụng rộng rãi bởi các cá nhân và tổ chức trên toàn thế giới. Bên cạnh những lợi ích to lớn mà thư điện tử mang lại, thư điện tử cũng bị lạm dụng và sử dụng như một công cụ phục vụ cho các mục đích khác nhau trên môi trường mạng máy tính như gửi thư lừa đảo, thư nặc danh, thư quảng cáo, thư xin tài trợ. Những thư này người nhận không mong muốn nhận nên được gọi là thư rác hay SPAM. Để phân biệt với thư rác, thuật ngữ HAM được sử dụng để chỉ thư mà người nhận mong muốn nhận hay không phải thư rác. Thư rác thường gây cảm giác khó chịu khi người sử dụng nhận được chúng hoặc thậm chí gây ra những tổn hại nhất định cả về vật chất và tinh thần nếu người sử dụng trở thành mục tiêu của những kẻ lừa đảo. Chính vì vậy, nhiều giải pháp đã được phát triển để phát hiện thư rác hiệu quả hơn. Trong đó, các mô hình học máy cũng như các mô hình học sâu đã được ứng dụng để phát hiện thư rác và đạt được độ chính xác cao. Tuy nhiên, các mô hình này phần lớn đều được huấn luyện trên bộ dữ liệu tiếng Anh nên chỉ có khả năng phát hiện được thư rác tiếng Anh, chưa có bộ dữ liệu thư rác tiếng Việt để huấn luyện mô hình phát hiện thư rác tiếng Việt. Luận văn này trình bày việc xây dựng bộ dữ liệu thư rác tiếng Việt và ứng dụng các mô hình học sâu gồm CNN, BiLSTM và PhoBert để huấn luyện mô hình phát hiện thư rác tiếng Việt. Kết quả so sánh cho thấy, các mô hình học sâu này đều cho kết quả phát hiện thư rác tiếng Việt với độ chính xác cao. Kết quả huấn luyện cho thấy độ chính xác của các mô hình lần lượt là CNN 88.42%, BiLSTM 83.03% và PhoBert 86.47%.

Việc ứng dụng các mô hình học sâu trong phát hiện thư rác tiếng Việt giúp ngăn chặn thư rác hiệu quả hơn, giải quyết thêm các vấn đề còn tồn đọng như: thích ứng với các chiến thuật gửi thư rác mới hiệu quả hơn thông qua việc huấn luyện và cập nhật mô hình, có thể cá nhân hóa cho các người dùng khác nhau và có thể kết hợp với các hệ thống an ninh khác như hệ thống phát hiện mã độc, hệ thống phát hiện tấn công. Trong tương lai, hệ thống sẽ tiếp tục được cải tiến để ứng dụng trong các hệ thống phát hiện thư rác tiếng Việt.

Trân trọng.