Cải tiến mô hình phân cụm dựa trên vị trí thông qua mạng nơron đồ thị (GNN)
Cải tiến mô hình phân cụm dựa trên vị trí thông qua mạng nơron đồ thị (GNN)
Tạ Vũ Hoài Thương - CH1802064
Trong nhiều năm qua, phân tích không gian trong đó phân cụm dữ liệu dựa trên GIS [1] [2] [3] [4] đã trở thành một chủ đề nóng thu hút các nhà nghiên cứu do chủ đề có khả năng áp dụng rộng rãi trong nhiều lĩnh vực. Mô hình phân cụm dựa trên GIS được thiết kế theo cách tiếp cận không giám sát cho phép trích xuất thông tin cụm từ dữ liệu địa lý đã có (ví dụ: tọa độ, nhiệt độ, v.v.) cho các mục đích khác nhau, chẳng hạn như: Phân tích mật độ dân số, phân tích sử dụng đất, phân tích điểm nóng tội phạm, phân tích điểm nóng COVID-19, v.v. Tóm lại, tương tự như mô hình phân cụm không giám sát truyền thống, các kỹ thuật phân cụm được sử dụng để gom các điểm dữ liệu thành các cụm khác nhau dựa trên sự tương đồng của chúng.
Đối với vấn đề phân cụm dựa trên vị trí trong GIS, các phương pháp phân cụm dựa trên mật độ hiện đang gặp phải những khó khăn về chất lượng thấp và nhiễu của thông tin địa lý như tọa độ dẫn đến giảm hiệu suất tổng thể của nhiệm vụ phân cụm dựa trên vị trí.
Ví dụ trong một tình huống có tập dữ liệu không gian địa lý thưa thớt (ví dụ: vị trí của các trường hợp COVID-19 đã được xác nhận hoặc tai nạn, kẹt xe ở các khu vực đô thị, v.v.) mà không có bất kỳ thông tin nào về hình dạng cụm, thông tin địa lý liên quan, ngưỡng khoảng cách, v.v ..., nên khó xác định thông tin cụm từ các tập dữ liệu dựa trên GIS này, cũng như tạo ra các cụm có ý nghĩa cho các nhiệm vụ phân tích tiếp theo.
Nhiều ứng dụng thực tế có thể dùng kết quả này, chẳng hạn như xác định các trường hợp COVID-19 đã được xác nhận hay các điểm nóng trong khu vực cách ly, mật độ tội phạm ở các khu vực cụ thể, mật độ giao thông tại các vị trí cụ thể tại các mốc thời gian khác nhau, v.v.
Thách thức chính của vấn đề phân cụm dựa trên vị trí là tính đại diện thấp của dữ liệu không gian địa lý sẵn có như các tọa độ được dùng để xác định các vị trí địa lý khác nhau, trong đó chỉ cung cấp các giá trị kinh độ và vĩ độ. Vì vậy, thông tin bổ sung là không thể thiếu để cải thiện chất lượng của các biểu diễn dữ liệu dựa trên vị trí. Các biểu diễn này sau đó được sử dụng trực tiếp để tạo điều kiện thuận lợi cho việc triển khai các mô hình phân cụm cũng như tạo ra các cụm có ý nghĩa cho nhiệm vụ phân tích tiếp theo.
Kết quả đạt được:
- Luận văn đã đề xuất một phương pháp gom cụm dữ liệu vị trí địa lý thông qua hướng tiếp cận khám phá cộng đồng và học máy, mô hình được gọi là CP2Vec.
- Mô hình CP2Vec được đề xuất nhằm hỗ trợ phân tích và đánh giá mức độ tương đồng giữa các địa điểm. Để làm điều này, luận văn đề xuất một phương pháp xây dựng đồ thị các địa điểm dựa trên mức độ gần nhau của chúng trên không gian địa lý đã được áp dụng.
- Sau đó, luận văn áp dụng kỹ thuật phát hiện cộng đồng để trích xuất thông tin về các cụm điểm được phân bố gần nhau.
- Cuối cùng, một kiến trúc mạng nơ-ron đồ thị được áp dụng để học mô hình biểu diễn của các điểm và chuyển đổi thành các vector có số chiều cố định (d). Sau đó các vector biểu diễn các địa điểm được đưa vào các mô hình gom cụm DBSCAN hay HDBSCAN sẵn có để tiến hành gom cụm các địa điểm này.
- Để chứng minh tính hiệu quả của mô hình được đề xuất cho bài toán gom cụm các địa điểm trong không gian địa lý, luận văn tiến hành thực nghiệm trên các tập dữ liệu thực tế bao gồm hai tập dữ liệu chính.
- Đầu tiên là tập dữ liệu các địa điểm ca nhiễm COVID-19 được phân bố trong 13 quận của TP. Hồ Chí Minh.
- Thứ hai là tập dữ liệu về vị trí các vụ án hình sự đã được xảy ra và được báo cáo tại thành phố Hartford, Hoa Kỳ cho nhiệm vụ phân cụm dựa trên vị trí.
- Kết quả thực nghiệm trong các bộ dữ liệu thực tế này đã chứng minh tính hiệu quả của mô hình CP2Vec được đề xuất của luận văn trong việc nâng cao hiệu suất gom cụm cho các mô hình sẵn có như DBSCAN và HDBSCAN.
Trân trọng.