NGÀNH CNTT TUYỂN SINH NHIỀU CHỈ TIÊU NGÀNH CNTT, CNTT VIỆT NHẬT VÀ KHOA HỌC DỮ LIỆU

Góc học tập

Sử dụng GIS đánh giá các yếu tố về Kinh tế, Xã hội, Môi trường và Điều kiện tự nhiên ảnh hưởng đến cây Hồ tiêu tại Đắk Lắk

on .

Trong những năm vừa qua, tình trạng nông sản rơi vào cảnh được mùa, mất giá, cần phải giải cứu đang diễn ra tràn lan. Đó là hệ lụy của việc sản xuất theo cảm tính, phá vỡ quy hoạch khiến cung vượt quá nhu cầu. Theo xu hướng phát triển của nền nông nghiệp hiện đại, cần phải áp dụng các tiến bộ khoa học kỹ thuật để xây dựng những vùng sản xuất quy mô lớn, từ đó giảm chi phí sản xuất, có sản phẩm chất lượng tốt và đảm bảo số lượng theo yêu cầu của thị trường … Nhận thấy được nhu cầu đó, nghiên cứu đề xuất sử dụng GIS đánh giá các yếu tố về Kinh tế, Xã hội, Môi trường và Điều kiện tự nhiên để tìm ra cây trồng phù hợp cho từng vùng. Các nghiên cứu trước đây chủ yếu đề cập đến hai yếu tố là Điều kiện tự nhiên và Kinh tế, tuy nhiên, những năm gần đây, nhiều nghiên cứu đã chứng minh các yếu tố Xã hội và Môi trường cũng ảnh hưởng đến việc quy hoạch đất trồng cây với xu hướng phát triển bền vững. Nghiên cứu cũng tiến hành thực nghiệm trên cây Hồ Tiêu tại Đắk Lắk bởi theo số liệu từ Bộ Nông nghiệp và Phát triển nông thôn, xuất khẩu hồ tiêu của Việt Nam đang đứng đầu thế giới nhưng đang gặp phải nhiều thách thức khi người dân đổ xô trồng hồ tiêu hàng loạt, không có quy hoạch, đặt biệt tại tỉnh Đắk Lắk nơi có sản lượng hồ tiêu lớn nhất cả nước. Kết quả của quá trình thực nghiệm là bản đồ phân loại thích nghi của cây hồ tiêu tại tỉnh Đắk Lắk được xây dựng bằng công nghệ GIS, áp dụng thuật toán nội suy (IDW) và phương pháp chồng lớp, phân tích đa tiêu chuẩn (MCA), kết hợp các tiêu chí từ FAO.

 

Nhóm thực hiện: 

Lê Bá Thiền, Trần Đức Thuận

 

Xem bài chi tiết tại đây.

Rút trích quan hệ giữa các thực thể trong văn bản tiếng Việt

on .

Rút trích quan hệ giữa các thực thể trong văn bản tiếng Việt

Phạm Minh Mẫn - CH1802054

Rút trích quan hệ là một trong những bài toán quan trọng trong xử lý ngôn ngữ tự nhiên (NLP). Nó là bài toán con của bài toán trích xuất thông tin, được ứng dụng rộng rãi trong nhiều bài toán như sơ đồ tri thức, hỏi đáp tự động, tóm tắt văn bản,... Với sự phát triển không ngừng của dữ liệu, đặc biệt là dữ liệu dạng văn bản, bài toán này càng nhận được sự quan tâm hơn đối với các nhà nghiên cứu cả trong và ngoài nước. Tuy nhiên, số lượng các nghiên cứu về bài toán rút trích quan hệ trong văn bản tiếng Việt vẫn còn hạn chế so với các ngôn ngữ khác như tiếng Anh, tiếng Trung,… Do đó, luận văn nghiên cứu sâu hơn về đề tài này.

Về mặt thực tiễn, rút trích quan hệ có nhiều ứng dụng trong các lĩnh vực bao gồm:

- Khai phá dữ liệu từ Web (Web mining): nghiên cứu đối thủ cạnh tranh, rút trích tên người nổi tiếng, các sản phẩm đang thịnh hành, so sánh giá cả sản phẩm, phân tích tâm lý của khách hàng.

- Trí tuệ doanh nghiệp (Business intelligent): đánh giá thông tin thị trường từ các điều luật mới trong thị trường kinh doanh, các thông tin về chính trị giữa các nước...

Về mặt khoa học, nghiên cứu có những đóng góp sau:

- Nắm được tình hình nghiên cứu trong nước và trên thế giới, cũng như xu hướng phát triển của bài toán rút trích quan hệ và các bài toán có liên quan như đồng tham chiếu.

- Thảo luận, đánh giá các phương pháp rút trích quan hệ và phương pháp xử lý phân giải đồng tham chiếu, đồng thời đề xuất một số hướng phát triển tiếp theo của bài toán.

Luận văn đã đạt được những kết quả sau:

- Nắm được tổng thể về bài toán rút trích quan hệ, tình hình các nghiên cứu trong nước và trên thế giới, các xu hướng phát triển của bài toán rút trích quan hệ và các bài toán có liên quan như phân giải đồng tham chiếu.

- Trên cơ sở kế thừa và nghiên cứu các mô hình kết hợp dựa trên BERT để xử lý bài toán RE trong tiếng Việt, luận văn so sánh mô hình kết hợp dựa trên mô hình PhoBERT và XLM-RoBERTa [22] với mô hình đơn lẻ như PhoBERT. Từ đó, có thể thấy rằng phương pháp áp dụng các mô hình kết hợp cho kết quả tối ưu hơn so với phương pháp áp dụng mô hình đơn lẻ.

- Đề xuất, đánh giá phương pháp phân giải đồng tham chiếu mới cho văn bản tiếng Việt để phục vụ cho bài toán rút trích quan hệ với F1 dựa trên ba độ đo MUC, B3, CEAFe lần lượt đạt 66.50%, 82.70%, 76.26%.

- Xây dựng hệ thống demo cho bài toán RE trong văn bản tiếng Việt.

Tuy nhiên, ngoài các kết quả đạt được, luận văn vẫn còn một vài hạn chế sau:

- Chưa giải quyết bài toán mất cân bằng dữ liệu trong việc huấn luyện mô hình RE trong tiếng Việt.

- Chưa kết hợp kết quả của bài toán đồng tham chiếu vào hệ thống RE đã xây dựng.

Trân trọng.

Bài viết số 3 - Giới thiệu ngành Công nghệ Thông tin

on .

Họ và tên: Triệu Đức Duy       Mssv: 23520392

Mục tiêu của em 4 năm sau

Khi giải quyết những bài toán hay vấn đề, việc đầu tiên là hiểu được input và output của nó. Làm bất kỳ một việc nào trong cuộc sống cũng vậy, chúng ta đều cần xác định được mục tiêu của mình, kết quả mà ta mong muốn nhận được sau khi ta làm việc đó hay nó cũng chính là output. Em cũng đã xác định những mục tiêu của mình sau 4 năm học tập tại trường UIT.

Đầu tiên và quan trọng nhất, em mong muốn mình sẽ tốt nghiệp đúng hạn với tấm bằng xếp loại khá trở lên. Mặc dù có rất nhiều ý kiến về việc làm trong ngành công nghệ thông tin thì bằng cấp không quan trọng, nhưng theo em, Trường Đại học Công nghệ thông tin cùng với vị thế và uy tín của mình ở hiện tại, đã khiến cho những sinh viên tốt nghiệp với tấm bằng của trường sẽ có được ấn tượng, lợi thế và sự chú ý không hề nhỏ của nhà tuyển dụng. Bởi một tấm bằng chỉ mất giá trị khi người sở hữu nó không có năng lực vì điều kiện để được cấp bằng thật dễ dàng, trong khi tốt nghiệp UIT đã là một minh chứng nhất định cho năng lực của bản thân do những điều kiện chặt chẽ để tốt nghiệp của nhà trường. Đồng thời, ra trường đúng hạn sẽ giúp cho em và gia đình bớt một khoản chi phí cho việc học tập bị kéo dài. Bản thân em cũng sẽ tiết kiệm được thời gian khi không phải học lại.

Ngoài định hướng học tập, định hướng về công việc của em là làm việc trong ngành khoa học dữ liệu, em thấy đây là một ngành “hot” và xu hướng trong tương lai, có nhu cầu tuyển dụng cao và thu nhập tốt. Ngoài ra, em thấy mình cũng có thể học tốt các môn về toán nếu cố gắng, để phục vụ cho chuyên môn của ngành này. Em cũng có mong muốn được làm việc tại FPT Software vì đây là một công ty có tập trung vào phát triển sản phẩm và dịch vụ về khoa học dữ liệu, có môi trường làm việc đáng mơ ước, chuyên nghiệp và thu nhập tốt. Yêu cầu của nhà tuyển dụng này rất cao và đây sẽ là mục tiêu không hề dễ dàng với em. Một số yêu cầu đáng chú ý của nhà tuyển dụng như dùng thông thạo ngôn ngữ truy vấn cơ sở dữ liệu (SQL, NoSQL…) và công cụ phân tích dữ liệu (Excel, BI tools, Python…), tốt nghiệp đại học chuyên ngành khoa học dữ liệu hoặc các ngành toán ứng dụng và viễn thông sẽ là những điều mà em cần cố gắng.

Học ở UIT sẽ giúp em được đào tạo những kiến thức cần thiết cho công việc. 5 môn học trong chương trình đào tạo mà em nghĩ sẽ là quan trọng nhất cho công việc của mình là Tư duy tính toán cho KHDL, Học máy thống kê, Công nghệ dữ liệu lớn, Hệ hỗ trợ ra quyết định và Xác suất thống kê. Tư duy tính toán cho KHDL, Học máy thống kê, Công nghệ dữ liệu lớn, Hệ hỗ trợ ra quyết định là những môn chuyên ngành trong chương trình của chuyên ngành khoa học dữ liệu, còn môn Xác suất thống kê là một môn toán đại cương và kiến thức về toán xác suất thực sự là rất quan trọng cho công việc của một Data Analyst. Ngoài ra, em cũng có thể tham gia các hoạt động khác hoặc tự tim hiểu và học hỏi những kiến thức khác để giúp ích cho công việc như học lập trình Python, trau dồi tiếng Anh và Nhật, tham gia nghiên cứu khoa học ở trường, xin thực tập hoặc xin việc vào năm hai hoặc năm ba để có kinh nghiệm và hồ sơ đẹp.

Trên đây là những mục tiêu của em trong 4 năm sau, những lí do em chọn những mục tiêu đó, và những điều em nghĩ mình cần thực hiện cũng như những môn học em nghĩ mình nên tập trung để có được những hành trang tốt giúp mình đạt được mục tiêu mà mình đề ra. Với suy nghĩ của một sinh viên năm nhất, em nghĩ rằng mục tiêu của mình có thể sẽ thay đổi phần nào, hoặc những môn học và kỹ năng mà em tập trung vào có thể sẽ khác đi so với những điều trên, nhưng em vẫn luôn mong dù là mục tiêu nào, những kỹ năng và kiến thức nào em thấy là quan trọng thì em đều tâm huyết và dồn sức vào để có thể đạt được nó.

Cơ hội và thách thức đối với việc xây dựng Khung không gian địa lý của thành phố thông minh trong một Khu đô thị nhỏ ở Trung Quốc

on .

Năm 2006, Trung Quốc đưa ra sáng kiến thành phố kỹ thuật số đầu tiên nhằm xây dựng một khung không gian địa lý quốc gia. Trong 10 năm qua, 511 thành phố cấp quận, huyện đã được hưởng lợi từ sáng kiến quốc gia với nguồn tài trợ và nguồn lực kỹ thuật do chính quyền trung ương cấp. Sáng kiến có đạt được mục tiêu không? Khung không gian địa lý đã ảnh hưởng như thế nào đến hoạt động quản lý của chính quyền địa phương, các dịch vụ công, hoạt động kinh doanh và cuộc sống hàng ngày của người dân? Bài học nào có thể được rút ra từ kinh nghiệm 10 năm phát triển thành phố kỹ thuật số? Trả lời những câu hỏi này là mối quan tâm quan trọng về mặt chính sách, học thuật và thực tiễn. Sáng kiến thành phố kỹ thuật số đặt nền tảng cho việc xây dựng các thành phố thông minh mà các cơ quan Chính phủ trung ương của Trung Quốc và nhiều thành phố trực thuộc trung ương hiện đang theo đuổi. Đánh giá về sự phát triển thành phố kỹ thuật số của Trung Quốc giúp cung cấp thông tin cho các quyết định đầu tư thành phố thông minh trong tương lai và hoạch định chính sách liên quan ở quốc gia này.

Các tác giả: 

Lâm Trường Giang , Nguyễn Quốc Khánh, và Trần Đăng Quang

Xem chi tiết tại đây

Phân loại hình ảnh mối hàn thép dựa trên công nghệ xử lý dữ liệu lớn

on .

Phân loại hình ảnh mối hàn thép dựa trên công nghệ xử lý dữ liệu lớn

Nguyễn Xuân Huy - CH2002007

Khuyết tật hàn là các lỗi được tạo ra do sai lệch về hình dáng bên ngoài, độ nặng và cấu trúc kim loại so với thiết kế trong quá trình làm việc của thợ hàn với máy hàn. Khuyết tật hàn có thể ảnh hưởng đến chất lượng và thẩm mỹ của mối hàn. Trong quá trình sản xuất và thi công thép tiền chế cho các công trình, nếu các khuyết tật mối hàn không được phát hiện sẽ không đảm bảo chất lượng và an toàn cho công trình, cũng như đe dọa tính mạng con người. Trong lĩnh vực gia công, có 2 cách kiểm tra khuyết tật mối hàn là kiểm tra phá hủy và kiểm tra không phá hủy. Kiểm tra phá hủy thường thực hiện trong các phòng thí nghiệm, trong khi kiểm tra không phá hủy thường được ưu tiên thực hiện trong quá trình sản xuất.

Có nhiều phương pháp kiểm tra không phá hủy để kiểm tra khuyết tật trong mối hàn như kiểm tra bằng sóng siêu âm (UT), kiểm tra bằng tia X (RT), kiểm tra bằng tia gamma (GT), kiểm tra bằng dòng điện xoay chiều (ET), và kiểm tra bằng phương pháp quang (VT). Lĩnh vực thị giác máy tính đang được ứng dụng trong các lĩnh vực y tế, an ninh, sản xuất kinh doanh, việc phân loại khuyết tật mối hàn dựa trên hình ảnh cũng có thể thực hiện bằng thị giác máy tính.

Dữ liệu hình ảnh về khuyết tật mối hàn rất đa dạng do quá trình sản xuất. Tuy nhiên, nghiên cứu ứng dụng phân loại khuyết tật mối hàn sử dụng các phương pháp học sâu cho bộ dữ liệu ngày càng lớn sẽ gặp rất nhiều thách thức. Một trong những thách thức lớn nhất đó là chất lượng hình ảnh khi thu thập từ camera hoặc điện thoại thông minh bị ảnh hưởng bởi góc chụp ảnh, độ sáng hoặc các mối hàn bị che khuất. Điều này dẫn đến việc có thể thiếu sót thông tin và làm giảm độ chính xác của mô hình phân loại. Bên cạnh đó, chi phí huấn luyện cho mô hình cũng là một thách thức khác. Một số phương pháp học sâu đòi hỏi một lượng lớn dữ liệu và thời gian để huấn luyện, và việc thu thập dữ liệu phù hợp cũng là một nguyên nhân khó khăn. Ngoài ra, việc xây dựng một mô hình phân loại khuyết tật mối hàn đáng tin cậy và chính xác có thể đòi hỏi sự cân nhắc kỹ lưỡng và công phu trong quá trình thu thập và xử lý dữ liệu.

Để giải quyết những thách thức trên, Luận văn này đề xuất một phương pháp phân hình ảnh mối hàn dựa trên công nghệ xử lý dữ liệu lớn. Phương pháp này sử dụng các mô hình dữ liệu đào tạo trước để học chuyển giao (LT) và dữ liệu đào tạo áp dụng phương pháp đào tạo song song phân tán. Nền tảng tập trung dữ liệu Apache Spark kết hợp thư viện BigDL giúp cho việc huấn luyện phát hiện khuyết tật mối hàn trở nên nhanh chóng và chính xác hơn.

Từ kết quả thực nghiệm 1 của bộ dữ liệu hàn nhiệt gồm 9,058 hình ảnh cho thấy, Trong tác vụ 3 class, mô hình EfficientNetB0 cho kết quả thấp nhất (0.4394, 0.2035 và 0.2683 cho các độ đo Accuracy, Macro F1-score và Weighted F1-score), trong khi ResNet101 và VGG16 cho kết quả tốt hơn. VGG16 cho kết quả tốt nhất trong 5 mô hình cài đặt (với 0.8230 Accuray, 0.8205 Macro F1-score và 0.8222 Weighted F1- score). Trong tác vụ 7 class, EfficientNB0 và VGG16 lần lượt cho kết quả không tốt đồng thời hiệu suất của các mô hình ở tác vụ 7 class thấp hơn khoảng 20% so với tác vụ 3 class.

Căn cứ kết quả thí nghiệm 2 có thể đánh giá thời gian trung bình huấn luyện mô hình từ xxx giây cho bộ dữ liệu 9,058 tấm ảnh cho huấn luyện song song phân tán trên mạng LAN so với xxx giây của qua VPN, độ chính xác đạt xx%. Với phương pháp Đồng bộ hóa Dữ liệu Song Song, Kết quả cho thấy rằng huấn luyện trên một GPU chỉ nhanh hơn một chút so với nhiều GPU (xxs / epoch so với xxs / epoch). Tuy nhiên, nếu huấn luyện mô hình với lượng dữ liệu lớn khả năng xử lý của 1 GPU thì việc sử dụng chỉ 1 GPU để huấn luyện có thể gây khó khăn và trở nên quá tải. Giải pháp hợp lý trong trường hợp này là sử dụng huấn luyện mô hình song song và phân tán dữ liệu. Đó là một trong những giải pháp tốt nhất để làm việc với dữ liệu lớn hiện nay.

Từ những kết quả này, ta có thể thấy rằng công nghệ xử lý dữ liệu lớn là một phương pháp phù hợp trong việc phân loại hình ảnh khuyết tật mối hàn thép. Việc áp dụng công nghệ này giúp tăng độ chính, giảm thời gian đáng kể xử lý đào tạo dữ liệu và giúp giảm chi phí đào tạo. Ngoài ra, phương pháp này chứng tỏ có hiệu quả và thiết thực trong ứng dụng thực tế.

Trân trọng.