NGÀNH CNTT TUYỂN SINH NHIỀU CHỈ TIÊU NGÀNH CNTT, CNTT VIỆT NHẬT VÀ KHOA HỌC DỮ LIỆU

Góc học tập

Tản mạn với người thầy già.

on .

Chúng tôi có buổi gặp mặt hôm qua với người thầy già và  cũng là thầy cũ.
 
Sau đây tôi xin phép ghi ra một số lời thầy truyền đạt, dù không đầy đủ, nhưng tôi tin nó là những điều tinh hoa nhất thầy truyền đạt cho chúng tôi buổi đó.
 
Đầu tiên là kiến thức thì không được gán nhãn như những tờ tiền, việc chọn 1 kiến thức sao cho đáng giá là 1 điều quan trọng và cần suy xét kỹ.
 
Thứ hai, một bài toán khó là tổ hợp của các bài toán dễ nhưng nó bị che lấp, bài toán càng khó thì càng khó nhìn các bài toán dễ. Giải bài toán khó là đi tìm các chuỗi bài toán dễ liên kết theo đúng thứ tự.
 
Thứ ba, nếu một bài toán khó giải đối với mình trong không gian A, thì hãy thử chuyển nó về bài toán đồng dạng trong không gian, mà mình thành thạo.
 
Thứ tư, tính cách sẽ ảnh hưởng nhiều tới sự phát triển cá nhân trong tương lai hơn là chuyên môn. 
 
Thứ năm, sức khỏe là điều rất quan trọng, trong đó sức khỏe tinh thần sẽ đóng vai trò làm động lực để vượt qua các rào cản vật lý. 
 
Thứ sáu, cách chọn người bạn đúng, là người bạn có đức hy sinh cho người khác.
 
Cuối cùng, tình yêu đôi lứa tuổi 18-22 rất đẹp vì nó tinh khôi, hãy yêu.
 


LT.KHDL2023.

Phát hiện thư rác tiếng Việt sử dụng các mô hình học sâu

on .

Phát hiện thư rác tiếng Việt sử dụng các mô hình học sâu

210201001 - Ngô Thanh Bình

Ra đời từ những ngày đầu của mạng máy tính, trải qua nhiều nâng cấp và cải tiến, thư điện tử ngày nay vẫn là một phương thức trao đổi thông tin chính thức được sử dụng rộng rãi bởi các cá nhân và tổ chức trên toàn thế giới. Bên cạnh những lợi ích to lớn mà thư điện tử mang lại, thư điện tử cũng bị lạm dụng và sử dụng như một công cụ phục vụ cho các mục đích khác nhau trên môi trường mạng máy tính như gửi thư lừa đảo, thư nặc danh, thư quảng cáo, thư xin tài trợ. Những thư này người nhận không mong muốn nhận nên được gọi là thư rác hay SPAM. Để phân biệt với thư rác, thuật ngữ HAM được sử dụng để chỉ thư mà người nhận mong muốn nhận hay không phải thư rác. Thư rác thường gây cảm giác khó chịu khi người sử dụng nhận được chúng hoặc thậm chí gây ra những tổn hại nhất định cả về vật chất và tinh thần nếu người sử dụng trở thành mục tiêu của những kẻ lừa đảo. Chính vì vậy, nhiều giải pháp đã được phát triển để phát hiện thư rác hiệu quả hơn. Trong đó, các mô hình học máy cũng như các mô hình học sâu đã được ứng dụng để phát hiện thư rác và đạt được độ chính xác cao. Tuy nhiên, các mô hình này phần lớn đều được huấn luyện trên bộ dữ liệu tiếng Anh nên chỉ có khả năng phát hiện được thư rác tiếng Anh, chưa có bộ dữ liệu thư rác tiếng Việt để huấn luyện mô hình phát hiện thư rác tiếng Việt. Luận văn này trình bày việc xây dựng bộ dữ liệu thư rác tiếng Việt và ứng dụng các mô hình học sâu gồm CNN, BiLSTM và PhoBert để huấn luyện mô hình phát hiện thư rác tiếng Việt. Kết quả so sánh cho thấy, các mô hình học sâu này đều cho kết quả phát hiện thư rác tiếng Việt với độ chính xác cao. Kết quả huấn luyện cho thấy độ chính xác của các mô hình lần lượt là CNN 88.42%, BiLSTM 83.03% và PhoBert 86.47%.

Việc ứng dụng các mô hình học sâu trong phát hiện thư rác tiếng Việt giúp ngăn chặn thư rác hiệu quả hơn, giải quyết thêm các vấn đề còn tồn đọng như: thích ứng với các chiến thuật gửi thư rác mới hiệu quả hơn thông qua việc huấn luyện và cập nhật mô hình, có thể cá nhân hóa cho các người dùng khác nhau và có thể kết hợp với các hệ thống an ninh khác như hệ thống phát hiện mã độc, hệ thống phát hiện tấn công. Trong tương lai, hệ thống sẽ tiếp tục được cải tiến để ứng dụng trong các hệ thống phát hiện thư rác tiếng Việt.

Trân trọng.

Storytelling dành cho Data Analyst - Phần 1

on .

Storytelling dành cho Data Analyst - Phần 1

Thuyết phục như các nhà hùng biện

Một ngày đẹp trời khi ghé qua thư viện UIT, tôi tình cờ bắt gặp cuốn sách “Storytelling - Nghệ thuật thuyết trình bằng câu chuyện” của tác giả Bùi Thị Ngọc Thu. Nhận thấy nội dung sách có thể rất hữu ích, tôi muốn chắt lọc những điểm chính dành riêng cho các Data Analyst, nhằm giúp họ trình bày dữ liệu thành những câu chuyện mạch lạc, logic và thu hút hơn.

Cuốn sách bắt đầu bằng việc giải thích lý do tại sao việc trình bày ý tưởng của mình một cách dễ hiểu và thuyết phục là rất quan trọng. Sau đó diễn giải về 5 yếu tố tạo dựng và gia tăng tính thuyết phục của bậc thầy hùng biện Aristotle, chúng bao gồm:

Đầu tiên là tính tin cậy (Ethos) - đề cập đến độ uy tín của bạn và là yếu tố mang lại hiệu quả mạnh nhất. Điều này được thể hiện qua bản thân người thuyết trình: kinh nghiệm, chức vị, bằng cấp, kỹ năng,.. Ngoài ra, trang phục, lời nói, ngôn ngữ hình thể, biểu cảm,.. cũng góp  phần tác động đến lòng tin của người nghe. Tính tin cậy còn được thể hiện qua nội dung thuyết trình như nguồn thông tin trích dẫn, các bằng chứng, nghiên cứu cụ thể,...

Thứ hai là tính xúc cảm (Pathos) - con người thường dễ dàng đưa ra những quyết định cảm tính khi lý trí bị lay động. Khi tác động vào các trạng thái cảm xúc, nhà thuyết trình sẽ kết nối cảm xúc với họ, từ đó tạo dựng lòng tin và thuyết phục tốt hơn. Diễn giả có thể tăng tính xúc cảm bằng cách kể một câu chuyện, lồng ghép âm thanh, sử dụng màu sắc hoặc vật dụng có ý nghĩa tượng trưng,...

Thứ ba là tính lý luận (Logos) - là yếu tố phổ biến và được áp dụng nhiều nhất trong các hình thức thuyết trình bởi cách lập luận với số liệu cụ thể, dữ kiện, con số, tỷ lệ phần trăm,... sẽ tác động vào tư duy lý trí, logic của người nghe. Điều này làm tăng tính thuyết phục cho bài nói. 

Thứ tư là tính thời điểm (Kairo) - là khi người nói tạo ra hoàn cảnh và động lực để gia tăng khả năng tác động lên khán giả. Ví dụ, khi nói “Sếp ký giúp em bản trình bày này trong ngày hôm nay để mình kịp triển khai, nếu không sẽ ảnh hưởng đến toàn bộ quá trình dự án và đẩy chi phí lên tới 15%”, người nghe sẽ có xu hướng nhận thấy tính cấp bách và hậu quả từ việc đưa ra quyết định trễ nải, kết quả là tăng tính hiệu quả cho lời kêu gọi hành động của bạn.

Và cuối cùng là tính mục đích (Tapos) - nhà thuyết trình sẽ tăng khả năng thuyết phục của mình khi có mục đích cụ thể là kết nối và mang  lại giá trị cho khán giả. Mục đích càng ý nghĩa, tác động sẽ càng rộng. 

Bài viết tới đây có lẽ đã hơi dài, hy vọng phần tóm tắt trên giúp bạn hiểu rõ hơn cách xây dựng một bài nói thuyết phục. Phần tiếp theo tôi sẽ trình bày các cấu trúc thuyết trình theo nguyên tắc số 3. Cùng đón chờ nhé!

Ảnh sưu tầm

-jott-

Hacker tấn công Trung tâm Thông tin tín dụng quốc gia

on .

Trung tâm Ứng cứu khẩn cấp không gian mạng Việt Nam (VNCERT) cùng Cục An ninh mạng và phòng, chống tội phạm sử dụng công nghệ cao (A05, Bộ Công an) vừa phát đi thông cáo báo chí xác nhận vụ việc lộ dữ liệu cá nhân tại Trung tâm Thông tin tín dụng quốc gia (CIC).

Cụ thể, ngày 10/9, VNCERT tiếp nhận báo cáo sự cố an ninh mạng tại CIC. A05 đã chỉ đạo VNCERT chủ trì, phối hợp với các doanh nghiệp an toàn thông tin (Viettel, VNPT, NCS), Ngân hàng Nhà nước và CIC để xác minh, đồng thời triển khai các biện pháp kỹ thuật ứng phó.

  Toàn văn thông cáo báo chí của VNCERT.

Toàn văn thông cáo báo chí của VNCERT. 

Kết quả xác minh ban đầu cho thấy có dấu hiệu tội phạm mạng tấn công, xâm nhập nhằm đánh cắp dữ liệu cá nhân. Số lượng dữ liệu bị chiếm đoạt đang tiếp tục được thống kê, làm rõ.

VNCERT yêu cầu các tổ chức, cá nhân không tự ý tải, chia sẻ hay sử dụng trái phép dữ liệu, nếu vi phạm sẽ bị xử lý theo quy định pháp luật. Đồng thời, cơ quan này khuyến nghị các tổ chức tài chính, ngân hàng tăng cường rà soát hệ thống, tuân thủ tiêu chuẩn TCVN 14423:2025 về an ninh mạng.

Người dân cũng được cảnh báo nâng cao cảnh giác, tránh bị lợi dụng thông tin để phát tán mã độc, lừa đảo hoặc chiếm đoạt tài sản.

Nguồn: BÁO MỚI

NGHIÊN CỨU XÁC THỰC THÔNG TIN TỰ ĐỘNG DỰA TRÊN NGUỒN TRI THỨC WIKIPEDIA TIẾNG VIỆT

on .

NGHIÊN CỨU XÁC THỰC THÔNG TIN TỰ ĐỘNG DỰA TRÊN NGUỒN TRI THỨC WIKIPEDIA TIẾNG VIỆT

Lê Tuấn Hưng - Tô Trường Long

Trong bối cảnh thông tin sai lệch được lan truyền một cách nhanh chóng trong hệ sinh thái truyền thông như hiện nay, việc kiểm tra sự thật (Fact - Checking) đã trở thành một nhu cầu cấp thiết để bảo vệ tính chính xác và trung thực của thông tin. Mặc dù vấn đề này tồn tại hầu hết ở mọi quốc gia trên thế giới, nhưng đa phần các nghiên cứu và công nghệ hiện tại vẫn chỉ tập trung vào các ngôn ngữ có nhiều tài nguyên như tiếng Anh hay tiếng Trung, để lại khoảng trống lớn cho các ngôn ngữ ít tài nguyên như tiếng Việt. Vì lý do đó, nhu cầu cho việc khám phá các phương pháp và đặc biệt là các bộ dữ liệu mới nhằm hỗ trợ cho việc xây dựng các hệ thống xác thực thông tin trên tiếng Việt là vô cùng cần thiết. Nhằm đóng góp trong việc thu hẹp khoảng cách về tài nguyên so với các ngôn ngữ khác, nhóm xin giới thiệu khóa luận tốt nghiệp của nhóm với mục tiêu giới thiệu bộ dữ liệu ViWikiFC (Vietnamese Wikipedia Fact-Checking) - một bộ dữ liệu được gán nhãn thủ công dành riêng cho việc kiểm tra sự thật dựa trên nguồn thông tin là Wikipedia tiếng Việt. ViWikiFC bao gồm 20.916 câu tuyên bố được tạo ra thông qua quá trình chuyển đổi các câu bằng chứng được trích xuất từ các bài viết trên Wikipedia. Các tuyên bố này được gán nhãn cẩn thận và phân loại theo các nhãn: Hỗ trợ (Supported), Phản bác (Refuted) và Không đủ thông tin (Not Enough Information). Bộ dữ liệu này không chỉ đóng góp cho nguồn dữ liệu của bài toán kiểm tra thực tế tiếng Việt mà còn được phân tích kỹ lưỡng từ nhiều khía cạnh ngôn ngữ khác nhau nhằm thể hiện sự đa dạng ngôn ngữ trong dữ liệu. Bên cạnh giới thiệu bộ dữ liệu, nhóm đồng thời thực hiện những nghiên cứu, phân tích trong việc sử dụng các mô hình ngôn ngữ lớn (LLMs) vào quá trình xây dựng dữ liệu cho bài toán kiểm chứng sự thật trong tiếng Việt với mong muốn nhằm khắc phục những hạn chế hiện có của bộ dữ liệu ViWikiFC (bao gồm thời gian xây dựng, chi phí gán nhãn và bộ dữ liệu ViWikiFC chỉ tập chung vào xác thực thông tin trên một câu bằng chứng) cũng như đánh giá khả năng tạo sinh của các mô hình ngôn ngữ lớn trong việc tạo sinh dữ liệu cho bài toán kiêm chứng sự thật trong tiếng Việt nói chung và tạo sinh dữ liệu cho các bài toàn khác thuộc lĩnh vực khoa học máy tính nói chung. Trong quá trình đánh giá, phân tích ở cả bộ dữ liệu ViWikiFC và khả năng của LLMs, nhóm sử dụng các kỷ thuật phân tích về khía cạnh ngôn ngữ cũng như thông qua hiệu suất của các mô hình đơn ngôn ngữ và các mô hình đa ngôn ngữ nổi tiếng.

Trân trọng.