[giaban]0.000 VNĐ[/giaban]
[kythuat]
[/kythuat]
[tomtat]
[tomtat]
Nghiên
cứu xây dựng bộ lọc SPAM thông minh tự động
MỤC
LỤC
DANH
MỤC CÁC BẢNG BIỂU, HÌNH VẼ
MỞ
ĐẦU
Chương
1- TỔNG QUAN THƯ SPAM
1.1.
Khảo sát thư spam
1.1.1.
Định nghĩa thư spam
1.1.2.
Phân loại thư spam
1.1.2.1.
Thư spam tiếng Anh
1.1.2.2.
Thư spam tiếng Việt
1.1.3.
Đặc điểm thư spam
1.1.4.
Tác hại của thư spam
1.1.5.
Phương thức hoạt động của thư spam
1.1.5.1.
Quy trình chung phát tán thư spam
1.1.5.2.
Thu thập địa chỉ email
1.1.5.3.
Tìm kiếm máy tính trên Internet cho phép gửi thư
1.1.6.
Tình hình thư spam tại Việt Nam
1.2.
Phương pháp chống thư spam
1.2.1.
Lọc thư qua địa chỉ IP
1.2.1.1.
Sử dụng danh sách đen (Black List) và danh sách địa chỉ tin cậy (White List)
1.2.1.2.
Sử dụng danh sách xám (Grey List)
1.2.1.3.
Chặn IP
1.2.1.4.
Kiểm tra địa chỉ IP
1.2.2.
Lọc thư dựa vào đặc tính của thư spam
1.2.2.1.
Kỹ thuật giấu địa chỉ email
1.2.2.2.
Kỹ thuật nhân viên giả mạo (Fake worker)
1.2.2.3.
Kiểm tra Header
1.2.3.
Lọc thư spam dựa vào nội dung
1.2.3.1.
Sử dụng các từ khóa chuẩn
1.2.3.2.
Xác thực tự động
1.2.3.3.
Yêu cầu xác thực thư
1.2.3.4.
Lọc thư theo nội dung
1.2.4.
Lọc thư spam dựa vào các thuật toán
1.2.4.1.
Lọc thư sử dụng phương pháp heuristic
1.2.4.2.
Lọc thư theo nội dung sử dụng phương pháp xác suất thống kê và học máy.
Chương
2- PHÂN TÍCH BỘ LỌC THỐNG KÊ
2.1.
Giới thiệu
2.2.
Bài toán phân loại văn bản
2.2.1.
Định nghĩa
2.2.2.
Tiến trình phân loại văn bản
2.3.
Những nguyên tắc bộ lọc thống kê
2.3.1.
Xây dựng tập huấn luyện
2.3.2.
Sửa lỗi, huấn luyện lại
2.4.
Các bộ lọc thống kê
2.4.1.
Bộ phân tích các token và tính giá trị
2.4.2.
Phân lớp k Nearest Neighbors (k-NN)
2.4.3.
Phân lớp theo kỹ thuật Support Vector Machine (SVM)
2.5.
Các thuật giải áp dụng cho quá trình lọc thư spam
2.5.1.
Giải thuật xác định kích thước
2.5.2.
Giải thuật giảm nhiễu Bayesian (Bayesian Noise Reduction)
2.5.3.
Thuật toán dựa trên luật RIPPER
Chương
3- XÂY DỰNG BỘ LỌC SPMA DỰA TRÊN PHƯƠNG PHÁP THỐNG KÊ VÀ KỸ THUẬT NAïVE BAYES
3.1.
Tổng quan mạng Bayes
3.1.1.
Giới thiệu mạng Bayes
3.1.2.
Mô hình chi tiết Naive Bayes
3.1.3.
Ưu điểm của bộ lọc thư rác Bayes
3.2.
Quy trình phân tích tổng quát
3.2.1.
Phân tích đặc điểm chung của thư spam
3.2.1.1.
Phần Header của thư spam
3.2.1.2.
Phần thân của thư spam
3.2.2.
Phân loại thư rác tiếng Việt và thư rác tiếng Anh
3.2.3.
Phân tích từ vựng và câu
3.2.3.1.
Phân tích từ vựng
3.2.3.2.
Phân tích câu
3.2.4.
Biểu diễn nội dung thư
3.2.4.1.
Biểu diễn nội dung thư dưới dạng tập hợp từ (“túi từ”)
3.2.4.2.
Sử dụng cụm từ có ngữ nghĩa để biểu diễn văn bản
3.2.4.3.
Sử dụng phân cụm từ để biểu diễn văn bản
3.2.5.
Các bước tiến hành lọc trên mạng Bayes
3.3.
Tổng quan lọc thư rác tiếng Việt
3.3.1.
Khó khăn trong quá trình lọc thư spam tiếng Việt
3.3.2.
Tình hình nghiên cứu
3.3.3.
Phương pháp tiếp cận
3.3.3.1.
Mục tiêu chính
3.3.3.2.
Tiền xử lý và tách câu tiếng Việt
3.3.3.3.
Phân tích từ đơn
3.3.3.4.
Phân tích từ ghép
3.3.3.5.
Xây dựng bộ từ điển tiếng Việt
3.3.3.6.
Quy trình cập nhật từ vựng tiếng Việt
3.4.
Quy trình lọc thư rác tiếng Việt
3.4.1.
Áp dụng thuật toán Naïve Bayes trong quá trình lọc thư
3.4.2.
Quy trình lọc thư rác tiếng Việt
Chương
4- XÂY DỰNG CHƯƠNG TRÌNH LỌC THƯ SPAM
4.1.
Kiến trúc hệ thống chương trình
4.1.1.
Chương trình 1
4.1.2.
Chương trình 2
4.2.
Các bước cơ bản xây dựng hệ thống
4.2.1.
Xây dựng một số chức năng cơ bản
4.2.1.1.
Chức năng chuẩn hóa dữ liệu
4.2.1.2.
Chức năng tách câu
4.2.1.3
Chức năng tạo thư
4.2.2.
Đối với thư tiếng Anh
4.2.2.1.
Các bước thực hiện quá trình lọc
4.2.2.2.
Xây dựng tập hợp các token cho thư spam và thư ham
4.2.2.3.
Tính xác suất của các token và phân loại thư
4.2.2.4.
Cập nhật lại tri thức cho bộ lọc
4.2.3.
Đối với thư tiếng Việt
4.2.3.1.
Xây dựng bộ từ điển tiếng Việt
4.2.3.2.
Phân tích văn bản tiếng Việt
4.2.3.3.
Các bước thực hiện quá trình lọc thư tiếng Việt
4.2.3.4.
Xây dựng tập hợp token cho thư spam và thư ham tiếng Việt
4.2.3.5.
Tính xác suất của các token và phân loại thư tiếng Việt
4.2.3.6.
Cập nhật lại tri thức cho bộ lọc tiếng Việt
4.3.
Chức năng chương trình
4.3.1.
Các chức năng chính của chương trình
4.3.2.
Quá trình lọc thư spam tiếng Anh
4.3.2.1.
Xây dựng tập huấn luyện token cho quá trình lọc thư
4.3.2.2.
Chuẩn hóa tập token đã huấn luyện
4.3.2.3.
Phân tích thư tiếng Anh
4.3.2.4.
Phân lớp hàng loạt thư tiếng Anh
4.3.3.
Quy trình lọc thư spam tiếng Việt
4.3.3.1.
Xây dựng bộ từ điển từ đơn và từ ghép
4.3.3.2.
Chuẩn hóa bộ từ điển tiếng Việt
4.3.3.3.
Thể hiện nội dung thư tiếng Việt
4.3.3.4.
Xây dựng tập huấn luyện cho quá trình lọc thư
4.3.3.5.
Phân tích thư tiếng Việt
4.3.4.
Các hàm cơ bản phục vụ chương trình
4.3.4.1.
Chức năng tách câu đơn cho nội dung thư tiếng Việt
4.3.4.2.
Chức năng tạo thư chứa nội dung
4.3.5.
Các chức năng tổng quát liên quan đến hệ thống
4.3.5.1.
Quản lý các thông số chung của hệ thống
4.3.5.2.
Mô hình hóa các chức năng của chương trình
4.3.6.
Bộ lọc spam trên môi trường Internet
4.3.6.1.
Chức năng gửi email
4.3.6.2.
Bộ lọc spam trên chương trình
4.4.
Kết quả thực nghiệm và đánh giá kết quả đạt được
4.4.1.
Đối với thư spam tiếng Anh
4.4.2.
Đối với thư spam tiếng Việt
4.4.2.1.
Xây dựng bộ từ điển tiếng Việt
4.4.2.2.
Kết quả phân lớp thư tiếng Việt
KẾT
LUẬN VÀ HƯỚNG PHÁT TRIỂN
PHỤ
LỤC
TÀI
LIỆU THAM KHẢO
Bài viết liên quan