Home
1-luan-an-thac-si
cong-nghe-thong-tin-thac-si
Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh
[giaban]0.000 VNĐ[/giaban]
[kythuat]
[/kythuat]
[tomtat]
[tomtat]
Xây
dựng bộ lọc phát hiện các website có nội dung không lành mạnh
MỤC
LỤC
DANH
MỤC HÌNH VẼ
DANH
MỤC BẢNG BIỂU
MỞ
ĐẦU
CHƯƠNG
1: GIỚI THIỆU TỔNG QUAN
1.1.
Bộ lọc web
1.1.1.
Khái niệm
1.1.2.
Đặc điểm web có nội dung không lành mạnh
1.1.3.
Nguyên nhân cần xây dựng bộ lọc web
1.2.
Các phương pháp lọc web có nội dung không lành mạnh
1.2.1.
Bộ lọc web dựa vào địa chỉ mạng
1.2.2.
Bộ lọc web dựa vào URL (Universal Resource Locator)
1.2.3.
Bộ lọc web dựa vào DNS
1.2.4.
Bộ lọc web dựa vào từ khóa (key word)
1.3.
Những phần mềm lọc web hiện nay
CHƯƠNG
2: CƠ SỞ LÝ THUYẾT
2.1.
Tổng quan khai phá dữ liệu
2.1.1.
Khai phá Text
2.1.1.1.
Khái niệm
2.1.1.2
Một số loại khai phá Text
2.1.1.3.
Quy trình khai phá Text
2.1.2.
Khai phá web
2.1.2.1.
Khái niệm
2.1.2.2.
Phân loại khai phá web
2.1.2.3.
Phương pháp biểu diễn trang web
2.1.3
Xử lý văn bản tự động
2.1.3.1.
Rút trích đặc trưng văn bản
2.1.3.2.
Biểu diễn văn bản bằng vector đặc trưng
2.2.
Lọc nội dung trang web bằng thuật toán Naïve Bayes
2.2.1.
Giới thiệu
2.2.2.
Học Bayes (Bayes Learning)
2.2.3.
Công thức Bayes
2.2.4.
Các bước tiến hành lọc nội dung bằng mạng Bayes
2.3.
Phương pháp tách từ trong tiếng Việt
2.3.1.
Tình hình nghiên cứu
2.3.2.
Một số phương pháp tách từ
2.3.2.1.
Tách câu dựa trên Maximum Entropy
2.3.2.2.
Phương pháp khớp tối đa (Maximum Matching)
2.3.2.3.
Phương pháp WFST (Weighted Finite – State Transducer)
2.3.2.4.
Bài toán tách từ và công cụ vnTokenizer
2.3.2.5.
Phương pháp tách từ dựa trên sự xác suất tồn tại của từ không phụ thuộc vào ngữ
nghĩa
2.3.3.
So sánh các phương pháp tách từ tiếng Việt
2.4.
Phân tích nội dung website
2.4.1.
Phân loại nội dung website
2.4.2.
Đặc trưng của ngôn ngữ tiếng Việt
2.4.3.
Phương pháp xử lý nội dung website
2.4.4.
Phân tích câu
CHƯƠNG
3: ỨNG DỤNG
3.1.
Xây dựng bộ lọc nội dung web tiếng Việt không lành mạnh
3.1.1.
Ý tưởng đề xuất
3.1.2.
Hướng tiếp cận
3.1.3.
Tiến trình thu thập nội dung
3.1.4.
Quy trình thực hiện
3.1.4.1.
Tiến trình 1
3.1.4.2.
Tiến trình 2
3.1.4.3.
Tiến trình 3
3.2.
Kiến trúc hệ thống chương trình
3.2.1
Trình duyệt web với các chức năng cơ bản thông thường
3.2.2.
Các chức năng cơ bản của hệ thống
3.3.
Chức năng của chương trình
3.3.1.
Giao diện chính của chương trình
3.3.2.
Sơ đồ chức năng của chương trình
3.3.2.1.
Chức năng đăng nhập hệ thống
3.3.2.2.
Chức năng chương trình
3.4.
Chức năng học từ tiếng Việt
3.5.
Chức năng xử lý
3.5.1.
Lấy nội dung website cần phân tích
3.5.2.
Quản lý bộ từ điển tiếng Việt
3.5.3.
Phân tích câu đối với nội dung website tiếng Việt
3.5.4.
Phân tích nội dung website tiếng Việt
3.6.
Chức năng huấn luyện từ cho việc lọc nội dung
3.6.1.
Huấn luyện từ tiếng Anh
3.6.2.
Huấn luyện từ tiếng Việt
3.7.
Phân loại nội dung website
3.7.1.
Nội dung tiếng Anh
3.7.2.
Nội dung tiếng Việt
3.8.
Quản lý các thông số hệ thống
3.9.
Quản lý các danh sách
3.9.1.
Black List
3.9.2.
White List
3.10.
Kết quả thực nghiệm và đánh giá kết quả đạt được
KẾT
LUẬN VÀ HƯỚNG PHÁT TRIỂN
TÀI
LIỆU THAM KHẢO
Bài viết liên quan