Classify
Nhóm 1: DecisionTreeClassify, RandomForestClassify, AdaBoostClassify, MultinomialNB
Bước tiền xử lý chỉ cần dùng LabelEncoder
Nhóm 2: KNeighborsClassifier, SVC, LogisticRegression, SGDClassifier, XGBoost, GaussianNB
Các biến định tính đa giá trị (3 giá trị trở lên) phải dùng get_dummies() hoặc dùng OneHotEncoder
Các biến định lượng phải sử dụng scale (MinMaxScaler, MaxAbsScaler, StandardScaler)...
Yêu cầu
Mỗi nhóm chọn 1 thuật toán có accuracy cao nhất và thực hiện đầy đủ các bước sau
B1. Tiền xử lý dữ liệu
- Đọc dữ liệu từ tập tin
- Kiểm tra dữ liệu null
- Xóa dữ liệu null nếu có (xóa trên dòng hoặc cột)
- Loại bỏ các cột dữ liệu ko dùng
- Chuyển các biến định tính
- Scale dữ liệu (nếu dùng thuật toán nhóm 2)
B2. Thống kê mô tả
- Thống kê số lượng quan sát trên biến quan sát (y)
- Trực quan histogram của các biến định tính
B3: Xây dựng mô hình
- Chia dữ liệu thành 2 tập train và test
- Chạy mô hình Classify
B4: Đánh giá mô hình
- Dự đoán mô hình
- Đánh giá mô hình với các chỉ số Accuracy, Precision, Recall, F1
- Trực quan hóa Confusion matrix
- Kết luận mô hình
Yêu cầu:
Lớp 12-CNTT1, 12-CNTT2 Chọn bài bằng cách dùng MSSV % 25
Ví dụ: 1250080227 % 25 = 2, sinh viên sẽ chọn đề số 2 ở trên
Lớp 12-CNTT3, 12-CNTT4, 12-CNTT5 Chọn bài bằng cách dùng MSSV % 31
Ví dụ: 1250080225 % 31 = 17, sinh viên sẽ chọn đề số 17 ở trên