AI

Classify

Nhóm 1: DecisionTreeClassify, RandomForestClassify, AdaBoostClassify, MultinomialNB

Bước tiền xử lý chỉ cần dùng LabelEncoder

Nhóm 2: KNeighborsClassifier, SVC, LogisticRegression, SGDClassifier, XGBoost, GaussianNB

Các biến định tính đa giá trị (3 giá trị trở lên) phải dùng get_dummies() hoặc dùng OneHotEncoder

Các biến định lượng phải sử dụng scale (MinMaxScaler, MaxAbsScaler, StandardScaler)...

Yêu cầu

Mỗi nhóm chọn 1 thuật toán có accuracy cao nhất và thực hiện đầy đủ các bước sau

B1. Tiền xử lý dữ liệu

  1. Đọc dữ liệu từ tập tin
  2. Kiểm tra dữ liệu null
  3. Xóa dữ liệu null nếu có (xóa trên dòng hoặc cột)
  4. Loại bỏ các cột dữ liệu ko dùng
  5. Chuyển các biến định tính
  6. Scale dữ liệu (nếu dùng thuật toán nhóm 2)

B2. Thống kê mô tả

  1. Thống kê số lượng quan sát trên biến quan sát (y)
  2. Trực quan histogram của các biến định tính

B3: Xây dựng mô hình

  1. Chia dữ liệu thành 2 tập train và test
  2. Chạy mô hình Classify

B4: Đánh giá mô hình

  1. Dự đoán mô hình
  2. Đánh giá mô hình với các chỉ số Accuracy, Precision, Recall, F1
  3. Trực quan hóa Confusion matrix
  4. Kết luận mô hình
Số thứ tự Dataset y
0bank-additional-full_hard.csvy
1bank-full_hard.csvy
2breast-cancer_hard.xlsdiagnosis
3creditcard_2023_median.csvClass
4diabetes_dataset_easy.csvDiabetes_012
5Employee_easy.csvLeaveOrNot
6healthcare_dataset_hard.csvTest Results
7heart_easy.xlsHeartDisease
8loan_data_median.csvloan_status
9marketing_campaign_hard.xlsResponse
10mobile.zipprice_range
11Obesity prediction_hard.csvObesity
12placementdata very easyPlacementStatus
13schizophrenia_dataset_median.csvMedication Adherence
14Student_performance_data _median.csvGradeClass
15telecom_churn_hard.xlschurn
16Titanic-Dataset.xlsSurvived
17weatherAUS_hard.csvRainTomorrow
18winequality_easy.csvy
19TravelInsurancePrediction.csvTravelInsurance
20cheese_dataFatLevel
21user_behavior_dataset.csvUser Behavior Class
22card_transdatafraud
23station_data_dataverse.csvreportedZip
24ev_charging_patterns.csvUser Type
25Loanpaymentsdata.csvloan_status
26starstype.csvSpectral Class
27BreastCancerDataset.csvdiagnosis
28bcancer.csvdiagnosis
29adult_census.csvSalary
30bodyPerformance.csvclass

Yêu cầu:

Lớp 12-CNTT1, 12-CNTT2 Chọn bài bằng cách dùng MSSV % 25

Ví dụ: 1250080227 % 25 = 2, sinh viên sẽ chọn đề số 2 ở trên

Lớp 12-CNTT3, 12-CNTT4, 12-CNTT5 Chọn bài bằng cách dùng MSSV % 31

Ví dụ: 1250080225 % 31 = 17, sinh viên sẽ chọn đề số 17 ở trên