Classify

Bước tiền xử lý chỉ cần dùng LabelEncoder

Các biến định tính đa giá trị (3 giá trị trở lên) phải dùng get_dummies() hoặc dùng OneHotEncoder

Các biến định lượng phải sử dụng scale (MinMaxScaler, MaxAbsScaler, StandardScaler)...

Mỗi nhóm chọn 1 thuật toán có accuracy cao nhất và thực hiện đầy đủ các bước sau

Số thứ tự	Dataset	y
0	bank-additional-full_hard.csv	y
1	bank-full_hard.csv	y
2	breast-cancer_hard.xls	diagnosis
3	creditcard_2023_median.csv	Class
4	diabetes_dataset_easy.csv	Diabetes_012
5	Employee_easy.csv	LeaveOrNot
6	healthcare_dataset_hard.csv	Test Results
7	heart_easy.xls	HeartDisease
8	loan_data_median.csv	loan_status
9	marketing_campaign_hard.xls	Response
10	mobile.zip	price_range
11	Obesity prediction_hard.csv	Obesity
12	placementdata very easy	PlacementStatus
13	schizophrenia_dataset_median.csv	Medication Adherence
14	Student_performance_data _median.csv	GradeClass
15	telecom_churn_hard.xls	churn
16	Titanic-Dataset.xls	Survived
17	weatherAUS_hard.csv	RainTomorrow
18	winequality_easy.csv	y
19	TravelInsurancePrediction.csv	TravelInsurance
20	cheese_data	FatLevel
21	user_behavior_dataset.csv	User Behavior Class
22	card_transdata	fraud
23	station_data_dataverse.csv	reportedZip
24	ev_charging_patterns.csv	User Type
25	Loanpaymentsdata.csv	loan_status
26	starstype.csv	Spectral Class
27	BreastCancerDataset.csv	diagnosis
28	bcancer.csv	diagnosis
29	adult_census.csv	Salary
30	bodyPerformance.csv	class

Lớp 12-CNTT1, 12-CNTT2 Chọn bài bằng cách dùng MSSV % 25

Ví dụ: 1250080227 % 25 = 2, sinh viên sẽ chọn đề số 2 ở trên

Lớp 12-CNTT3, 12-CNTT4, 12-CNTT5 Chọn bài bằng cách dùng MSSV % 31

Ví dụ: 1250080225 % 31 = 17, sinh viên sẽ chọn đề số 17 ở trên