Bộ đề 1

Câu 1

Trong ngữ cảnh của khai phá dữ liệu, thuật ngữ 'outlier' (giá trị ngoại lệ) đề cập đến điều gì?

Câu 2

Mục tiêu chính của việc sử dụng các kỹ thuật khai phá dữ liệu trong lĩnh vực marketing là gì?

Câu 3

Khi nào thì việc sử dụng 'PCA (Principal Component Analysis)' trở nên hữu ích trong khai phá dữ liệu?

Câu 4

Trong khai phá dữ liệu, 'recall' (độ phủ) là gì và nó quan trọng trong trường hợp nào?

Câu 5

Trong khai phá dữ liệu, thuật toán nào thường được sử dụng để phân loại dữ liệu dựa trên một tập hợp các luật được xây dựng từ dữ liệu huấn luyện?

Câu 6

Trong khai phá dữ liệu, phương pháp nào thường được sử dụng để giảm số lượng chiều dữ liệu, giúp đơn giản hóa mô hình và giảm overfitting?

Câu 7

Khi nào thì việc sử dụng phương pháp 'làm sạch dữ liệu' (data cleaning) trở nên đặc biệt quan trọng trong quá trình khai phá dữ liệu?

Câu 8

Trong khai phá dữ liệu, 'cross-selling' (bán chéo) là gì và nó được thực hiện như thế nào?

Câu 9

Trong các thuật toán phân cụm, thuật toán nào yêu cầu xác định trước số lượng cụm (k) cần tìm?

Câu 10

Trong các phương pháp đánh giá mô hình khai phá dữ liệu, phương pháp nào chia dữ liệu thành tập huấn luyện và tập kiểm tra để đánh giá khả năng tổng quát hóa của mô hình?

Câu 11

Trong khai phá dữ liệu, 'overfitting' xảy ra khi nào?

Câu 12

Khi nào thì việc sử dụng 'support vector machine (SVM)' trở nên phù hợp trong khai phá dữ liệu?

Câu 13

Trong khai phá dữ liệu, thuật ngữ 'precision' (độ chính xác) là gì và nó quan trọng trong trường hợp nào?

Câu 14

Trong khai phá dữ liệu, thuật ngữ 'bias' (độ lệch) trong mô hình học máy đề cập đến điều gì?

Câu 15

Phương pháp nào sau đây giúp giảm thiểu tác động của các giá trị ngoại lệ (outliers) trong quá trình xây dựng mô hình khai phá dữ liệu?

Câu 16

Thuật ngữ nào mô tả quá trình chuyển đổi dữ liệu thô sang định dạng phù hợp hơn cho việc phân tích, bao gồm làm sạch, chuyển đổi và tích hợp dữ liệu?

Câu 17

Phương pháp nào sau đây được sử dụng để đánh giá hiệu suất của một mô hình phân loại?

Câu 18

Trong khai phá dữ liệu, kỹ thuật 'clustering' (phân cụm) được sử dụng để làm gì?

Câu 19

Một siêu thị muốn tối ưu hóa việc sắp xếp hàng hóa trên kệ để tăng doanh số bán hàng. Kỹ thuật khai phá dữ liệu nào có thể giúp họ đạt được mục tiêu này?

Câu 20

Một công ty muốn dự đoán khả năng khách hàng rời bỏ (churn) dịch vụ của họ. Kỹ thuật khai phá dữ liệu nào phù hợp nhất để giải quyết vấn đề này?

Câu 21

Đâu là một thách thức lớn khi làm việc với dữ liệu lớn (Big Data) trong khai phá dữ liệu?

Câu 22

Trong khai phá dữ liệu, thuật ngữ 'feature engineering' (kỹ thuật đặc trưng) đề cập đến điều gì?

Câu 23

Khi nào thì việc sử dụng 'random forest' (rừng ngẫu nhiên) trở nên phù hợp trong khai phá dữ liệu?

Câu 24

Trong khai phá dữ liệu, thuật ngữ 'F1-score' là gì và nó được tính như thế nào?

Câu 25

Một công ty muốn phân tích ý kiến của khách hàng về sản phẩm của họ từ các bình luận trên mạng xã hội. Kỹ thuật khai phá dữ liệu nào phù hợp nhất để giải quyết vấn đề này?

Câu 26

Phương pháp nào trong khai phá dữ liệu được sử dụng để tìm ra các mối quan hệ hoặc quy luật phổ biến giữa các mục dữ liệu trong một tập dữ liệu lớn, ví dụ như phân tích giỏ hàng?

Câu 27

Trong khai phá dữ liệu, thuật ngữ 'ensemble learning' (học tập kết hợp) đề cập đến điều gì?

Câu 28

Kỹ thuật nào sau đây thường được sử dụng để xử lý dữ liệu bị thiếu trong quá trình tiền xử lý dữ liệu?

Câu 29

Trong khai phá dữ liệu, 'regularization' (chính quy hóa) là gì và nó được sử dụng để làm gì?

Câu 30

Trong phân tích luật kết hợp, độ đo 'support' (hỗ trợ) của một luật cho biết điều gì?