1. Khi nào nên sử dụng kiểm định Chi-bình phương?
A. Khi so sánh trung bình của hai nhóm.
B. Khi phân tích mối quan hệ giữa hai biến định lượng.
C. Khi phân tích mối quan hệ giữa hai biến định tính.
D. Khi dự đoán giá trị của một biến dựa trên biến khác.
2. Giá trị p (p-value) trong kiểm định giả thuyết thống kê thể hiện điều gì?
A. Xác suất giả thuyết không (null hypothesis) là đúng.
B. Xác suất mắc lỗi loại I.
C. Xác suất quan sát được kết quả như kết quả đã có (hoặc cực đoan hơn) nếu giả thuyết không là đúng.
D. Mức ý nghĩa thống kê được chọn trước (ví dụ: 0.05).
3. Khi nào nên sử dụng kiểm định Wilcoxon signed-rank?
A. Khi so sánh trung bình của hai nhóm độc lập.
B. Khi so sánh trung bình của hai nhóm liên quan mà dữ liệu không tuân theo phân phối chuẩn.
C. Khi so sánh trung bình của ba hoặc nhiều nhóm độc lập.
D. Khi phân tích mối quan hệ giữa hai biến định tính.
4. Một nhà nghiên cứu muốn kiểm tra xem liệu có sự khác biệt đáng kể về điểm trung bình của sinh viên giữa hai trường đại học hay không. Giả sử dữ liệu tuân theo phân phối chuẩn. Phương pháp thống kê nào phù hợp nhất để sử dụng?
A. Kiểm định Mann-Whitney U.
B. Kiểm định t độc lập.
C. Kiểm định Chi-bình phương.
D. Phân tích phương sai (ANOVA).
5. Phương pháp nào sau đây thường được sử dụng để đánh giá độ tin cậy của thang đo trong nghiên cứu định lượng?
A. Kiểm định t.
B. Hệ số Cronbach’s Alpha.
C. Phân tích phương sai (ANOVA).
D. Hồi quy tuyến tính.
6. Một nhà quản lý muốn xác định xem có mối quan hệ giữa giới tính (nam/nữ) và mức độ hài lòng của nhân viên (cao/thấp) hay không. Phương pháp thống kê nào phù hợp nhất để sử dụng?
A. Kiểm định t độc lập.
B. Hồi quy tuyến tính.
C. Phân tích phương sai (ANOVA).
D. Kiểm định Chi-bình phương.
7. Phương pháp nào sau đây giúp giảm thiểu ảnh hưởng của các giá trị ngoại lệ (outliers) trong phân tích thống kê?
A. Sử dụng trung bình (mean) thay vì trung vị (median).
B. Sử dụng độ lệch chuẩn (standard deviation) thay vì khoảng tứ phân vị (interquartile range).
C. Sử dụng trung vị (median) thay vì trung bình (mean).
D. Sử dụng phương sai (variance) thay vì độ lệch chuẩn (standard deviation).
8. Trong một nghiên cứu, người ta phát hiện ra rằng hệ số tương quan Pearson giữa chiều cao và cân nặng là 0.8. Điều này có nghĩa là gì?
A. Không có mối quan hệ giữa chiều cao và cân nặng.
B. Có một mối quan hệ tuyến tính mạnh mẽ và dương giữa chiều cao và cân nặng.
C. Có một mối quan hệ tuyến tính mạnh mẽ và âm giữa chiều cao và cân nặng.
D. Chiều cao gây ra cân nặng.
9. Khoảng tin cậy (confidence interval) là gì?
A. Một giá trị duy nhất ước tính cho tham số tổng thể.
B. Một khoảng giá trị mà trong đó tham số tổng thể có khả năng nằm trong đó với một độ tin cậy nhất định.
C. Xác suất tham số tổng thể nằm trong một khoảng giá trị nhất định.
D. Độ lệch chuẩn của mẫu.
10. Khi nào thì nên sử dụng hồi quy logistic thay vì hồi quy tuyến tính?
A. Khi biến phụ thuộc là biến định lượng liên tục.
B. Khi biến độc lập là biến định tính.
C. Khi biến phụ thuộc là biến định tính (categorical).
D. Khi không có mối quan hệ tuyến tính giữa các biến.
11. Trong thống kê, ‘phân phối chuẩn’ (normal distribution) có đặc điểm gì?
A. Dữ liệu phân bố đều trên tất cả các giá trị.
B. Dữ liệu tập trung nhiều ở hai đầu và ít ở giữa.
C. Dữ liệu tập trung nhiều ở giữa và giảm dần về hai phía, tạo thành hình chuông đối xứng.
D. Dữ liệu chỉ có hai giá trị có thể xảy ra.
12. Trong phân tích hồi quy, hệ số R bình phương (R-squared) cho biết điều gì?
A. Mức độ quan hệ tuyến tính giữa các biến độc lập.
B. Tỷ lệ phương sai của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình.
C. Mức độ ý nghĩa thống kê của mô hình.
D. Sai số chuẩn của các hệ số hồi quy.
13. Trong phân tích hồi quy đa biến, hiện tượng đa cộng tuyến (multicollinearity) đề cập đến vấn đề gì?
A. Mối quan hệ tuyến tính giữa biến phụ thuộc và biến độc lập.
B. Mối quan hệ tuyến tính mạnh mẽ giữa các biến độc lập.
C. Sự phân tán của dữ liệu xung quanh đường hồi quy.
D. Sự thiếu dữ liệu trong tập dữ liệu.
14. Sai số loại II (Type II error) xảy ra khi nào?
A. Khi bác bỏ giả thuyết không (null hypothesis) khi nó thực sự đúng.
B. Khi chấp nhận giả thuyết không (null hypothesis) khi nó thực sự sai.
C. Khi sử dụng sai kiểm định thống kê.
D. Khi dữ liệu bị thiếu.
15. Hệ số tương quan Pearson đo lường điều gì?
A. Sự khác biệt giữa trung bình của hai biến.
B. Mức độ quan hệ tuyến tính giữa hai biến định lượng.
C. Mối quan hệ nhân quả giữa hai biến.
D. Sự khác biệt giữa phương sai của hai biến.
16. Khi nào nên sử dụng kiểm định Mann-Whitney U?
A. Khi so sánh trung bình của hai nhóm liên quan.
B. Khi so sánh trung bình của hai nhóm độc lập mà dữ liệu không tuân theo phân phối chuẩn.
C. Khi phân tích phương sai giữa nhiều nhóm.
D. Khi kiểm tra mối quan hệ giữa hai biến định tính.
17. Sai số loại I (Type I error) xảy ra khi nào?
A. Khi chấp nhận giả thuyết không (null hypothesis) khi nó thực sự sai.
B. Khi bác bỏ giả thuyết không (null hypothesis) khi nó thực sự đúng.
C. Khi không tìm thấy sự khác biệt có ý nghĩa giữa các nhóm.
D. Khi kết luận sai về mối quan hệ nhân quả.
18. Khi nào nên sử dụng kiểm định phi tham số (non-parametric test) thay vì kiểm định tham số (parametric test)?
A. Khi dữ liệu tuân theo phân phối chuẩn.
B. Khi kích thước mẫu lớn.
C. Khi dữ liệu không tuân theo phân phối chuẩn hoặc kích thước mẫu nhỏ.
D. Khi cần tính toán khoảng tin cậy.
19. Trong phân tích dữ liệu, ‘mode’ (mốt) là gì?
A. Giá trị trung bình của tập dữ liệu.
B. Giá trị xuất hiện nhiều nhất trong tập dữ liệu.
C. Giá trị nằm chính giữa tập dữ liệu khi đã sắp xếp.
D. Tổng của tất cả các giá trị chia cho số lượng giá trị.
20. Một nhà nghiên cứu muốn so sánh hiệu quả của ba phương pháp giảng dạy khác nhau đối với kết quả học tập của sinh viên. Phương pháp thống kê nào phù hợp nhất để sử dụng?
A. Kiểm định t độc lập.
B. Phân tích phương sai (ANOVA).
C. Hồi quy tuyến tính.
D. Kiểm định Chi-bình phương.
21. Trong thống kê, ‘mẫu’ (sample) là gì?
A. Toàn bộ tập hợp các đối tượng quan tâm.
B. Một tập hợp con của tổng thể được chọn để nghiên cứu.
C. Một giá trị đơn lẻ đại diện cho tổng thể.
D. Một biểu đồ hiển thị phân phối của dữ liệu.
22. Trong hồi quy tuyến tính, hệ số chặn (intercept) đại diện cho điều gì?
A. Giá trị trung bình của biến độc lập.
B. Giá trị của biến phụ thuộc khi tất cả các biến độc lập bằng 0.
C. Độ dốc của đường hồi quy.
D. Mức độ ảnh hưởng của biến độc lập quan trọng nhất.
23. Một công ty muốn dự đoán doanh số bán hàng dựa trên chi phí quảng cáo. Phương pháp thống kê nào phù hợp nhất để sử dụng?
A. Kiểm định t.
B. Phân tích phương sai (ANOVA).
C. Hồi quy tuyến tính.
D. Kiểm định Chi-bình phương.
24. Trong phân tích thống kê, ‘phương sai’ (variance) đo lường điều gì?
A. Giá trị trung bình của tập dữ liệu.
B. Mức độ phân tán của dữ liệu so với giá trị trung bình, được tính bằng bình phương độ lệch chuẩn.
C. Giá trị lớn nhất trừ giá trị nhỏ nhất trong tập dữ liệu.
D. Số lượng giá trị trong tập dữ liệu.
25. Một công ty muốn phân tích xem có bao nhiêu phần trăm khách hàng hài lòng với sản phẩm của họ (hài lòng/không hài lòng). Phương pháp thống kê mô tả nào phù hợp nhất để sử dụng?
A. Tính trung bình (mean).
B. Tính độ lệch chuẩn (standard deviation).
C. Tính tỷ lệ phần trăm (percentage).
D. Tính trung vị (median).
26. Độ lệch chuẩn (standard deviation) đo lường điều gì?
A. Giá trị trung bình của một tập dữ liệu.
B. Mức độ phân tán của dữ liệu so với giá trị trung bình.
C. Giá trị lớn nhất trong tập dữ liệu.
D. Tổng của tất cả các giá trị trong tập dữ liệu.
27. Trong thống kê mô tả, ‘tứ phân vị’ (quartile) được sử dụng để làm gì?
A. Tính giá trị trung bình của dữ liệu.
B. Chia dữ liệu thành bốn phần bằng nhau.
C. Đo lường mức độ phân tán của dữ liệu so với trung bình.
D. Xác định giá trị lớn nhất và nhỏ nhất trong dữ liệu.
28. Trong phân tích phương sai (ANOVA), yếu tố nào sau đây được kiểm tra?
A. Sự khác biệt giữa các phương sai của các nhóm.
B. Sự khác biệt giữa các trung bình của các nhóm.
C. Mối quan hệ giữa các biến định lượng.
D. Mối quan hệ giữa các biến định tính.
29. Phương pháp nào sau đây được sử dụng để kiểm tra sự khác biệt giữa trung bình của hai nhóm độc lập?
A. Kiểm định ANOVA.
B. Kiểm định t độc lập.
C. Kiểm định Chi-bình phương.
D. Hệ số tương quan Pearson.
30. Khi nào nên sử dụng kiểm định Kruskal-Wallis?
A. Khi so sánh trung bình của hai nhóm độc lập.
B. Khi so sánh trung bình của ba hoặc nhiều nhóm độc lập mà dữ liệu không tuân theo phân phối chuẩn.
C. Khi phân tích mối quan hệ giữa hai biến định tính.
D. Khi kiểm tra sự khác biệt giữa các phương sai.
31. Khi nào thì nên sử dụng kiểm định Mann-Whitney U?
A. Để so sánh trung bình của hai nhóm độc lập khi dữ liệu tuân theo phân phối chuẩn.
B. Để so sánh trung bình của hai nhóm độc lập khi dữ liệu không tuân theo phân phối chuẩn.
C. Để so sánh trung bình của ba nhóm trở lên.
D. Để kiểm tra mối quan hệ giữa hai biến định tính.
32. Trong thống kê, ‘p-value’ dùng để làm gì?
A. Ước lượng giá trị trung bình của quần thể.
B. Đo lường độ mạnh của mối quan hệ giữa các biến.
C. Đánh giá xác suất để bác bỏ giả thuyết null.
D. Xác định kích thước mẫu cần thiết cho một nghiên cứu.
33. Trong phân tích dữ liệu, ‘phương sai’ (variance) đo lường điều gì?
A. Mức độ tập trung của dữ liệu xung quanh giá trị trung bình.
B. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình.
C. Giá trị trung bình của tập dữ liệu.
D. Số lượng quan sát trong tập dữ liệu.
34. Giả thuyết null (null hypothesis) thường phát biểu điều gì?
A. Có một mối quan hệ đáng kể giữa các biến.
B. Không có mối quan hệ giữa các biến.
C. Biến độc lập có ảnh hưởng lớn đến biến phụ thuộc.
D. Kết quả nghiên cứu là đúng.
35. Phương pháp nào sau đây giúp giảm thiểu ảnh hưởng của các giá trị ngoại lệ (outliers) trong phân tích dữ liệu?
A. Tính giá trị trung bình.
B. Tính độ lệch chuẩn.
C. Sử dụng trung vị (median).
D. Sử dụng phương sai.
36. Trong thống kê, ‘mode’ là gì?
A. Giá trị trung bình của tập dữ liệu.
B. Giá trị xuất hiện nhiều nhất trong tập dữ liệu.
C. Giá trị nằm giữa của tập dữ liệu.
D. Độ lệch chuẩn của tập dữ liệu.
37. Một nhà phân tích muốn xác định xem có mối liên hệ giữa việc sử dụng mạng xã hội và điểm trung bình (GPA) của sinh viên hay không. Kiểm định nào phù hợp nhất?
A. Kiểm định t (t-test).
B. Phân tích phương sai (ANOVA).
C. Hồi quy tuyến tính.
D. Kiểm định tương quan (correlation test).
38. Phương pháp nào sau đây được sử dụng để kiểm tra sự khác biệt giữa trung bình của hai nhóm độc lập?
A. Phân tích phương sai (ANOVA).
B. Kiểm định t (t-test).
C. Hồi quy tuyến tính.
D. Kiểm định Chi bình phương.
39. Trong kiểm định giả thuyết, mức ý nghĩa (significance level) thường được ký hiệu là alpha (α) và đại diện cho điều gì?
A. Xác suất mắc sai số loại II.
B. Xác suất chấp nhận giả thuyết null khi nó đúng.
C. Xác suất bác bỏ giả thuyết null khi nó đúng (sai số loại I).
D. Xác suất chấp nhận giả thuyết null khi nó sai.
40. Mục tiêu chính của việc lấy mẫu ngẫu nhiên (random sampling) là gì?
A. Đảm bảo mẫu có kích thước đủ lớn.
B. Đảm bảo mẫu đại diện cho quần thể.
C. Giảm chi phí thu thập dữ liệu.
D. Thu thập dữ liệu từ những người dễ tiếp cận nhất.
41. Một nhà quản lý muốn dự báo doanh số bán hàng trong quý tới dựa trên dữ liệu doanh số của các quý trước. Phương pháp nào sau đây là phù hợp nhất?
A. Phân tích hồi quy tuyến tính.
B. Phân tích phương sai (ANOVA).
C. Phân tích chuỗi thời gian.
D. Kiểm định Chi bình phương.
42. Chọn khẳng định đúng về phân phối chuẩn?
A. Phân phối chuẩn luôn đối xứng và có giá trị trung bình bằng 0.
B. Phân phối chuẩn luôn lệch phải.
C. Phân phối chuẩn luôn lệch trái.
D. Phân phối chuẩn đối xứng và có giá trị trung bình, trung vị và mode bằng nhau.
43. Một công ty muốn khảo sát mức độ hài lòng của khách hàng về sản phẩm mới. Phương pháp thu thập dữ liệu nào phù hợp nhất?
A. Thực hiện thí nghiệm.
B. Phỏng vấn sâu.
C. Gửi bảng câu hỏi khảo sát.
D. Quan sát hành vi khách hàng.
44. Trong thống kê suy diễn, khoảng tin cậy (confidence interval) được sử dụng để làm gì?
A. Ước lượng một giá trị duy nhất cho tham số của quần thể.
B. Ước lượng một khoảng giá trị mà tham số của quần thể có khả năng nằm trong đó.
C. Kiểm tra giả thuyết về tham số của quần thể.
D. Đo lường mức độ tin cậy của dữ liệu mẫu.
45. Độ lệch chuẩn (standard deviation) đo lường điều gì?
A. Mức độ tập trung của dữ liệu xung quanh giá trị trung bình.
B. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình.
C. Giá trị trung bình của một tập dữ liệu.
D. Số lượng quan sát trong một tập dữ liệu.
46. Sai số loại II (Type II error) xảy ra khi nào?
A. Bác bỏ giả thuyết null khi nó thực sự đúng.
B. Chấp nhận giả thuyết null khi nó thực sự sai.
C. Chọn một kiểm định thống kê không phù hợp.
D. Tính toán sai giá trị p-value.
47. Một nhà nghiên cứu muốn so sánh hiệu quả của ba phương pháp giảng dạy khác nhau. Kiểm định thống kê nào phù hợp nhất để sử dụng?
A. Kiểm định t (t-test).
B. Hồi quy tuyến tính.
C. Phân tích phương sai (ANOVA).
D. Kiểm định Chi bình phương.
48. Trong một nghiên cứu về mối quan hệ giữa tuổi và thu nhập, nhà nghiên cứu tìm thấy hệ số tương quan là 0.7. Điều này có nghĩa là gì?
A. Không có mối quan hệ giữa tuổi và thu nhập.
B. Tuổi và thu nhập có mối quan hệ nghịch biến mạnh.
C. Tuổi và thu nhập có mối quan hệ thuận biến mạnh.
D. Tuổi gây ra thu nhập.
49. Khi nào thì nên sử dụng biểu đồ hộp (boxplot)?
A. Khi muốn so sánh phân phối của nhiều tập dữ liệu.
B. Khi muốn thể hiện xu hướng của dữ liệu theo thời gian.
C. Khi muốn thể hiện mối quan hệ giữa hai biến.
D. Khi muốn thể hiện tần suất của các giá trị trong một tập dữ liệu.
50. Trong thống kê mô tả, đại lượng nào đo lường sự tập trung của dữ liệu xung quanh giá trị trung tâm?
A. Phương sai.
B. Độ lệch chuẩn.
C. Khoảng biến thiên.
D. Trung vị.
51. Kiểm định Chi bình phương (Chi-square test) thường được sử dụng để làm gì?
A. So sánh trung bình của hai nhóm.
B. So sánh phương sai của hai nhóm.
C. Kiểm tra mối quan hệ giữa hai biến định tính.
D. Dự đoán giá trị của một biến dựa trên giá trị của biến khác.
52. Trong phân tích hồi quy đa biến, hiện tượng đa cộng tuyến (multicollinearity) đề cập đến vấn đề gì?
A. Mối quan hệ tuyến tính mạnh giữa các biến độc lập.
B. Mối quan hệ phi tuyến tính giữa các biến độc lập.
C. Sự thiếu tương quan giữa các biến độc lập.
D. Sự tương quan mạnh giữa biến độc lập và biến phụ thuộc.
53. Trong thiết kế thử nghiệm, việc ‘kiểm soát’ các biến ngoại sinh (extraneous variables) có vai trò gì?
A. Tăng kích thước mẫu.
B. Đảm bảo tính ngẫu nhiên của mẫu.
C. Giảm thiểu ảnh hưởng của các biến không mong muốn đến kết quả.
D. Tăng tính đại diện của mẫu.
54. Sai số loại I (Type I error) xảy ra khi nào?
A. Bác bỏ giả thuyết null khi nó thực sự đúng.
B. Chấp nhận giả thuyết null khi nó thực sự sai.
C. Chọn một kiểm định thống kê không phù hợp.
D. Tính toán sai giá trị p-value.
55. Trong phân tích chuỗi thời gian, thành phần nào biểu diễn xu hướng dài hạn của dữ liệu?
A. Tính mùa vụ (seasonality).
B. Chu kỳ (cyclical).
C. Xu hướng (trend).
D. Ngẫu nhiên (random).
56. Trong hồi quy tuyến tính, hệ số chặn (intercept) biểu diễn điều gì?
A. Giá trị của biến độc lập khi biến phụ thuộc bằng 0.
B. Độ dốc của đường hồi quy.
C. Giá trị dự đoán của biến phụ thuộc khi tất cả các biến độc lập bằng 0.
D. Mức độ phù hợp của mô hình hồi quy với dữ liệu.
57. Hệ số tương quan (correlation coefficient) có giá trị nằm trong khoảng nào?
A. Từ 0 đến 1.
B. Từ -1 đến 0.
C. Từ -1 đến 1.
D. Từ 0 đến vô cực.
58. Phân tích phương sai (ANOVA) được sử dụng để làm gì?
A. Kiểm tra sự khác biệt giữa trung bình của hai nhóm.
B. Kiểm tra sự khác biệt giữa trung bình của ba nhóm trở lên.
C. Đo lường mối quan hệ giữa hai biến liên tục.
D. Dự đoán giá trị của một biến dựa trên giá trị của biến khác.
59. Trong phân tích hồi quy, R-squared (R bình phương) đo lường điều gì?
A. Mức độ ý nghĩa thống kê của các biến độc lập.
B. Phần trăm phương sai của biến phụ thuộc được giải thích bởi các biến độc lập.
C. Độ lớn của hệ số hồi quy.
D. Mức độ tương quan giữa các biến độc lập.
60. Khi nào nên sử dụng kiểm định phi tham số (non-parametric test) thay vì kiểm định tham số (parametric test)?
A. Khi kích thước mẫu lớn.
B. Khi dữ liệu tuân theo phân phối chuẩn.
C. Khi dữ liệu không tuân theo phân phối chuẩn hoặc kích thước mẫu nhỏ.
D. Khi muốn ước lượng các tham số của quần thể.
61. Trong kiểm định giả thuyết, lỗi loại II (Type II error) xảy ra khi nào?
A. Bác bỏ giả thuyết H0 khi nó đúng.
B. Chấp nhận giả thuyết H0 khi nó đúng.
C. Bác bỏ giả thuyết H0 khi nó sai.
D. Chấp nhận giả thuyết H0 khi nó sai.
62. Trong phân tích chuỗi thời gian (time series analysis), thành phần nào sau đây thể hiện sự biến động ngắn hạn và không đều đặn trong dữ liệu?
A. Xu hướng (trend).
B. Tính mùa vụ (seasonality).
C. Chu kỳ (cycle).
D. Tính ngẫu nhiên (irregularity).
63. Trong thống kê mô tả, đại lượng nào sau đây đo lường mức độ phân tán của dữ liệu so với giá trị trung bình?
A. Trung vị.
B. Độ lệch chuẩn.
C. Mốt.
D. Tần số.
64. Trong thống kê, phương pháp nào sau đây được sử dụng để giảm chiều dữ liệu (dimensionality reduction) trong khi vẫn giữ lại phần lớn thông tin quan trọng?
A. Hồi quy tuyến tính.
B. Phân tích phương sai (ANOVA).
C. Phân tích thành phần chính (Principal Component Analysis – PCA).
D. Kiểm định Chi-bình phương.
65. Trong thống kê, khái niệm nào sau đây mô tả khả năng một kiểm định thống kê phát hiện ra một hiệu ứng thực sự (nếu nó tồn tại)?
A. Mức ý nghĩa (significance level).
B. Độ mạnh của kiểm định (statistical power).
C. Giá trị p (p-value).
D. Khoảng tin cậy (confidence interval).
66. Trong phân tích chuỗi thời gian, phương pháp nào sau đây được sử dụng để làm trơn (smooth) dữ liệu và loại bỏ các biến động ngẫu nhiên?
A. Hồi quy tuyến tính.
B. Trung bình động (moving average).
C. Phân tích tương quan.
D. Kiểm định Chi-bình phương.
67. Trong thiết kế thử nghiệm, phương pháp nào giúp giảm thiểu ảnh hưởng của các yếu tố gây nhiễu (confounding variables) đến kết quả?
A. Chọn mẫu ngẫu nhiên.
B. Phân nhóm ngẫu nhiên (random assignment).
C. Tăng kích thước mẫu.
D. Sử dụng kiểm định thống kê mạnh hơn.
68. Khi nào thì việc sử dụng hồi quy tuyến tính đa biến (multiple linear regression) phù hợp hơn so với hồi quy tuyến tính đơn biến (simple linear regression)?
A. Khi chỉ có một biến độc lập.
B. Khi muốn dự đoán một biến phụ thuộc dựa trên nhiều biến độc lập.
C. Khi mối quan hệ giữa các biến không tuyến tính.
D. Khi các biến độc lập có tương quan cao với nhau.
69. Phương pháp nào sau đây thường được sử dụng để kiểm tra tính độc lập giữa hai biến định tính?
A. Kiểm định t.
B. Kiểm định z.
C. Kiểm định Chi-bình phương (Chi-square).
D. Phân tích phương sai (ANOVA).
70. Trong phân tích dữ liệu, khi nào thì việc sử dụng trung vị (median) thích hợp hơn so với trung bình (mean) để đo lường xu hướng trung tâm?
A. Khi dữ liệu có phân phối chuẩn.
B. Khi dữ liệu có giá trị ngoại lệ (outliers).
C. Khi muốn tính toán nhanh chóng.
D. Khi dữ liệu có kích thước mẫu lớn.
71. Khi thực hiện phân tích hồi quy, điều gì xảy ra nếu có hiện tượng đa cộng tuyến (multicollinearity) giữa các biến độc lập?
A. Các hệ số hồi quy trở nên ổn định hơn.
B. Phương sai của các hệ số hồi quy tăng lên.
C. Giá trị R-squared giảm xuống.
D. Mô hình trở nên dễ diễn giải hơn.
72. Trong kiểm định phi tham số (non-parametric tests), kiểm định nào sau đây tương ứng với kiểm định t (t-test) cho hai mẫu độc lập?
A. Kiểm định Wilcoxon signed-rank.
B. Kiểm định Kruskal-Wallis.
C. Kiểm định Mann-Whitney U.
D. Kiểm định Friedman.
73. Giả sử bạn muốn ước tính tỷ lệ cử tri ủng hộ một ứng cử viên trong cuộc bầu cử sắp tới. Bạn nên sử dụng phương pháp thống kê nào?
A. Phân tích hồi quy.
B. Kiểm định t.
C. Khoảng tin cậy cho tỷ lệ.
D. Phân tích phương sai (ANOVA).
74. Trong phân tích phương sai (ANOVA), đại lượng nào sau đây đo lường sự biến động giữa các nhóm (between-group variability)?
A. Tổng bình phương sai số (Sum of Squared Errors – SSE).
B. Tổng bình phương giữa các nhóm (Sum of Squares Between – SSB).
C. Tổng bình phương toàn phần (Total Sum of Squares – TSS).
D. Độ lệch chuẩn.
75. Trong phân tích phương sai (ANOVA), yếu tố nào sau đây được sử dụng để so sánh sự khác biệt giữa các nhóm?
A. Độ lệch chuẩn.
B. Phương sai.
C. Trung vị.
D. Khoảng tứ phân vị.
76. Trong phân tích dữ liệu, khi nào thì việc sử dụng kiểm định Kruskal-Wallis thích hợp?
A. Khi so sánh hai mẫu độc lập.
B. Khi so sánh ba hoặc nhiều mẫu độc lập.
C. Khi so sánh hai mẫu liên quan.
D. Khi muốn kiểm tra tính độc lập giữa hai biến định tính.
77. Trong thống kê suy luận, khoảng tin cậy (confidence interval) là gì?
A. Một giá trị duy nhất ước tính cho tham số của quần thể.
B. Một khoảng giá trị mà trong đó tham số của quần thể có khả năng nằm trong đó với một độ tin cậy nhất định.
C. Xác suất mà giả thuyết H0 là đúng.
D. Độ lệch chuẩn của mẫu.
78. Trong phân tích rủi ro, độ lệch chuẩn được sử dụng để đo lường điều gì?
A. Giá trị kỳ vọng của lợi nhuận.
B. Mức độ biến động hoặc không chắc chắn của lợi nhuận.
C. Xác suất xảy ra sự kiện rủi ro.
D. Mức độ nghiêm trọng của hậu quả rủi ro.
79. Khi nào nên sử dụng kiểm định t (t-test) thay vì kiểm định z (z-test) để so sánh trung bình của hai mẫu?
A. Khi kích thước mẫu lớn (n > 30).
B. Khi phương sai của quần thể đã biết.
C. Khi kích thước mẫu nhỏ (n < 30) và phương sai của quần thể chưa biết.
D. Khi các mẫu độc lập với nhau.
80. Hệ số tương quan Pearson đo lường điều gì?
A. Mức độ biến động của dữ liệu.
B. Mối quan hệ tuyến tính giữa hai biến định lượng.
C. Sự khác biệt giữa trung bình của hai nhóm.
D. Mức độ phù hợp của mô hình hồi quy.
81. Trong thống kê, phương pháp nào sau đây được sử dụng để phân tích mối quan hệ giữa một biến định lượng và một hoặc nhiều biến định tính?
A. Hồi quy tuyến tính.
B. Phân tích phương sai (ANOVA).
C. Kiểm định Chi-bình phương.
D. Phân tích tương quan.
82. Phương pháp nào sau đây được sử dụng để xác định xem một tập dữ liệu có tuân theo phân phối chuẩn hay không?
A. Kiểm định t.
B. Kiểm định Chi-bình phương.
C. Kiểm định Shapiro-Wilk.
D. Phân tích phương sai (ANOVA).
83. Trong phân tích hồi quy, điều gì xảy ra nếu các sai số (errors) không có phương sai không đổi (heteroscedasticity)?
A. Các ước lượng hệ số hồi quy trở nên không chệch.
B. Các kiểm định thống kê trở nên không tin cậy.
C. Giá trị R-squared tăng lên.
D. Mô hình trở nên dễ diễn giải hơn.
84. Khi nào nên sử dụng phân tích tương quan hạng Spearman (Spearman’s rank correlation) thay vì tương quan Pearson?
A. Khi dữ liệu tuân theo phân phối chuẩn.
B. Khi muốn đo lường mối quan hệ tuyến tính.
C. Khi dữ liệu không tuân theo phân phối chuẩn hoặc có thứ bậc.
D. Khi các biến có đơn vị đo khác nhau.
85. Trong kiểm định giả thuyết, mức ý nghĩa (significance level) thường được ký hiệu là α, thể hiện điều gì?
A. Xác suất mắc lỗi loại II.
B. Xác suất bác bỏ giả thuyết H0 khi nó đúng.
C. Xác suất chấp nhận giả thuyết H0 khi nó sai.
D. Xác suất chấp nhận giả thuyết H0 khi nó đúng.
86. Trong phân tích hồi quy, hệ số R-squared (R²) thể hiện điều gì?
A. Độ mạnh của mối quan hệ giữa các biến độc lập.
B. Tỷ lệ phương sai của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình.
C. Mức ý nghĩa thống kê của mô hình.
D. Sai số chuẩn của các hệ số hồi quy.
87. Trong kiểm định giả thuyết, khi nào chúng ta bác bỏ giả thuyết H0?
A. Khi giá trị p lớn hơn mức ý nghĩa α.
B. Khi giá trị p nhỏ hơn hoặc bằng mức ý nghĩa α.
C. Khi giá trị thống kê kiểm định nằm trong vùng chấp nhận.
D. Khi kích thước mẫu nhỏ.
88. Chọn câu phát biểu đúng về ý nghĩa của giá trị p (p-value) trong kiểm định giả thuyết.
A. Giá trị p là xác suất giả thuyết H0 là đúng.
B. Giá trị p là xác suất mắc lỗi loại I.
C. Giá trị p là xác suất thu được kết quả (hoặc kết quả cực đoan hơn) nếu giả thuyết H0 là đúng.
D. Giá trị p là xác suất mắc lỗi loại II.
89. Trong phân tích hồi quy logistic, biến phụ thuộc là loại biến gì?
A. Biến định lượng liên tục.
B. Biến định tính.
C. Biến thứ bậc.
D. Biến đếm.
90. Đâu là điều kiện tiên quyết quan trọng nhất để có thể áp dụng định lý giới hạn trung tâm (Central Limit Theorem)?
A. Tổng thể phải có phân phối chuẩn.
B. Kích thước mẫu phải đủ lớn.
C. Phương sai của tổng thể phải nhỏ.
D. Các phần tử trong mẫu phải độc lập với nhau.
91. Phương pháp nào sau đây được sử dụng để kiểm tra mối quan hệ giữa hai biến định tính?
A. Kiểm định t (t-test).
B. Phân tích phương sai (ANOVA).
C. Kiểm định Chi-bình phương (Chi-square test).
D. Hồi quy tuyến tính.
92. Giá trị ngoại lệ (outlier) là gì?
A. Một giá trị nằm gần trung bình của dữ liệu.
B. Một giá trị có tần suất xuất hiện cao trong dữ liệu.
C. Một giá trị khác biệt đáng kể so với các giá trị khác trong dữ liệu.
D. Một giá trị không hợp lệ trong dữ liệu.
93. Trong phân tích phương sai (ANOVA), yếu tố nào sau đây được sử dụng để so sánh sự khác biệt giữa các nhóm?
A. Giá trị trung bình.
B. Phương sai.
C. Độ lệch chuẩn.
D. Trung vị.
94. Trong phân tích nhân tố (factor analysis), mục tiêu chính là gì?
A. Dự đoán giá trị của một biến phụ thuộc.
B. Phân nhóm các đối tượng tương tự vào các cụm.
C. Xác định các nhân tố tiềm ẩn giải thích mối tương quan giữa các biến quan sát được.
D. Kiểm tra mối quan hệ giữa hai biến.
95. Độ lệch chuẩn (standard deviation) đo lường điều gì?
A. Mức độ tập trung của dữ liệu xung quanh trung vị.
B. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình.
C. Mức độ bất đối xứng của phân phối dữ liệu.
D. Mức độ nhọn của phân phối dữ liệu.
96. Trong thiết kế thử nghiệm, phương pháp nào giúp giảm thiểu ảnh hưởng của các yếu tố nhiễu?
A. Phân tích hồi quy.
B. Ngẫu nhiên hóa (randomization).
C. Phân tích phương sai (ANOVA).
D. Kiểm định t (t-test).
97. Phương pháp nào sau đây được sử dụng để dự báo chuỗi thời gian?
A. Phân tích phương sai (ANOVA).
B. Hồi quy tuyến tính.
C. ARIMA (Autoregressive Integrated Moving Average).
D. Kiểm định Chi-bình phương (Chi-square test).
98. Sai số loại I (Type I error) trong kiểm định giả thuyết là gì?
A. Chấp nhận giả thuyết null khi nó thực sự đúng.
B. Bác bỏ giả thuyết null khi nó thực sự sai.
C. Chấp nhận giả thuyết null khi nó thực sự sai.
D. Bác bỏ giả thuyết null khi nó thực sự đúng.
99. Trong phân tích chuỗi thời gian, thành phần nào sau đây thể hiện xu hướng dài hạn của dữ liệu?
A. Tính mùa vụ (seasonality).
B. Chu kỳ (cyclical).
C. Xu hướng (trend).
D. Ngẫu nhiên (random).
100. Hệ số tương quan (correlation coefficient) đo lường điều gì?
A. Mức độ biến động của dữ liệu.
B. Mức độ quan hệ tuyến tính giữa hai biến.
C. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình.
D. Mức độ bất đối xứng của phân phối dữ liệu.
101. Khi dữ liệu vi phạm giả định về tính tuyến tính trong hồi quy tuyến tính, phương pháp nào sau đây có thể được sử dụng để khắc phục?
A. Chuyển đổi dữ liệu (data transformation).
B. Sử dụng hồi quy logistic.
C. Loại bỏ các biến độc lập.
D. Tăng kích thước mẫu.
102. Độ tin cậy (confidence interval) cho biết điều gì?
A. Xác suất giá trị thực của tham số nằm ngoài khoảng tin cậy.
B. Khoảng giá trị mà trong đó chúng ta tin rằng giá trị thực của tham số nằm trong đó với một độ tin cậy nhất định.
C. Xác suất giá trị thực của tham số bằng với giá trị ước lượng.
D. Khoảng giá trị mà dữ liệu quan sát được nằm trong đó.
103. Khi nào nên sử dụng kiểm định z (z-test) thay vì kiểm định t (t-test)?
A. Khi kích thước mẫu nhỏ.
B. Khi phương sai của tổng thể đã biết.
C. Khi dữ liệu không tuân theo phân phối chuẩn.
D. Khi so sánh hai mẫu độc lập.
104. Trong phân tích cụm (cluster analysis), mục tiêu chính là gì?
A. Dự đoán giá trị của một biến phụ thuộc.
B. Phân nhóm các đối tượng tương tự vào các cụm.
C. Kiểm tra mối quan hệ giữa hai biến.
D. Giảm số lượng biến trong mô hình.
105. Phương pháp nào sau đây được sử dụng để đánh giá độ phù hợp của mô hình hồi quy?
A. Kiểm định t (t-test).
B. Hệ số R-bình phương (R-squared).
C. Phân tích phương sai (ANOVA).
D. Kiểm định Chi-bình phương (Chi-square test).
106. Trong hồi quy tuyến tính, hệ số chặn (intercept) đại diện cho điều gì?
A. Giá trị dự đoán của biến độc lập khi tất cả các biến phụ thuộc bằng 0.
B. Sai số chuẩn của ước lượng hồi quy.
C. Giá trị trung bình của biến phụ thuộc.
D. Giá trị dự đoán của biến phụ thuộc khi tất cả các biến độc lập bằng 0.
107. Khi nào nên sử dụng kiểm định Wilcoxon signed-rank test?
A. Để so sánh hai mẫu độc lập khi dữ liệu tuân theo phân phối chuẩn.
B. Để so sánh hai mẫu liên quan khi dữ liệu không tuân theo phân phối chuẩn.
C. Để so sánh nhiều hơn hai nhóm độc lập.
D. Để kiểm tra mối quan hệ giữa hai biến định tính.
108. Khi nào nên sử dụng kiểm định phi tham số thay vì kiểm định tham số?
A. Khi kích thước mẫu lớn.
B. Khi dữ liệu tuân theo phân phối chuẩn.
C. Khi phương sai của các nhóm bằng nhau.
D. Khi dữ liệu không tuân theo phân phối chuẩn hoặc kích thước mẫu nhỏ.
109. Trong phân tích sống sót (survival analysis), hàm sống sót (survival function) biểu thị điều gì?
A. Xác suất một sự kiện xảy ra tại một thời điểm cụ thể.
B. Xác suất một sự kiện không xảy ra trước một thời điểm cụ thể.
C. Thời gian trung bình cho đến khi một sự kiện xảy ra.
D. Tỷ lệ các sự kiện xảy ra trong một khoảng thời gian nhất định.
110. Ý nghĩa của giá trị p (p-value) trong kiểm định giả thuyết là gì?
A. Xác suất bác bỏ giả thuyết null khi nó thực sự đúng.
B. Xác suất chấp nhận giả thuyết null khi nó thực sự sai.
C. Xác suất quan sát được kết quả kiểm định (hoặc kết quả cực đoan hơn) nếu giả thuyết null là đúng.
D. Xác suất giả thuyết null là đúng.
111. Khi nào nên sử dụng trung vị (median) thay vì giá trị trung bình (mean) để đo lường xu hướng trung tâm?
A. Khi dữ liệu tuân theo phân phối chuẩn.
B. Khi dữ liệu có giá trị ngoại lệ (outliers).
C. Khi kích thước mẫu lớn.
D. Khi phương sai nhỏ.
112. Trong thống kê mô tả, tứ phân vị (quartiles) chia dữ liệu thành bao nhiêu phần?
A. Hai phần.
B. Ba phần.
C. Bốn phần.
D. Năm phần.
113. Phương pháp nào sau đây được sử dụng để giảm số lượng biến trong mô hình thống kê, đồng thời giữ lại thông tin quan trọng nhất?
A. Phân tích phương sai (ANOVA).
B. Phân tích hồi quy.
C. Phân tích thành phần chính (PCA).
D. Kiểm định t (t-test).
114. Trong phân tích độ tin cậy (reliability analysis), hệ số Cronbach’s alpha đo lường điều gì?
A. Độ ổn định của các phép đo theo thời gian.
B. Độ tương đương giữa các phiên bản khác nhau của một phép đo.
C. Độ nhất quán nội tại của các mục trong một thang đo.
D. Độ chính xác của các phép đo.
115. Độ mạnh của kiểm định (power of a test) là gì?
A. Xác suất bác bỏ giả thuyết null khi nó thực sự đúng.
B. Xác suất chấp nhận giả thuyết null khi nó thực sự đúng.
C. Xác suất bác bỏ giả thuyết null khi nó thực sự sai.
D. Xác suất chấp nhận giả thuyết null khi nó thực sự sai.
116. Khi bạn muốn so sánh tỷ lệ thành công giữa hai nhóm, bạn nên sử dụng kiểm định nào?
A. Kiểm định t (t-test).
B. Kiểm định ANOVA.
C. Kiểm định Chi-bình phương (Chi-square test).
D. Hồi quy tuyến tính.
117. Trong phân tích hồi quy logistic, biến phụ thuộc có đặc điểm gì?
A. Liên tục.
B. Rời rạc.
C. Phân loại (categorical).
D. Đếm được.
118. Khi dữ liệu không tuân theo phân phối chuẩn và bạn muốn so sánh hai nhóm độc lập, bạn nên sử dụng kiểm định nào?
A. Kiểm định t (t-test).
B. Kiểm định z (z-test).
C. Kiểm định Mann-Whitney U test.
D. Kiểm định ANOVA.
119. Sai số loại II (Type II error) trong kiểm định giả thuyết là gì?
A. Bác bỏ giả thuyết null khi nó thực sự đúng.
B. Chấp nhận giả thuyết null khi nó thực sự sai.
C. Bác bỏ giả thuyết null khi nó thực sự sai.
D. Chấp nhận giả thuyết null khi nó thực sự đúng.
120. Trong phân tích hồi quy đa biến, hiện tượng đa cộng tuyến (multicollinearity) xảy ra khi nào?
A. Khi có một giá trị ngoại lệ trong dữ liệu.
B. Khi các biến độc lập có mối tương quan cao với nhau.
C. Khi biến phụ thuộc không tuân theo phân phối chuẩn.
D. Khi kích thước mẫu quá nhỏ.
121. Khi nào nên sử dụng kiểm định Chi-bình phương?
A. Để so sánh trung bình của hai nhóm.
B. Để kiểm tra mối quan hệ giữa hai biến định tính.
C. Để dự đoán giá trị của một biến số dựa trên biến số khác.
D. Để đo lường mức độ phân tán của dữ liệu.
122. Hệ số tương quan (correlation coefficient) có giá trị nằm trong khoảng nào?
A. Từ 0 đến 1.
B. Từ -1 đến 0.
C. Từ -1 đến 1.
D. Từ 0 đến vô cực.
123. Phương pháp nào sau đây phù hợp để phân tích dữ liệu bảng (panel data)?
A. Hồi quy tuyến tính đơn giản.
B. Hồi quy đa biến.
C. Mô hình tác động cố định (fixed effects model) hoặc mô hình tác động ngẫu nhiên (random effects model).
D. Kiểm định t độc lập.
124. Trong phân tích hồi quy logistic, biến phụ thuộc là loại biến gì?
A. Biến liên tục.
B. Biến định tính có hai giá trị (binary).
C. Biến định tính có nhiều hơn hai giá trị.
D. Biến thứ bậc.
125. Trong thống kê Bayes, điều gì đại diện cho kiến thức hoặc niềm tin ban đầu về một tham số trước khi xem xét dữ liệu?
A. Hàm правдоподобие (likelihood function).
B. Phân phối априорное (prior distribution).
C. Phân phối апостериорное (posterior distribution).
D. Hằng số chuẩn hóa (normalizing constant).
126. Trong kiểm định giả thuyết, lỗi loại I (Type I error) xảy ra khi nào?
A. Bác bỏ giả thuyết không (null hypothesis) khi nó thực sự đúng.
B. Không bác bỏ giả thuyết không khi nó thực sự sai.
C. Chọn một kiểm định thống kê không phù hợp.
D. Tính toán sai giá trị p (p-value).
127. Độ lệch chuẩn (standard deviation) đo lường điều gì?
A. Mức độ tập trung của dữ liệu xung quanh giá trị trung bình.
B. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình.
C. Giá trị lớn nhất trong tập dữ liệu.
D. Giá trị trung bình của tập dữ liệu.
128. Phương pháp nào sau đây được sử dụng để dự báo giá trị trong tương lai dựa trên dữ liệu chuỗi thời gian?
A. Hồi quy tuyến tính.
B. Phân tích phương sai (ANOVA).
C. Trung bình trượt (moving average) hoặc ARIMA.
D. Kiểm định Chi-bình phương.
129. Khi nào nên sử dụng kiểm định Mann-Whitney U?
A. Để so sánh trung bình của hai nhóm độc lập khi dữ liệu tuân theo phân phối chuẩn.
B. Để so sánh trung bình của hai nhóm phụ thuộc khi dữ liệu tuân theo phân phối chuẩn.
C. Để so sánh trung vị của hai nhóm độc lập khi dữ liệu không tuân theo phân phối chuẩn.
D. Để so sánh trung vị của hai nhóm phụ thuộc khi dữ liệu không tuân theo phân phối chuẩn.
130. Ý nghĩa của giá trị p (p-value) trong kiểm định giả thuyết là gì?
A. Xác suất giả thuyết không (null hypothesis) là đúng.
B. Mức ý nghĩa (significance level) của kiểm định.
C. Xác suất quan sát được kết quả kiểm định (hoặc kết quả cực đoan hơn) nếu giả thuyết không là đúng.
D. Kích thước ảnh hưởng (effect size) của kiểm định.
131. Trong thống kê, thuật ngữ ‘ngoại lệ’ (outlier) dùng để chỉ điều gì?
A. Một giá trị trung bình đặc biệt cao.
B. Một giá trị rất phổ biến trong tập dữ liệu.
C. Một giá trị khác biệt đáng kể so với các giá trị khác trong tập dữ liệu.
D. Một giá trị luôn xuất hiện ở đầu tập dữ liệu.
132. Trong phân tích hồi quy, R-squared (R²) đo lường điều gì?
A. Mức độ biến động của biến độc lập.
B. Mức độ biến động của biến phụ thuộc.
C. Tỷ lệ phương sai của biến phụ thuộc được giải thích bởi biến độc lập.
D. Độ dốc của đường hồi quy.
133. Giá trị trung vị (median) của một tập dữ liệu là gì?
A. Giá trị xuất hiện nhiều nhất trong tập dữ liệu.
B. Giá trị trung bình của tập dữ liệu.
C. Giá trị nằm giữa tập dữ liệu khi đã được sắp xếp.
D. Tổng của tất cả các giá trị chia cho số lượng giá trị.
134. Phương pháp nào sau đây được sử dụng để xử lý dữ liệu bị thiếu (missing data)?
A. Loại bỏ các quan sát có dữ liệu bị thiếu.
B. Điền giá trị trung bình vào các ô dữ liệu bị thiếu.
C. Sử dụng các phương pháp điền dữ liệu (imputation) như điền bằng giá trị trung bình, trung vị hoặc hồi quy.
D. Tất cả các phương án trên.
135. Phân phối nào sau đây thường được sử dụng để mô hình hóa số lượng sự kiện xảy ra trong một khoảng thời gian hoặc không gian nhất định?
A. Phân phối chuẩn (normal distribution).
B. Phân phối nhị thức (binomial distribution).
C. Phân phối Poisson (Poisson distribution).
D. Phân phối mũ (exponential distribution).
136. Trong thiết kế thử nghiệm, phương pháp nào sau đây giúp giảm thiểu ảnh hưởng của các yếu tố gây nhiễu (confounding factors)?
A. Sử dụng kích thước mẫu lớn.
B. Phân nhóm (stratification).
C. Ngẫu nhiên hóa (randomization).
D. Đối sánh (matching).
137. Khi hai biến có hệ số tương quan bằng 0, điều này có nghĩa là gì?
A. Có một mối quan hệ tuyến tính mạnh mẽ giữa hai biến.
B. Không có mối quan hệ tuyến tính giữa hai biến.
C. Hai biến này hoàn toàn giống nhau.
D. Có một mối quan hệ phi tuyến tính mạnh mẽ giữa hai biến.
138. Trong phân tích chuỗi thời gian, thành phần nào sau đây biểu thị xu hướng dài hạn của dữ liệu?
A. Tính mùa vụ (seasonality).
B. Tính chu kỳ (cyclicality).
C. Xu hướng (trend).
D. Tính ngẫu nhiên (randomness).
139. Phương pháp nào sau đây được sử dụng để giảm số lượng biến trong một tập dữ liệu lớn trong khi vẫn giữ lại thông tin quan trọng nhất?
A. Hồi quy tuyến tính.
B. Phân tích thành phần chính (principal component analysis – PCA).
C. Phân tích phương sai (ANOVA).
D. Kiểm định Chi-bình phương.
140. Trong phân tích phương sai (ANOVA), yếu tố nào sau đây được sử dụng để so sánh sự biến động giữa các nhóm với sự biến động trong nội bộ mỗi nhóm?
A. Tổng bình phương (sum of squares).
B. Bậc tự do (degrees of freedom).
C. Thống kê F (F-statistic).
D. Giá trị p (p-value).
141. Phương pháp nào sau đây được sử dụng để kiểm tra tính dừng của chuỗi thời gian?
A. Kiểm định t (t-test).
B. Kiểm định Dickey-Fuller.
C. Phân tích phương sai (ANOVA).
D. Hồi quy tuyến tính.
142. Biến số nào sau đây là biến định tính?
A. Chiều cao (cm).
B. Cân nặng (kg).
C. Màu sắc yêu thích.
D. Nhiệt độ (°C).
143. Khi nào nên sử dụng kiểm định Kruskal-Wallis?
A. Để so sánh trung bình của hai nhóm độc lập.
B. Để so sánh trung bình của hai nhóm phụ thuộc.
C. Để so sánh trung vị của ba hoặc nhiều hơn các nhóm độc lập khi dữ liệu không tuân theo phân phối chuẩn.
D. Để so sánh trung vị của ba hoặc nhiều hơn các nhóm phụ thuộc khi dữ liệu không tuân theo phân phối chuẩn.
144. Trong phân tích cụm (cluster analysis), phương pháp nào sau đây phân chia dữ liệu thành các cụm dựa trên khoảng cách giữa các điểm dữ liệu?
A. Hồi quy tuyến tính.
B. Phân tích phương sai (ANOVA).
C. K-means clustering hoặc hierarchical clustering.
D. Kiểm định Chi-bình phương.
145. Trong phân tích sống sót (survival analysis), hàm sống sót (survival function) biểu thị điều gì?
A. Xác suất một sự kiện xảy ra tại một thời điểm cụ thể.
B. Xác suất một sự kiện không xảy ra tại một thời điểm cụ thể.
C. Xác suất một cá thể sống sót (không xảy ra sự kiện) vượt quá một thời điểm nhất định.
D. Thời gian trung bình mà một sự kiện xảy ra.
146. Khi nào nên sử dụng phương pháp lấy mẫu phân tầng (stratified sampling)?
A. Khi quần thể đồng nhất.
B. Khi quần thể có các nhóm (strata) khác nhau và chúng ta muốn đảm bảo mỗi nhóm đều được đại diện trong mẫu.
C. Khi không có thông tin về quần thể.
D. Khi muốn tiết kiệm chi phí lấy mẫu.
147. Khi nào thì nên sử dụng phân tích phi tham số thay vì phân tích tham số?
A. Khi dữ liệu tuân theo phân phối chuẩn.
B. Khi kích thước mẫu lớn.
C. Khi dữ liệu không tuân theo phân phối chuẩn hoặc kích thước mẫu nhỏ.
D. Khi cần tính toán giá trị trung bình.
148. Phương pháp nào sau đây thường được sử dụng để kiểm tra sự khác biệt giữa trung bình của hai nhóm độc lập?
A. Phân tích phương sai (ANOVA).
B. Kiểm định t (t-test).
C. Hồi quy tuyến tính.
D. Kiểm định Chi-bình phương.
149. Ý nghĩa của khoảng tin cậy (confidence interval) là gì?
A. Khoảng giá trị mà chúng ta chắc chắn rằng tham số thực tế nằm trong đó.
B. Khoảng giá trị mà chúng ta ước tính rằng tham số thực tế có khả năng nằm trong đó với một độ tin cậy nhất định.
C. Khoảng giá trị của dữ liệu mẫu.
D. Khoảng giá trị của toàn bộ quần thể.
150. Trong hồi quy tuyến tính, hệ số chặn (intercept) đại diện cho điều gì?
A. Giá trị dự đoán của biến độc lập khi biến phụ thuộc bằng 0.
B. Độ dốc của đường hồi quy.
C. Giá trị dự đoán của biến phụ thuộc khi tất cả các biến độc lập bằng 0.
D. Mức độ phù hợp của mô hình hồi quy.