1. Trong phân tích hồi quy, phần dư (residual) là gì?
A. Sự khác biệt giữa giá trị thực tế và giá trị dự đoán.
B. Giá trị trung bình của biến phụ thuộc.
C. Hệ số góc của đường hồi quy.
D. Giá trị của biến độc lập.
2. Trong một kiểm định giả thuyết, giá trị tới hạn (critical value) được sử dụng để làm gì?
A. Xác định vùng bác bỏ của kiểm định.
B. Tính toán giá trị p.
C. Đánh giá độ lớn của hiệu ứng.
D. Xác định mức ý nghĩa.
3. Điều gì xảy ra nếu bạn bác bỏ giả thuyết vô hiệu (null hypothesis) khi nó đúng?
A. Bạn phạm sai lầm loại I (Type I error).
B. Bạn phạm sai lầm loại II (Type II error).
C. Bạn đã đưa ra một quyết định chính xác.
D. Không có sai lầm nào xảy ra.
4. Trong kiểm định giả thuyết, giá trị p (p-value) cho biết điều gì?
A. Xác suất quan sát được kết quả mẫu hoặc kết quả cực đoan hơn, giả sử giả thuyết vô hiệu là đúng.
B. Xác suất để chấp nhận giả thuyết vô hiệu.
C. Xác suất để bác bỏ giả thuyết vô hiệu.
D. Độ lớn của hiệu ứng.
5. Trong kiểm định giả thuyết, mức ý nghĩa (alpha) thường được đặt ở mức nào?
A. 0.05.
B. 0.01.
C. 0.10.
D. Tất cả các đáp án trên đều có thể.
6. Trong phân tích hồi quy, điều gì có thể gây ra hiện tượng ‘overfitting’?
A. Sử dụng một mô hình quá phức tạp so với dữ liệu.
B. Sử dụng một mô hình quá đơn giản so với dữ liệu.
C. Sử dụng một mẫu lớn.
D. Sử dụng nhiều biến độc lập.
7. Trong phân tích chuỗi thời gian, phương pháp ARIMA (Autoregressive Integrated Moving Average) được sử dụng để làm gì?
A. Dự báo các giá trị trong tương lai.
B. Kiểm định giả thuyết.
C. Phân tích mối quan hệ giữa các biến độc lập.
D. Tính toán giá trị trung bình.
8. Trong phân tích dữ liệu, ý nghĩa của việc sử dụng các phương pháp giảm chiều (dimensionality reduction) là gì?
A. Để giảm số lượng biến trong dữ liệu mà vẫn giữ lại thông tin quan trọng.
B. Để tăng độ phức tạp của mô hình.
C. Để tăng số lượng dữ liệu.
D. Để thay đổi ý nghĩa của các biến.
9. Trong phân tích ANOVA một chiều, yếu tố (factor) là gì?
A. Biến độc lập phân loại (categorical independent variable).
B. Biến phụ thuộc (dependent variable).
C. Giá trị trung bình của các nhóm.
D. Độ lệch chuẩn của các nhóm.
10. Trong kiểm định Chi-square, giả thuyết vô hiệu thường là gì?
A. Không có mối liên hệ giữa các biến phân loại.
B. Có mối liên hệ giữa các biến phân loại.
C. Các biến tuân theo phân phối chuẩn.
D. Các biến không tuân theo phân phối chuẩn.
11. Trong phân tích hồi quy, mục đích của việc sử dụng các phép biến đổi (transformation) cho dữ liệu là gì?
A. Để làm cho dữ liệu gần với các giả định của mô hình hơn.
B. Để tăng R-squared.
C. Để thay đổi ý nghĩa của các biến.
D. Để loại bỏ các giá trị ngoại lai.
12. Trong phân tích dữ liệu, ý nghĩa của việc sử dụng biểu đồ phân tán (scatter plot) là gì?
A. Hiển thị mối quan hệ giữa hai biến liên tục.
B. Hiển thị phân phối của một biến đơn lẻ.
C. So sánh giá trị trung bình của các nhóm.
D. Hiển thị tần suất của các giá trị trong một biến phân loại.
13. Trong phân tích chuỗi thời gian, khái niệm ‘tính tự tương quan’ (autocorrelation) đề cập đến điều gì?
A. Mối quan hệ giữa các giá trị của một biến tại các thời điểm khác nhau.
B. Mối quan hệ giữa các biến khác nhau tại cùng một thời điểm.
C. Sự thay đổi ngẫu nhiên của dữ liệu.
D. Sự ổn định của dữ liệu theo thời gian.
14. Trong thống kê, khái niệm ‘power’ (công suất) của một kiểm định là gì?
A. Xác suất bác bỏ giả thuyết vô hiệu khi nó sai.
B. Xác suất chấp nhận giả thuyết vô hiệu khi nó sai.
C. Xác suất bác bỏ giả thuyết vô hiệu khi nó đúng.
D. Xác suất chấp nhận giả thuyết vô hiệu khi nó đúng.
15. Trong phân tích phương sai (ANOVA), giá trị F (F-statistic) được sử dụng để làm gì?
A. Kiểm định sự khác biệt giữa các trung bình của các nhóm.
B. Đo lường mức độ tương quan giữa các biến.
C. Xác định giá trị trung bình của dữ liệu.
D. Đo lường độ lệch chuẩn của dữ liệu.
16. Trong phân tích dữ liệu, mục đích của việc chuẩn hóa (normalization) dữ liệu là gì?
A. Đưa dữ liệu về một khoảng giá trị chung, thường là [0, 1] hoặc phân phối chuẩn, để so sánh và phân tích dễ dàng hơn.
B. Để loại bỏ các giá trị ngoại lai.
C. Để tăng độ chính xác của các ước lượng hệ số.
D. Để thay đổi ý nghĩa của các biến.
17. Trong phân tích dữ liệu, mục đích của việc sử dụng các phép biến đổi logarit (logarithmic transformation) là gì?
A. Để giảm sự ảnh hưởng của các giá trị ngoại lai và làm cho phân phối dữ liệu gần với phân phối chuẩn hơn.
B. Để tăng độ tin cậy của các ước lượng hệ số.
C. Để loại bỏ các biến độc lập không quan trọng.
D. Để thay đổi ý nghĩa của các biến.
18. Trong phân tích hồi quy, hệ số xác định (R-squared) đo lường điều gì?
A. Mức độ phù hợp của mô hình với dữ liệu, thể hiện phần trăm phương sai của biến phụ thuộc được giải thích bởi các biến độc lập.
B. Giá trị trung bình của biến phụ thuộc.
C. Mức độ tương quan giữa các biến độc lập.
D. Độ lệch chuẩn của các hệ số hồi quy.
19. Trong phân tích dữ liệu, ý nghĩa của việc sử dụng các phương pháp lấy mẫu (sampling) là gì?
A. Tiết kiệm thời gian và chi phí so với việc thu thập dữ liệu từ toàn bộ tổng thể.
B. Luôn cung cấp kết quả chính xác hơn so với việc thu thập dữ liệu từ toàn bộ tổng thể.
C. Loại bỏ hoàn toàn sai số.
D. Đảm bảo rằng dữ liệu luôn đại diện cho toàn bộ tổng thể.
20. Trong phân tích hồi quy, điều gì là quan trọng để kiểm tra các giả định của mô hình?
A. Kiểm tra phần dư (residuals).
B. Chỉ xem xét hệ số xác định (R-squared).
C. Chỉ tập trung vào các hệ số hồi quy.
D. Không cần thiết phải kiểm tra giả định.
21. Trong phân tích phương sai (ANOVA), giá trị p (p-value) có ý nghĩa gì?
A. Xác suất quan sát được kết quả mẫu hoặc kết quả cực đoan hơn, giả sử giả thuyết vô hiệu là đúng.
B. Xác suất để chấp nhận giả thuyết vô hiệu.
C. Xác suất để bác bỏ giả thuyết vô hiệu.
D. Độ lớn của hiệu ứng giữa các nhóm.
22. Trong phân tích hồi quy đa biến, hiện tượng đa cộng tuyến (multicollinearity) đề cập đến điều gì?
A. Mối quan hệ tuyến tính mạnh mẽ giữa các biến độc lập.
B. Sự hiện diện của nhiều biến độc lập.
C. Sự tương quan yếu giữa các biến độc lập.
D. Sự hiện diện của các giá trị ngoại lai trong dữ liệu.
23. Mục đích chính của việc sử dụng các phương pháp thống kê trong kinh doanh là gì?
A. Hỗ trợ ra quyết định dựa trên bằng chứng và dữ liệu.
B. Tạo ra các báo cáo phức tạp mà không cần phân tích sâu.
C. Thay thế kinh nghiệm và trực giác của nhà quản lý.
D. Giảm thiểu sự tham gia của con người trong quá trình ra quyết định.
24. Điều gì là quan trọng nhất khi lựa chọn một phương pháp thống kê?
A. Hiểu rõ mục tiêu nghiên cứu và bản chất của dữ liệu.
B. Sử dụng phần mềm thống kê phổ biến nhất.
C. Chọn phương pháp có kết quả p-value nhỏ nhất.
D. Chọn phương pháp mà bạn quen thuộc nhất.
25. Ý nghĩa của khái niệm ‘độ tin cậy’ (confidence interval) trong thống kê là gì?
A. Khoảng giá trị mà giá trị tham số tổng thể có khả năng nằm trong đó.
B. Xác suất bác bỏ giả thuyết vô hiệu.
C. Giá trị trung bình của mẫu.
D. Độ lệch chuẩn của mẫu.
26. Trong kiểm định giả thuyết, mức ý nghĩa (alpha) liên quan đến điều gì?
A. Xác suất bác bỏ giả thuyết vô hiệu khi nó đúng.
B. Xác suất chấp nhận giả thuyết vô hiệu khi nó sai.
C. Xác suất để quan sát được kết quả mẫu.
D. Độ lớn của hiệu ứng trong mẫu.
27. Trong phân tích hồi quy, điều gì có thể làm giảm độ tin cậy của các ước lượng hệ số?
A. Đa cộng tuyến (multicollinearity).
B. Mẫu lớn.
C. Giá trị R-squared cao.
D. Phần dư nhỏ.
28. Khi nào thì nên sử dụng kiểm định phi tham số thay vì kiểm định tham số?
A. Khi dữ liệu không tuân theo phân phối chuẩn.
B. Khi cỡ mẫu rất lớn.
C. Khi dữ liệu tuân theo phân phối chuẩn.
D. Khi bạn muốn kết quả chính xác hơn.
29. Giả sử bạn đang kiểm định giả thuyết về sự khác biệt giữa hai trung bình mẫu độc lập. Thống kê kiểm định phù hợp nhất là gì?
A. Thống kê t (t-statistic).
B. Thống kê F (F-statistic).
C. Chi-squared statistic.
D. Z-statistic.
30. Trong phân tích hồi quy logistic, biến phụ thuộc là gì?
A. Biến phân loại (categorical variable).
B. Biến liên tục (continuous variable).
C. Biến độc lập (independent variable).
D. Hệ số hồi quy.
31. Trong phân tích chuỗi thời gian, ‘tính tự tương quan’ (autocorrelation) đề cập đến điều gì?
A. Mối quan hệ giữa các biến ở các thời điểm khác nhau.
B. Mối quan hệ giữa một biến và chính nó ở các thời điểm khác nhau.
C. Mối quan hệ giữa các biến độc lập.
D. Mối quan hệ giữa các biến phân loại.
32. Trong phân tích dữ liệu, khái niệm ‘outlier’ (giá trị ngoại lai) đề cập đến điều gì?
A. Một giá trị nằm gần giá trị trung bình.
B. Một giá trị nằm cách xa các giá trị khác trong tập dữ liệu.
C. Một giá trị bằng không.
D. Một giá trị bị thiếu.
33. Mục đích chính của kiểm định Shapiro-Wilk là gì?
A. Kiểm tra tính độc lập của các quan sát.
B. Kiểm tra tính chuẩn của phân phối.
C. Kiểm tra tính đồng nhất của phương sai.
D. Kiểm tra sự khác biệt giữa hai nhóm.
34. Trong phân tích phương sai (ANOVA), giá trị F-statistic được tính như thế nào?
A. Phương sai giữa các nhóm chia cho phương sai trong các nhóm.
B. Phương sai trong các nhóm chia cho phương sai giữa các nhóm.
C. Tổng các giá trị trung bình.
D. Độ lệch chuẩn.
35. Trong một kiểm định giả thuyết, mức ý nghĩa (alpha) là gì?
A. Xác suất chấp nhận giả thuyết null.
B. Xác suất bác bỏ giả thuyết null khi nó đúng.
C. Giá trị p của kiểm định.
D. Độ lớn của hiệu ứng.
36. Trong kiểm định giả thuyết, sức mạnh (power) của một kiểm định là gì?
A. Xác suất chấp nhận giả thuyết null khi nó đúng.
B. Xác suất bác bỏ giả thuyết null khi nó sai.
C. Xác suất chấp nhận giả thuyết null khi nó sai.
D. Xác suất bác bỏ giả thuyết null khi nó đúng.
37. Đâu là một giả định quan trọng của phân tích hồi quy tuyến tính?
A. Các biến độc lập không liên quan với nhau (không có đa cộng tuyến).
B. Biến phụ thuộc phải là biến phân loại.
C. Dữ liệu phải tuân theo phân phối Poisson.
D. Phương sai của sai số không đổi (tính đồng nhất của phương sai).
38. Trong kiểm định giả thuyết, khi bác bỏ giả thuyết null, chúng ta kết luận điều gì?
A. Giả thuyết null là đúng.
B. Giả thuyết thay thế là sai.
C. Có bằng chứng thống kê để ủng hộ giả thuyết thay thế.
D. Không có bằng chứng để ủng hộ giả thuyết thay thế.
39. Trong bối cảnh thống kê, ‘tính hiệu quả’ của một ước lượng điểm có nghĩa là gì?
A. Ước lượng có phương sai lớn.
B. Ước lượng có phương sai nhỏ.
C. Ước lượng không thiên lệch.
D. Ước lượng có độ lệch chuẩn lớn.
40. Trong phân tích hồi quy, điều gì xảy ra nếu các sai số không tuân theo giả định về tính đồng nhất của phương sai?
A. Các hệ số hồi quy vẫn là ước lượng không thiên lệch.
B. Các ước lượng hệ số hồi quy sẽ không hiệu quả.
C. Giá trị R-squared sẽ luôn bằng 1.
D. Kiểm định t sẽ luôn chính xác.
41. Trong phân tích dữ liệu, ‘khoảng tin cậy’ (confidence interval) cung cấp thông tin gì?
A. Một giá trị duy nhất cho tham số tổng thể.
B. Một phạm vi giá trị có khả năng chứa tham số tổng thể.
C. Xác suất bác bỏ giả thuyết null.
D. Giá trị p của kiểm định.
42. Trong kiểm định giả thuyết, giá trị p (p-value) đại diện cho điều gì?
A. Xác suất bác bỏ giả thuyết null khi nó đúng.
B. Xác suất chấp nhận giả thuyết null.
C. Xác suất quan sát được kết quả mẫu hoặc kết quả cực đoan hơn, giả sử giả thuyết null là đúng.
D. Mức ý nghĩa thống kê của kiểm định.
43. Ý nghĩa kinh tế của hệ số hồi quy trong một mô hình hồi quy tuyến tính là gì?
A. Sự thay đổi của biến độc lập khi biến phụ thuộc thay đổi một đơn vị.
B. Sự thay đổi của biến phụ thuộc khi biến độc lập thay đổi một đơn vị.
C. Giá trị trung bình của biến phụ thuộc.
D. Độ lệch chuẩn của biến độc lập.
44. Trong phân tích hồi quy, điều gì xảy ra nếu có hiện tượng đa cộng tuyến?
A. Các hệ số hồi quy không thể ước tính được.
B. Các hệ số hồi quy sẽ không thiên lệch.
C. Các hệ số hồi quy có thể có phương sai lớn.
D. Giá trị R-squared sẽ giảm.
45. Giả sử bạn đang phân tích dữ liệu về doanh số bán hàng và chi phí quảng cáo. Để kiểm tra xem chi phí quảng cáo có tác động đến doanh số bán hàng hay không, bạn sẽ sử dụng phương pháp thống kê nào?
A. Kiểm định t-test.
B. Phân tích phương sai (ANOVA).
C. Phân tích hồi quy.
D. Kiểm định Chi-square.
46. Trong phân tích dữ liệu, ‘tần suất’ (frequency) đề cập đến điều gì?
A. Số lần một giá trị xuất hiện trong một tập dữ liệu.
B. Giá trị trung bình của tập dữ liệu.
C. Giá trị lớn nhất trong tập dữ liệu.
D. Giá trị nhỏ nhất trong tập dữ liệu.
47. Trong một kiểm định t-test, giá trị t-statistic được tính như thế nào?
A. Giá trị trung bình của mẫu chia cho độ lệch chuẩn của mẫu.
B. Sự khác biệt giữa giá trị trung bình của mẫu và giá trị trung bình của tổng thể, chia cho sai số chuẩn.
C. Độ lệch chuẩn của mẫu chia cho giá trị trung bình của mẫu.
D. Giá trị trung bình của tổng thể chia cho độ lệch chuẩn của mẫu.
48. Trong phân tích hồi quy tuyến tính, hệ số xác định (R-squared) đo lường điều gì?
A. Mức độ phù hợp của mô hình, biểu thị tỷ lệ phương sai của biến phụ thuộc được giải thích bởi biến độc lập.
B. Độ lớn của mối quan hệ giữa các biến độc lập và biến phụ thuộc.
C. Giá trị trung bình của biến phụ thuộc.
D. Độ lệch chuẩn của các hệ số hồi quy.
49. Trong phân tích phương sai (ANOVA), mục tiêu chính là gì?
A. Kiểm tra sự khác biệt giữa các giá trị trung bình của hai nhóm.
B. So sánh các giá trị trung bình của ba hoặc nhiều nhóm.
C. Xác định mối quan hệ giữa hai biến liên tục.
D. Đánh giá mức độ phù hợp của mô hình hồi quy.
50. Điều gì là quan trọng để kiểm tra trước khi thực hiện một phân tích hồi quy?
A. Tính chuẩn của các biến độc lập.
B. Tính đa cộng tuyến giữa các biến độc lập.
C. Tính đồng nhất của phương sai của các sai số.
D. Tất cả các lựa chọn trên.
51. Trong phân tích hồi quy, ‘sai số chuẩn của ước lượng’ (standard error of the estimate) đo lường điều gì?
A. Độ lệch chuẩn của các giá trị dự đoán từ đường hồi quy.
B. Độ lệch chuẩn của các biến độc lập.
C. Độ lệch chuẩn của các hệ số hồi quy.
D. Giá trị trung bình của biến phụ thuộc.
52. Trong phân tích chuỗi thời gian, phương pháp nào thường được sử dụng để làm mịn dữ liệu và loại bỏ các biến động ngắn hạn?
A. Hồi quy tuyến tính.
B. Trung bình trượt.
C. Kiểm định t-test.
D. Phân tích phương sai.
53. Trong phân tích dữ liệu, ‘tính thiên lệch’ của một ước lượng điểm có nghĩa là gì?
A. Ước lượng có phương sai nhỏ.
B. Ước lượng trung bình khác với giá trị thực của tham số tổng thể.
C. Ước lượng có phương sai lớn.
D. Ước lượng luôn chính xác.
54. Trong một kiểm định t-test độc lập, giá trị p nhỏ hơn mức ý nghĩa (alpha) ngụ ý điều gì?
A. Chấp nhận giả thuyết null.
B. Không có sự khác biệt có ý nghĩa thống kê giữa hai nhóm.
C. Bác bỏ giả thuyết null.
D. Không thể đưa ra kết luận.
55. Trong kiểm định giả thuyết, lỗi loại II (Type II error) là gì?
A. Bác bỏ giả thuyết null khi nó đúng.
B. Chấp nhận giả thuyết null khi nó sai.
C. Chấp nhận giả thuyết null khi nó đúng.
D. Bác bỏ giả thuyết null khi nó sai.
56. Trong kiểm định Chi-square, bậc tự do (degrees of freedom – df) được tính như thế nào?
A. Số hàng nhân với số cột trong bảng.
B. Số hàng cộng với số cột trong bảng.
C. (Số hàng – 1) nhân với (số cột – 1) trong bảng.
D. Tổng số quan sát trong bảng.
57. Phân tích phương sai (ANOVA) một chiều được sử dụng để làm gì?
A. So sánh các giá trị trung bình của hai nhóm độc lập.
B. So sánh các giá trị trung bình của ba hoặc nhiều nhóm độc lập.
C. Phân tích mối quan hệ giữa hai biến liên tục.
D. Kiểm tra mối quan hệ giữa hai biến phân loại.
58. Khi nào thì một kiểm định Chi-square được sử dụng?
A. Để kiểm tra mối quan hệ giữa hai biến định lượng.
B. Để kiểm tra sự khác biệt giữa các giá trị trung bình của hai nhóm.
C. Để kiểm tra mối quan hệ giữa hai biến phân loại.
D. Để dự đoán giá trị của một biến liên tục.
59. Trong phân tích hồi quy, mục tiêu của việc sử dụng các biến chuyển đổi (transformed variables) là gì?
A. Để giảm thiểu sự hiện diện của các giá trị ngoại lai.
B. Để làm cho mối quan hệ giữa các biến tuyến tính hơn.
C. Để tăng R-squared.
D. Để loại bỏ các biến độc lập không quan trọng.
60. Trong phân tích hồi quy, ‘sai số chuẩn của hệ số’ (standard error of the coefficient) đo lường điều gì?
A. Độ lớn của hệ số hồi quy.
B. Độ lệch chuẩn của hệ số hồi quy.
C. Giá trị của R-squared.
D. Giá trị p của kiểm định t.
61. Trong thống kê, khái niệm ‘bias’ (thiên vị) liên quan đến điều gì?
A. Sự chính xác của một ước lượng.
B. Sự lệch lạc hệ thống của ước lượng so với giá trị thực tế.
C. Mức độ phân tán của dữ liệu.
D. Xác suất để một giá trị nằm trong phạm vi nhất định.
62. Trong thống kê, ‘power’ (công suất) của một kiểm định là gì?
A. Xác suất bác bỏ giả thuyết null khi nó đúng.
B. Xác suất chấp nhận giả thuyết null khi nó sai.
C. Xác suất bác bỏ giả thuyết null khi nó sai (tức là phát hiện ra hiệu ứng thực sự).
D. Mức ý nghĩa của kiểm định.
63. Điều gì xảy ra nếu giá trị p nhỏ hơn mức ý nghĩa (alpha) trong một kiểm định giả thuyết?
A. Bác bỏ giả thuyết null.
B. Chấp nhận giả thuyết null.
C. Không đủ bằng chứng để đưa ra kết luận.
D. Kiểm định không có ý nghĩa.
64. Giả sử bạn đang phân tích dữ liệu về doanh số bán hàng và chi phí quảng cáo. Bạn chạy một phân tích hồi quy và thu được hệ số hồi quy của chi phí quảng cáo là 0.8. Điều này có nghĩa là gì?
A. Cứ tăng 1 đơn vị chi phí quảng cáo thì doanh số tăng 0.8 đơn vị.
B. Doanh số và chi phí quảng cáo có mối quan hệ nghịch biến.
C. Chi phí quảng cáo giải thích 80% sự thay đổi của doanh số.
D. Không có mối quan hệ nào giữa chi phí quảng cáo và doanh số.
65. Độ lệch chuẩn (standard deviation) là gì?
A. Căn bậc hai của phương sai.
B. Giá trị trung bình của tập dữ liệu.
C. Giá trị xuất hiện thường xuyên nhất trong tập dữ liệu.
D. Giá trị trung vị của tập dữ liệu.
66. Trong phân tích dữ liệu, việc sử dụng các phép biến đổi dữ liệu (data transformation) nhằm mục đích gì?
A. Để giảm thiểu ảnh hưởng của các giá trị ngoại lai.
B. Để làm cho dữ liệu gần với phân phối chuẩn hơn.
C. Để ổn định phương sai.
D. Tất cả các đáp án trên.
67. Trong phân tích thời gian (time series analysis), thành phần nào sau đây không phải là một thành phần chính của chuỗi thời gian?
A. Xu hướng (trend).
B. Tính thời vụ (seasonality).
C. Tính ngẫu nhiên (randomness).
D. Tính ổn định (stability).
68. Giả sử bạn muốn kiểm tra xem có sự khác biệt về điểm trung bình môn Toán giữa ba trường trung học khác nhau hay không. Bạn sẽ sử dụng phương pháp thống kê nào?
A. Kiểm định t-test độc lập.
B. Phân tích phương sai (ANOVA).
C. Kiểm định chi bình phương.
D. Phân tích hồi quy.
69. Trong phân tích phương sai (ANOVA), mục đích chính là gì?
A. So sánh giá trị trung bình của hai nhóm.
B. Xác định mối quan hệ giữa hai biến định lượng.
C. So sánh giá trị trung bình của ba hoặc nhiều nhóm.
D. Đo lường mức độ phân tán của dữ liệu.
70. Trong phân tích hồi quy, hệ số xác định (R-squared) đo lường điều gì?
A. Mức độ phù hợp của mô hình, thể hiện phần trăm phương sai của biến phụ thuộc được giải thích bởi các biến độc lập.
B. Mức độ tương quan giữa các biến độc lập trong mô hình.
C. Giá trị trung bình của biến phụ thuộc.
D. Sai số chuẩn của các hệ số hồi quy.
71. Hệ số tương quan Pearson có giá trị nằm trong khoảng nào?
A. -1 đến 1
B. 0 đến 1
C. -1 đến 0
D. 0 đến vô cực.
72. Trong thống kê, ‘kurtosis’ (độ nhọn) đo lường điều gì?
A. Mức độ phân tán của dữ liệu.
B. Mức độ bất đối xứng của phân phối dữ liệu.
C. Độ tập trung của dữ liệu ở phần đuôi và đỉnh so với phân phối chuẩn.
D. Giá trị trung bình của dữ liệu.
73. Mục đích của việc chuẩn hóa dữ liệu (data standardization) là gì?
A. Giảm thiểu ảnh hưởng của các giá trị ngoại lai.
B. Chuyển đổi dữ liệu về một thang đo chung, thường là giá trị trung bình bằng 0 và độ lệch chuẩn bằng 1.
C. Tăng độ chính xác của các phép tính thống kê.
D. Loại bỏ các giá trị bị thiếu.
74. Hàm ý của hiện tượng đa cộng tuyến (multicollinearity) trong phân tích hồi quy là gì?
A. Các hệ số hồi quy có thể không ổn định và khó giải thích.
B. Mô hình không phù hợp với dữ liệu.
C. Giá trị p của các biến độc lập luôn lớn hơn mức ý nghĩa.
D. Hệ số xác định (R-squared) luôn bằng 1.
75. Trong kiểm định chi bình phương, bậc tự do (degrees of freedom – df) được tính như thế nào?
A. (Số hàng – 1) * (Số cột – 1)
B. Tổng số quan sát trong bảng.
C. Số hàng cộng với số cột.
D. Số lượng biến độc lập.
76. Trong phân tích dữ liệu, khoảng tin cậy (confidence interval) cung cấp thông tin gì?
A. Giá trị trung bình của tổng thể.
B. Phạm vi giá trị có khả năng chứa tham số tổng thể với một mức độ tin cậy nhất định.
C. Độ lệch chuẩn của mẫu.
D. Xác suất để một giá trị nằm trong phạm vi nhất định.
77. Trong một phân tích hồi quy, điều gì sẽ xảy ra nếu bạn bỏ qua một biến quan trọng?
A. Hệ số hồi quy của các biến còn lại sẽ bị sai lệch.
B. Hệ số xác định (R-squared) sẽ tăng lên.
C. Mô hình sẽ dự đoán chính xác hơn.
D. Không có ảnh hưởng gì đến kết quả.
78. Trong thống kê, ‘skewness’ (độ xiên) đo lường điều gì?
A. Mức độ phân tán của dữ liệu.
B. Mức độ bất đối xứng của phân phối dữ liệu.
C. Giá trị trung bình của dữ liệu.
D. Số lượng giá trị khác biệt trong tập dữ liệu.
79. Trong thống kê, khái niệm ‘outlier’ (giá trị ngoại lai) đề cập đến điều gì?
A. Giá trị nằm gần giá trị trung bình.
B. Giá trị xuất hiện thường xuyên nhất.
C. Giá trị khác biệt đáng kể so với các giá trị khác trong tập dữ liệu.
D. Giá trị trung vị.
80. Khi nào thì một kiểm định t-test một mẫu (one-sample t-test) được sử dụng?
A. Để so sánh giá trị trung bình của hai nhóm độc lập.
B. Để so sánh giá trị trung bình của một mẫu với một giá trị cho trước.
C. Để kiểm tra mối quan hệ giữa hai biến định tính.
D. Để phân tích phương sai.
81. Trong kiểm định giả thuyết, giá trị p (p-value) đại diện cho điều gì?
A. Xác suất bác bỏ giả thuyết null khi nó đúng.
B. Xác suất chấp nhận giả thuyết null khi nó sai.
C. Xác suất quan sát được kết quả mẫu hoặc kết quả khắc nghiệt hơn, giả sử giả thuyết null là đúng.
D. Mức ý nghĩa thống kê của kiểm định.
82. Trong kiểm định giả thuyết, mức ý nghĩa (alpha) thường được đặt ở giá trị nào?
A. 0.01
B. 0.05
C. 0.10
D. Tất cả các đáp án trên.
83. Trong thống kê mô tả, phương sai (variance) đo lường điều gì?
A. Giá trị trung bình của tập dữ liệu.
B. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình.
C. Giá trị xuất hiện thường xuyên nhất trong tập dữ liệu.
D. Giá trị trung vị của tập dữ liệu.
84. Kiểm định chi bình phương (chi-square test) thường được sử dụng để làm gì?
A. So sánh giá trị trung bình của hai nhóm.
B. Kiểm tra mối quan hệ giữa hai biến định tính.
C. Phân tích phương sai.
D. Phân tích hồi quy.
85. Trong kiểm định t-test độc lập (independent samples t-test), giả định nào là quan trọng?
A. Dữ liệu phải có phân phối chuẩn.
B. Phương sai của hai nhóm phải bằng nhau (hoặc gần bằng nhau).
C. Các quan sát trong mỗi nhóm phải độc lập với nhau.
D. Tất cả các đáp án trên.
86. Trong phân tích hồi quy, điều gì là quan trọng để kiểm tra các giả định của mô hình?
A. Kiểm tra tính độc lập của các biến độc lập.
B. Kiểm tra tính chuẩn của phần dư (residuals).
C. Kiểm tra tính tuyến tính của mối quan hệ.
D. Tất cả các đáp án trên.
87. Trong phân tích hồi quy, điều gì biểu thị mối quan hệ giữa các biến?
A. Hệ số chặn (intercept).
B. Hệ số hồi quy (regression coefficient).
C. Sai số chuẩn.
D. Giá trị p.
88. Để đánh giá mức độ tương quan giữa hai biến định lượng, bạn sẽ sử dụng phương pháp nào?
A. Kiểm định chi bình phương.
B. Hệ số tương quan Pearson.
C. Phân tích phương sai (ANOVA).
D. Kiểm định t-test.
89. Trong một phân phối chuẩn, khoảng dữ liệu nào chứa khoảng 68% dữ liệu?
A. Từ trung bình trừ 1 độ lệch chuẩn đến trung bình cộng 1 độ lệch chuẩn.
B. Từ trung bình trừ 2 độ lệch chuẩn đến trung bình cộng 2 độ lệch chuẩn.
C. Từ trung bình trừ 3 độ lệch chuẩn đến trung bình cộng 3 độ lệch chuẩn.
D. Từ giá trị nhỏ nhất đến giá trị lớn nhất của dữ liệu.
90. Trong một nghiên cứu, bạn thu thập dữ liệu từ một mẫu. Bạn muốn suy luận về tổng thể dựa trên mẫu này. Khái niệm nào sau đây là quan trọng nhất?
A. Độ lệch chuẩn.
B. Khoảng tin cậy.
C. Giá trị trung bình.
D. Phương sai.
91. Trong một phân tích hồi quy, điều gì xảy ra nếu các biến độc lập có hiện tượng đa cộng tuyến (multicollinearity)?
A. Các ước tính hệ số hồi quy sẽ trở nên không đáng tin cậy.
B. Hệ số xác định (R-squared) sẽ giảm.
C. Giá trị p sẽ luôn nhỏ hơn mức ý nghĩa.
D. Mô hình sẽ trở nên đơn giản hơn.
92. Trong thống kê, ‘ngưỡng ý nghĩa’ (significance level) thường được ký hiệu là gì?
A. σ (sigma)
B. α (alpha)
C. μ (mu)
D. ρ (rho)
93. Giả sử bạn đang phân tích dữ liệu về doanh thu của một công ty. Để kiểm tra xem có mối quan hệ tuyến tính giữa chi phí quảng cáo và doanh thu hay không, bạn sẽ sử dụng phương pháp thống kê nào?
A. Kiểm định t.
B. Phân tích hồi quy tuyến tính.
C. Kiểm định Chi-square.
D. Phân tích phương sai (ANOVA).
94. Trong phân tích dữ liệu, ‘median’ (trung vị) là gì?
A. Giá trị trung bình của một tập dữ liệu.
B. Giá trị xuất hiện thường xuyên nhất trong một tập dữ liệu.
C. Giá trị ở giữa của một tập dữ liệu khi được sắp xếp theo thứ tự.
D. Độ lệch chuẩn của một tập dữ liệu.
95. Trong một nghiên cứu, điều gì được coi là ‘biến kiểm soát’ (control variable)?
A. Biến mà nhà nghiên cứu quan tâm đến.
B. Biến mà nhà nghiên cứu thay đổi.
C. Biến được giữ không đổi để loại bỏ ảnh hưởng của nó đến mối quan hệ giữa các biến khác.
D. Biến mà nhà nghiên cứu dự đoán.
96. Trong phân tích dữ liệu, ‘tần số tích lũy’ (cumulative frequency) là gì?
A. Số lần một giá trị xuất hiện trong một tập dữ liệu.
B. Tổng tần số của các giá trị nhỏ hơn hoặc bằng một giá trị cụ thể.
C. Giá trị trung bình của một tập dữ liệu.
D. Độ lệch chuẩn của một tập dữ liệu.
97. Trong phân tích dữ liệu, ‘dữ liệu bị thiếu’ (missing data) là gì?
A. Dữ liệu được ghi nhận không chính xác.
B. Dữ liệu không có sẵn cho một số quan sát hoặc biến.
C. Dữ liệu bị sai lệch.
D. Dữ liệu không liên quan đến vấn đề đang nghiên cứu.
98. Khi nào thì kiểm định Chi-square được sử dụng?
A. Để kiểm định mối quan hệ giữa hai biến định lượng.
B. Để kiểm định sự khác biệt giữa các giá trị trung bình của hai nhóm.
C. Để kiểm định mối quan hệ giữa hai biến định tính (phân loại).
D. Để dự báo các giá trị trong tương lai.
99. Trong phân tích dữ liệu, ‘dữ liệu định tính’ (qualitative data) là gì?
A. Dữ liệu được biểu thị bằng các con số.
B. Dữ liệu mô tả các đặc điểm hoặc thuộc tính không thể đo lường bằng số.
C. Dữ liệu có thể được đo lường bằng các đơn vị.
D. Dữ liệu có thể được phân tích bằng các phương pháp thống kê.
100. Để đánh giá mức độ tin cậy của một cuộc khảo sát, thước đo nào sau đây là phù hợp nhất?
A. Độ lệch chuẩn.
B. Khoảng tin cậy.
C. Hệ số tương quan.
D. Giá trị p.
101. Trong thống kê, ‘phân phối chuẩn’ (normal distribution) là gì?
A. Một phân phối mà dữ liệu được phân bố đều.
B. Một phân phối đối xứng hình chuông, trong đó dữ liệu tập trung xung quanh giá trị trung bình.
C. Một phân phối mà tất cả các giá trị đều bằng nhau.
D. Một phân phối mà dữ liệu có độ lệch chuẩn bằng 0.
102. Trong thống kê, ý nghĩa của ‘bias’ (thiên vị) là gì?
A. Sự chính xác của một ước tính.
B. Xu hướng hệ thống của một ước tính lệch khỏi giá trị thực tế.
C. Sự biến thiên ngẫu nhiên trong một ước tính.
D. Khả năng xảy ra sai sót trong dữ liệu.
103. Trong phân tích hồi quy, hệ số xác định (R-squared) đo lường điều gì?
A. Mức độ phù hợp của mô hình với dữ liệu, thể hiện phần trăm phương sai của biến phụ thuộc được giải thích bởi biến độc lập.
B. Mức độ quan trọng của các hệ số hồi quy trong mô hình.
C. Giá trị trung bình của các sai số trong mô hình.
D. Độ lệch chuẩn của các biến độc lập.
104. Trong phân tích dữ liệu, ‘tỷ lệ phần trăm’ (percentage) biểu thị điều gì?
A. Giá trị trung bình của một tập dữ liệu.
B. Số lượng các điểm dữ liệu trong một tập hợp.
C. Một phần của tổng thể, được biểu thị dưới dạng phần trăm.
D. Mối quan hệ giữa hai biến.
105. Trong thống kê, ‘mode’ (mode) là gì?
A. Giá trị trung bình của một tập dữ liệu.
B. Giá trị xuất hiện thường xuyên nhất trong một tập dữ liệu.
C. Giá trị ở giữa của một tập dữ liệu.
D. Độ lệch chuẩn của một tập dữ liệu.
106. Trong phân tích phương sai (ANOVA), mục tiêu chính là gì?
A. So sánh các giá trị trung bình của hai nhóm.
B. Kiểm tra mối quan hệ giữa hai biến định lượng.
C. So sánh các giá trị trung bình của ba hoặc nhiều nhóm.
D. Dự báo các giá trị trong tương lai.
107. Điều gì thể hiện sự tương quan hoàn hảo giữa hai biến?
A. Hệ số tương quan bằng 0.
B. Hệ số tương quan bằng 1 hoặc -1.
C. Hệ số tương quan nằm giữa 0 và 1.
D. Hệ số tương quan lớn hơn 1.
108. Trong phân tích chuỗi thời gian, phương pháp nào được sử dụng để làm mịn dữ liệu và giảm thiểu ảnh hưởng của các biến động ngẫu nhiên?
A. Phân tích hồi quy.
B. Trung bình trượt (Moving Average).
C. Kiểm định giả thuyết.
D. Phân tích phương sai.
109. Trong phân tích dữ liệu, ‘tần suất’ (frequency) đề cập đến điều gì?
A. Số lần một giá trị xuất hiện trong một tập dữ liệu.
B. Giá trị trung bình của một tập dữ liệu.
C. Độ lệch chuẩn của một tập dữ liệu.
D. Mối quan hệ giữa hai biến.
110. Để xác định xem hai biến có độc lập với nhau hay không, bạn có thể sử dụng phương pháp nào?
A. Phân tích hồi quy tuyến tính.
B. Kiểm định Chi-square.
C. Phân tích phương sai (ANOVA).
D. Trung bình trượt.
111. Một nhà phân tích muốn kiểm tra xem một loại thuốc mới có hiệu quả hơn thuốc hiện tại hay không. Loại kiểm định giả thuyết nào là phù hợp nhất?
A. Kiểm định một phía (one-tailed test).
B. Kiểm định hai phía (two-tailed test).
C. Kiểm định Chi-square.
D. Phân tích hồi quy.
112. Trong thống kê, ‘khoảng tứ phân vị’ (interquartile range – IQR) đo lường điều gì?
A. Sự phân tán của dữ liệu xung quanh giá trị trung bình.
B. Khoảng cách giữa giá trị nhỏ nhất và lớn nhất trong dữ liệu.
C. Khoảng cách giữa phân vị thứ nhất (Q1) và phân vị thứ ba (Q3) của dữ liệu.
D. Số lượng giá trị trong một tập dữ liệu.
113. Trong phân tích dữ liệu, ‘giá trị ngoại lai’ (outlier) là gì?
A. Một giá trị nằm gần giá trị trung bình của dữ liệu.
B. Một giá trị khác biệt đáng kể so với các giá trị khác trong tập dữ liệu.
C. Giá trị bằng 0.
D. Giá trị lớn nhất trong tập dữ liệu.
114. Trong thống kê, ‘dữ liệu định lượng’ (quantitative data) là gì?
A. Dữ liệu mô tả các đặc điểm hoặc thuộc tính không thể đo lường bằng số.
B. Dữ liệu được biểu thị bằng các con số, có thể đo lường và phân tích bằng các phương pháp thống kê.
C. Dữ liệu không có giá trị.
D. Dữ liệu không liên quan đến vấn đề đang nghiên cứu.
115. Ý nghĩa của ‘độ lệch chuẩn của sai số’ (standard error of the estimate) trong phân tích hồi quy là gì?
A. Mức độ phân tán của các điểm dữ liệu xung quanh đường hồi quy.
B. Độ chính xác của ước tính hệ số hồi quy.
C. Phần trăm phương sai của biến phụ thuộc được giải thích bởi biến độc lập.
D. Giá trị trung bình của các sai số trong mô hình.
116. Khi nào thì một biến được coi là ‘có ý nghĩa thống kê’?
A. Khi giá trị p của nó lớn hơn mức ý nghĩa (ví dụ, 0.05).
B. Khi nó có hệ số hồi quy bằng 0.
C. Khi giá trị p của nó nhỏ hơn hoặc bằng mức ý nghĩa (ví dụ, 0.05).
D. Khi nó không có ảnh hưởng đến biến phụ thuộc.
117. Trong phân tích hồi quy, điều gì biểu thị mối quan hệ nghịch biến giữa hai biến?
A. Hệ số hồi quy dương.
B. Hệ số hồi quy bằng 0.
C. Hệ số hồi quy âm.
D. Giá trị p nhỏ.
118. Trong phân tích dữ liệu, ý nghĩa của ‘phân vị’ (percentile) là gì?
A. Giá trị trung bình của một tập dữ liệu.
B. Giá trị chia dữ liệu thành 10 phần bằng nhau.
C. Giá trị chia dữ liệu thành 100 phần bằng nhau.
D. Độ lệch chuẩn của một tập dữ liệu.
119. Trong một bài kiểm định giả thuyết, giá trị p (p-value) đại diện cho điều gì?
A. Xác suất bác bỏ giả thuyết null khi nó đúng.
B. Xác suất chấp nhận giả thuyết null.
C. Xác suất quan sát dữ liệu hoặc dữ liệu cực đoan hơn, giả sử giả thuyết null là đúng.
D. Xác suất giả thuyết thay thế là đúng.
120. Trong thống kê, khái niệm ‘độ lệch chuẩn’ (standard deviation) đo lường điều gì?
A. Giá trị trung bình của một tập dữ liệu.
B. Sự phân tán hoặc biến thiên của dữ liệu xung quanh giá trị trung bình.
C. Số lượng các điểm dữ liệu trong một tập hợp.
D. Mối quan hệ giữa hai biến.
121. Trong phân tích dữ liệu, ‘skewness’ (độ lệch) là gì?
A. Đo lường sự phân tán của dữ liệu.
B. Đo lường tính đối xứng của phân phối dữ liệu.
C. Đo lường giá trị trung bình của dữ liệu.
D. Đo lường mối quan hệ giữa các biến.
122. Trong phân tích dữ liệu, ‘multicollinearity’ (đa cộng tuyến) có thể dẫn đến hậu quả gì?
A. Ước lượng các hệ số hồi quy không bị ảnh hưởng.
B. Các ước lượng hệ số hồi quy trở nên không ổn định và khó giải thích.
C. Hệ số xác định (R-squared) tăng.
D. Kiểm định t trở nên mạnh mẽ hơn.
123. Trong kiểm định giả thuyết, giá trị p (p-value) đại diện cho điều gì?
A. Xác suất bác bỏ giả thuyết null khi nó đúng.
B. Xác suất chấp nhận giả thuyết null.
C. Xác suất quan sát dữ liệu có được, hoặc dữ liệu cực đoan hơn, nếu giả thuyết null là đúng.
D. Mức ý nghĩa thống kê của kiểm định.
124. Trong phân tích dữ liệu, ‘outlier’ (giá trị ngoại lai) là gì?
A. Giá trị nằm gần giá trị trung bình của dữ liệu.
B. Giá trị nằm ngoài phạm vi phân phối của dữ liệu.
C. Giá trị không ảnh hưởng đến kết quả phân tích.
D. Giá trị bằng 0.
125. Trong phân tích dữ liệu, mục tiêu chính của việc chuẩn hóa dữ liệu là gì?
A. Giảm thiểu ảnh hưởng của các giá trị ngoại lai.
B. Chuyển đổi dữ liệu về cùng một thang đo để dễ dàng so sánh.
C. Tăng cường mối quan hệ giữa các biến.
D. Loại bỏ các giá trị bị thiếu.
126. Trong phân tích hồi quy, điều gì xảy ra nếu có đa cộng tuyến (multicollinearity) giữa các biến độc lập?
A. Ước lượng các hệ số hồi quy không bị ảnh hưởng.
B. Các ước lượng hệ số hồi quy trở nên không ổn định và khó giải thích.
C. Hệ số xác định (R-squared) giảm.
D. Kiểm định t trở nên mạnh mẽ hơn.
127. Trong kiểm định giả thuyết, ‘power’ (công suất) của kiểm định là gì?
A. Xác suất bác bỏ giả thuyết null khi nó đúng.
B. Xác suất chấp nhận giả thuyết null khi nó sai.
C. Xác suất bác bỏ giả thuyết null khi nó sai.
D. Xác suất chấp nhận giả thuyết null.
128. Trong phân tích dữ liệu, mục tiêu của việc loại bỏ các giá trị ngoại lai (outliers) là gì?
A. Để tăng độ chính xác của các ước lượng.
B. Để giảm thiểu ảnh hưởng của các giá trị cực đoan đến kết quả phân tích.
C. Để tăng R-squared trong mô hình hồi quy.
D. Tất cả các đáp án trên.
129. Trong phân tích hồi quy tuyến tính, hệ số xác định (R-squared) đo lường điều gì?
A. Mức độ phù hợp của mô hình, thể hiện phần trăm phương sai của biến phụ thuộc được giải thích bởi biến độc lập.
B. Độ lớn của mối quan hệ giữa các biến độc lập và biến phụ thuộc.
C. Độ lệch chuẩn của các hệ số hồi quy.
D. Giá trị trung bình của biến phụ thuộc.
130. Ý nghĩa của khoảng tin cậy (confidence interval) trong thống kê là gì?
A. Khoảng giá trị mà trong đó giá trị trung bình của tổng thể có khả năng nằm.
B. Xác suất để một giá trị nằm trong một khoảng nhất định.
C. Độ lệch chuẩn của dữ liệu.
D. Giá trị trung bình của mẫu.
131. Trong phân tích dữ liệu, ‘missing data’ (dữ liệu bị thiếu) là gì?
A. Giá trị không hợp lệ trong dữ liệu.
B. Các giá trị không được ghi nhận trong tập dữ liệu.
C. Giá trị ngoại lai trong dữ liệu.
D. Dữ liệu được chuẩn hóa.
132. Trong thống kê, khái niệm ‘bias’ (thiên lệch) đề cập đến điều gì?
A. Sự khác biệt giữa giá trị ước tính và giá trị thực tế của tham số tổng thể.
B. Độ phân tán của dữ liệu.
C. Xác suất để một giá trị nằm trong một khoảng nhất định.
D. Giá trị trung bình của mẫu.
133. Trong phân tích thời gian, ‘trend’ (xu hướng) đề cập đến điều gì?
A. Sự biến động ngẫu nhiên trong dữ liệu.
B. Sự thay đổi có hệ thống và kéo dài trong dữ liệu theo thời gian.
C. Sự lặp lại theo mùa trong dữ liệu.
D. Mối quan hệ giữa các biến tại cùng một thời điểm.
134. Trong kiểm định Chi-square, giả thuyết null thường là gì?
A. Hai biến độc lập.
B. Hai biến không liên quan.
C. Hai biến có mối quan hệ tuyến tính.
D. Hai biến có mối quan hệ nhân quả.
135. Trong phân tích dữ liệu, ‘imputation’ (ước lượng) là gì?
A. Việc loại bỏ các giá trị bị thiếu.
B. Việc thay thế các giá trị bị thiếu bằng các giá trị ước lượng.
C. Việc chuẩn hóa dữ liệu.
D. Việc phân tích dữ liệu bị thiếu.
136. Trong phân tích phương sai (ANOVA), giả thuyết null thường là gì?
A. Ít nhất một nhóm có giá trị trung bình khác biệt với các nhóm còn lại.
B. Giá trị trung bình của tất cả các nhóm là bằng nhau.
C. Phương sai giữa các nhóm bằng phương sai trong các nhóm.
D. Không có sự khác biệt giữa các nhóm.
137. Trong phân tích hồi quy, điều gì là quan trọng để kiểm tra giả định về tính độc lập của phần dư?
A. Kiểm tra xem phần dư có phân phối chuẩn hay không.
B. Kiểm tra xem phần dư có phương sai không đổi hay không.
C. Kiểm tra xem có tự tương quan trong phần dư hay không.
D. Kiểm tra xem phần dư có giá trị trung bình bằng 0 hay không.
138. Trong phân tích phương sai (ANOVA), F-statistic được sử dụng để làm gì?
A. Kiểm định sự khác biệt giữa các phương sai của các nhóm.
B. Kiểm định sự khác biệt giữa các giá trị trung bình của các nhóm.
C. Đo lường mức độ tương quan giữa các biến.
D. Đo lường độ tin cậy của các ước lượng.
139. Trong phân tích nhân tố, các yếu tố (factors) được xác định như thế nào?
A. Bằng cách xác định các biến có phương sai cao nhất.
B. Bằng cách nhóm các biến có tương quan cao với nhau.
C. Bằng cách loại bỏ các biến có phương sai thấp.
D. Bằng cách sử dụng các giá trị trung bình của các biến.
140. Mục tiêu chính của phân tích hồi quy logistic là gì?
A. Dự đoán giá trị liên tục của biến phụ thuộc.
B. Phân loại các quan sát vào các nhóm riêng biệt.
C. Xác định mối quan hệ tuyến tính giữa các biến.
D. Đo lường mức độ tương quan giữa các biến.
141. Trong kiểm định giả thuyết, giá trị tới hạn (critical value) được sử dụng để làm gì?
A. Tính toán giá trị p.
B. Xác định vùng bác bỏ.
C. Đo lường mức độ tin cậy của kiểm định.
D. Đo lường độ lệch chuẩn của dữ liệu.
142. Trong thống kê, ‘Type I error’ (lỗi loại I) là gì?
A. Chấp nhận giả thuyết null khi nó sai.
B. Bác bỏ giả thuyết null khi nó đúng.
C. Chấp nhận giả thuyết null.
D. Bác bỏ giả thuyết null.
143. Trong phân tích cụm (clustering), mục tiêu chính là gì?
A. Dự đoán giá trị của biến phụ thuộc.
B. Phân loại các quan sát vào các nhóm dựa trên sự tương đồng của chúng.
C. Xác định mối quan hệ tuyến tính giữa các biến.
D. Đo lường mức độ tương quan giữa các biến.
144. Trong kiểm định giả thuyết, mức ý nghĩa (significance level) alpha (α) đại diện cho điều gì?
A. Xác suất chấp nhận giả thuyết null.
B. Xác suất bác bỏ giả thuyết null khi nó đúng.
C. Xác suất để quan sát dữ liệu.
D. Mức độ tin cậy của kiểm định.
145. Trong phân tích dữ liệu, ‘sampling bias’ (thiên lệch mẫu) là gì?
A. Sự khác biệt giữa giá trị ước tính và giá trị thực tế của tham số tổng thể.
B. Thiên lệch do việc chọn mẫu không đại diện cho tổng thể.
C. Thiên lệch trong việc thu thập dữ liệu.
D. Thiên lệch do lỗi đo lường.
146. Điều gì thể hiện sự vi phạm giả định về phương sai không đổi (homoscedasticity) trong mô hình hồi quy?
A. Phân phối của phần dư có dạng hình chuông.
B. Phần dư có phương sai thay đổi theo các mức dự đoán của biến phụ thuộc.
C. Phần dư có giá trị trung bình bằng 0.
D. Không có tương quan giữa các phần dư.
147. Trong thống kê, ‘Type II error’ (lỗi loại II) là gì?
A. Chấp nhận giả thuyết null khi nó sai.
B. Bác bỏ giả thuyết null khi nó đúng.
C. Chấp nhận giả thuyết null.
D. Bác bỏ giả thuyết null.
148. Trong thống kê, ‘kurtosis’ (độ nhọn) là gì?
A. Đo lường sự phân tán của dữ liệu.
B. Đo lường độ đối xứng của phân phối dữ liệu.
C. Đo lường độ tập trung của dữ liệu ở phần đuôi.
D. Đo lường giá trị trung bình của dữ liệu.
149. Trong phân tích dữ liệu, ‘cross-validation’ (thẩm định chéo) được sử dụng để làm gì?
A. Đánh giá hiệu suất của mô hình trên tập dữ liệu đào tạo.
B. Đánh giá hiệu suất của mô hình trên tập dữ liệu kiểm định.
C. Đánh giá độ tin cậy của ước lượng tham số.
D. Tất cả các đáp án trên.
150. Trong phân tích dữ liệu thời gian, hiện tượng tự tương quan (autocorrelation) có nghĩa là gì?
A. Các giá trị của một biến tại các thời điểm khác nhau độc lập với nhau.
B. Các giá trị của một biến tại các thời điểm khác nhau có liên quan với nhau.
C. Không có mối quan hệ giữa các biến trong chuỗi thời gian.
D. Phương sai của các phần dư không đổi theo thời gian.