1. Một nhà nghiên cứu muốn xác định xem có mối quan hệ tuyến tính giữa số giờ học và điểm thi hay không. Nên sử dụng phương pháp thống kê nào?
A. Phân tích phương sai (ANOVA).
B. Hồi quy tuyến tính.
C. Kiểm định t.
D. Kiểm định Chi-square.
2. Trong phân tích phương sai (ANOVA), mục đích chính là gì?
A. So sánh phương sai của hai mẫu.
B. So sánh trung bình của hai mẫu.
C. So sánh trung bình của nhiều hơn hai nhóm.
D. Đo lường mối quan hệ giữa hai biến định lượng.
3. Khi nào thì nên sử dụng kiểm định phi tham số (non-parametric test) thay vì kiểm định tham số (parametric test)?
A. Khi dữ liệu tuân theo phân phối chuẩn.
B. Khi kích thước mẫu lớn.
C. Khi dữ liệu không tuân theo phân phối chuẩn hoặc khi dữ liệu là thứ bậc (ordinal).
D. Khi phương sai của tổng thể đã biết.
4. Một công ty muốn kiểm tra xem một chiến dịch quảng cáo mới có làm tăng doanh số bán hàng hay không. Họ thu thập dữ liệu doanh số trước và sau chiến dịch. Nên sử dụng kiểm định thống kê nào?
A. Kiểm định Chi-square.
B. Kiểm định t ghép cặp (paired t-test).
C. Phân tích phương sai (ANOVA).
D. Hồi quy tuyến tính.
5. Trong kiểm định giả thuyết, mức ý nghĩa (alpha) thường được đặt là 0.05. Điều này có nghĩa là gì?
A. Xác suất mắc sai lầm loại II là 5%.
B. Xác suất chấp nhận giả thuyết H0 khi nó đúng là 5%.
C. Xác suất bác bỏ giả thuyết H0 khi nó đúng là 5%.
D. Xác suất chấp nhận giả thuyết H0 khi nó sai là 5%.
6. Độ lệch chuẩn (standard deviation) đo lường điều gì?
A. Giá trị trung bình của một tập dữ liệu.
B. Mức độ phân tán của dữ liệu so với giá trị trung bình.
C. Mức độ tập trung của dữ liệu xung quanh trung vị.
D. Xác suất xảy ra một sự kiện.
7. Khi nào nên sử dụng kiểm định t (t-test) thay vì kiểm định z (z-test) để so sánh trung bình của hai nhóm?
A. Khi kích thước mẫu lớn (n > 30).
B. Khi phương sai của tổng thể đã biết.
C. Khi kích thước mẫu nhỏ (n < 30) và phương sai của tổng thể chưa biết.
D. Khi dữ liệu tuân theo phân phối chuẩn.
8. Khi nào thì nên sử dụng phương pháp lấy mẫu phân tầng (stratified sampling)?
A. Khi tổng thể đồng nhất.
B. Khi không có thông tin về tổng thể.
C. Khi tổng thể có các nhóm (strata) khác nhau và chúng ta muốn đảm bảo mỗi nhóm được đại diện đầy đủ trong mẫu.
D. Khi muốn tiết kiệm chi phí lấy mẫu.
9. Một nhà nghiên cứu muốn xác định xem có mối quan hệ giữa hút thuốc và bệnh phổi hay không. Họ thu thập dữ liệu từ một mẫu lớn người và ghi lại tình trạng hút thuốc và tình trạng bệnh phổi của họ. Nên sử dụng kiểm định nào để xác định mối quan hệ này?
A. Kiểm định t.
B. Kiểm định Chi-square.
C. Hồi quy tuyến tính.
D. Phân tích phương sai (ANOVA).
10. Khoảng tin cậy (confidence interval) cho trung bình của một tổng thể được hiểu như thế nào?
A. Xác suất trung bình của tổng thể nằm trong khoảng đó.
B. Khoảng giá trị mà chúng ta tin rằng trung bình của mẫu sẽ rơi vào.
C. Khoảng giá trị mà chúng ta tin rằng trung bình của tổng thể sẽ rơi vào với một độ tin cậy nhất định.
D. Khoảng giá trị chứa tất cả các giá trị có thể của tổng thể.
11. Một nhà máy sản xuất ốc vít. Trọng lượng của ốc vít tuân theo phân phối chuẩn với trung bình là 10 gram và độ lệch chuẩn là 0.5 gram. Một ốc vít được coi là lỗi nếu trọng lượng của nó nhỏ hơn 9 gram hoặc lớn hơn 11 gram. Tính xác suất một ốc vít được sản xuất là lỗi.
A. 0.0228
B. 0.0456
C. 0.2704
D. 0.9544
12. Một tập dữ liệu có các giá trị: 2, 4, 6, 8, 10. Tính phương sai (variance) của tập dữ liệu này.
13. Phân phối nào sau đây thường được sử dụng để mô hình hóa số lượng sự kiện xảy ra trong một khoảng thời gian hoặc không gian nhất định?
A. Phân phối chuẩn (Normal distribution).
B. Phân phối nhị thức (Binomial distribution).
C. Phân phối Poisson (Poisson distribution).
D. Phân phối đều (Uniform distribution).
14. Trong phân tích hồi quy, một biến nhiễu (confounding variable) là gì?
A. Một biến độc lập không có ảnh hưởng đến biến phụ thuộc.
B. Một biến phụ thuộc không được đo lường.
C. Một biến có liên quan đến cả biến độc lập và biến phụ thuộc, gây ra sự sai lệch trong mối quan hệ giữa chúng.
D. Một biến ngẫu nhiên không thể kiểm soát được.
15. Một nhà hàng ghi nhận số lượng khách hàng đến mỗi giờ. Trong một giờ cao điểm, trung bình có 20 khách hàng. Tính xác suất để có đúng 15 khách hàng đến trong giờ đó (sử dụng phân phối Poisson).
A. 0.052
B. 0.152
C. 0.252
D. 0.352
16. Điều gì xảy ra với khoảng tin cậy khi kích thước mẫu tăng lên (giả sử các yếu tố khác không đổi)?
A. Khoảng tin cậy trở nên rộng hơn.
B. Khoảng tin cậy không thay đổi.
C. Khoảng tin cậy trở nên hẹp hơn.
D. Khoảng tin cậy dao động ngẫu nhiên.
17. Một cửa hàng bán quần áo ghi lại số lượng quần áo bán được mỗi ngày trong một tuần. Các số liệu là: 10, 12, 15, 11, 14, 16, 13. Tính trung bình (mean) số lượng quần áo bán được mỗi ngày.
18. Trong một cuộc khảo sát, người ta hỏi ý kiến về một sản phẩm mới (hài lòng, không hài lòng, trung lập). Nên sử dụng kiểm định nào để xác định xem có sự khác biệt đáng kể giữa các nhóm ý kiến hay không?
A. Kiểm định t.
B. Kiểm định z.
C. Kiểm định Chi-square.
D. Hồi quy logistic.
19. Trong thống kê, phương pháp lấy mẫu ngẫu nhiên đơn giản (simple random sampling) đảm bảo điều gì?
A. Mỗi phần tử trong tổng thể có cơ hội được chọn khác nhau.
B. Các phần tử được chọn theo một quy luật nhất định.
C. Mỗi phần tử trong tổng thể có cơ hội được chọn bằng nhau.
D. Chỉ những phần tử có đặc điểm nhất định mới được chọn.
20. Một tập dữ liệu có các giá trị: 5, 7, 9, 11, 13. Tính trung vị (median) của tập dữ liệu này.
21. Trong kiểm định giả thuyết thống kê, sai lầm loại I (Type I error) xảy ra khi nào?
A. Chấp nhận giả thuyết H0 khi nó đúng.
B. Bác bỏ giả thuyết H0 khi nó sai.
C. Chấp nhận giả thuyết H0 khi nó sai.
D. Bác bỏ giả thuyết H0 khi nó đúng.
22. Một công ty muốn ước tính tỷ lệ khách hàng hài lòng với sản phẩm của họ. Họ thu thập dữ liệu từ một mẫu ngẫu nhiên 200 khách hàng và thấy rằng 160 người hài lòng. Tính ước lượng điểm (point estimate) cho tỷ lệ khách hàng hài lòng.
23. Một tập dữ liệu có các giá trị: 1, 3, 5, 7, 9. Tính độ lệch chuẩn (standard deviation) của tập dữ liệu này.
24. Một tập dữ liệu có các giá trị: 2, 4, 6, 8, 10, 12. Tính khoảng tứ phân vị (interquartile range – IQR) của tập dữ liệu này.
25. Một công ty muốn so sánh hiệu quả của ba phương pháp đào tạo khác nhau. Họ chia ngẫu nhiên nhân viên thành ba nhóm và áp dụng mỗi phương pháp cho một nhóm. Sau đó, họ đánh giá hiệu suất làm việc của nhân viên. Nên sử dụng kiểm định nào để so sánh hiệu quả của ba phương pháp?
A. Kiểm định t.
B. Kiểm định Chi-square.
C. Phân tích phương sai (ANOVA).
D. Hồi quy tuyến tính.
26. Giá trị p (p-value) trong kiểm định giả thuyết thể hiện điều gì?
A. Xác suất giả thuyết H0 là đúng.
B. Xác suất mắc sai lầm loại II.
C. Xác suất quan sát được kết quả (hoặc kết quả cực đoan hơn) nếu giả thuyết H0 là đúng.
D. Mức ý nghĩa (significance level) của kiểm định.
27. Trong phân tích hồi quy tuyến tính, hệ số R-squared (R²) cho biết điều gì?
A. Độ mạnh của mối quan hệ giữa các biến độc lập.
B. Tỷ lệ phương sai của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình.
C. Mức ý nghĩa thống kê của các biến độc lập.
D. Sai số chuẩn của ước lượng.
28. Một nghiên cứu về chiều cao của sinh viên cho thấy chiều cao trung bình là 170cm với độ lệch chuẩn là 5cm. Tính khoảng tin cậy 95% cho chiều cao trung bình của sinh viên (giả sử phân phối chuẩn).
A. [160cm, 180cm]
B. [165cm, 175cm]
C. [169cm, 171cm]
D. [160cm, 170cm]
29. Một công ty sản xuất bóng đèn nhận thấy rằng 5% số bóng đèn bị lỗi. Nếu một khách hàng mua 10 bóng đèn, xác suất để có đúng 1 bóng đèn bị lỗi là bao nhiêu (sử dụng phân phối nhị thức)?
A. 0.000
B. 0.298
C. 0.050
D. 0.500
30. Trung vị (median) của một tập dữ liệu là gì?
A. Giá trị xuất hiện nhiều nhất trong tập dữ liệu.
B. Giá trị trung bình của tập dữ liệu.
C. Giá trị nằm giữa của tập dữ liệu đã được sắp xếp.
D. Tổng của tất cả các giá trị trong tập dữ liệu chia cho số lượng giá trị.
31. Một công ty muốn khảo sát mức độ hài lòng của khách hàng. Họ gửi khảo sát đến 1000 khách hàng đã mua sản phẩm của họ trong năm qua. Tỷ lệ phản hồi là 20%. Nhược điểm lớn nhất của phương pháp này là gì?
A. Kích thước mẫu quá nhỏ.
B. Tỷ lệ phản hồi thấp có thể dẫn đến sai lệch do những người phản hồi có thể có ý kiến khác biệt so với những người không phản hồi.
C. Khảo sát chỉ được gửi đến những khách hàng đã mua sản phẩm.
D. Việc gửi khảo sát tốn kém.
32. Phân phối Poisson thường được sử dụng để mô hình hóa điều gì?
A. Xác suất thành công trong một chuỗi các thử nghiệm độc lập.
B. Số lượng sự kiện xảy ra trong một khoảng thời gian hoặc không gian nhất định.
C. Thời gian giữa các sự kiện.
D. Biến liên tục có giá trị nằm giữa 0 và 1.
33. Một nhà quản lý dự án muốn ước tính thời gian hoàn thành một dự án. Họ liệt kê các hoạt động cần thiết, thời gian ước tính cho mỗi hoạt động (lạc quan, bi quan, khả năng cao nhất) và sử dụng phương pháp PERT (Program Evaluation and Review Technique) để tính thời gian dự kiến cho mỗi hoạt động. Công thức nào được sử dụng để tính thời gian dự kiến theo phương pháp PERT?
A. (Lạc quan + Bi quan + Khả năng cao nhất) / 3
B. (Lạc quan + 4 * Khả năng cao nhất + Bi quan) / 6
C. (Lạc quan + Khả năng cao nhất + Bi quan) / 6
D. (Lạc quan + 2 * Khả năng cao nhất + Bi quan) / 4
34. Một công ty bảo hiểm sử dụng phân phối Poisson để mô hình hóa số lượng yêu cầu bồi thường xảy ra trong một năm. Nếu trung bình có 3 yêu cầu bồi thường mỗi năm, xác suất có đúng 5 yêu cầu bồi thường trong một năm là bao nhiêu?
A. e^(-3) * 3^5 / 5!
B. e^(-5) * 5^3 / 3!
C. 3^5 / 5!
D. 5^3 / 3!
35. Một kỹ sư chất lượng kiểm tra một lô hàng gồm 1000 sản phẩm và phát hiện ra rằng 50 sản phẩm bị lỗi. Khoảng tin cậy 95% cho tỷ lệ sản phẩm lỗi trong lô hàng là gì? Để tính toán khoảng tin cậy này, bạn cần sử dụng phân phối nào?
A. Phân phối t (t-distribution).
B. Phân phối chuẩn (normal distribution).
C. Phân phối Chi bình phương (Chi-square distribution).
D. Phân phối F (F-distribution).
36. Giá trị p (p-value) trong kiểm định giả thuyết biểu thị điều gì?
A. Xác suất giả thuyết H0 là đúng.
B. Xác suất mắc sai lầm loại II.
C. Xác suất thu được kết quả thống kê (hoặc kết quả cực đoan hơn) nếu giả thuyết H0 là đúng.
D. Mức ý nghĩa (significance level) của kiểm định.
37. Một nhà nghiên cứu muốn so sánh hiệu quả của hai phương pháp giảng dạy khác nhau. Họ chia ngẫu nhiên 50 sinh viên thành hai nhóm, mỗi nhóm 25 sinh viên, và áp dụng mỗi phương pháp cho một nhóm. Sau đó, họ kiểm tra kết quả của cả hai nhóm. Kiểm định thống kê nào phù hợp nhất để so sánh kết quả của hai nhóm?
A. Kiểm định Chi bình phương (Chi-square test).
B. Kiểm định t độc lập (independent t-test).
C. Phân tích phương sai (ANOVA).
D. Hồi quy tuyến tính (linear regression).
38. Trong lý thuyết quyết định (decision theory), giá trị kỳ vọng (expected value) được tính như thế nào?
A. Tổng các kết quả có thể xảy ra.
B. Trung bình của các kết quả có thể xảy ra.
C. Tổng của các kết quả có thể xảy ra nhân với xác suất tương ứng của chúng.
D. Kết quả có khả năng xảy ra cao nhất.
39. Một nhà đầu tư muốn đánh giá rủi ro của một khoản đầu tư. Họ sử dụng độ lệch chuẩn của lợi nhuận hàng tháng để đo lường rủi ro. Độ lệch chuẩn càng cao thì rủi ro càng…
A. Cao.
B. Thấp.
C. Không đổi.
D. Không thể xác định.
40. Trong kiểm định Chi bình phương (Chi-square test), thống kê kiểm định được sử dụng để làm gì?
A. Ước lượng trung bình quần thể.
B. So sánh phương sai giữa hai mẫu.
C. Kiểm tra sự phù hợp giữa phân phối thực nghiệm và phân phối lý thuyết.
D. Kiểm tra trung bình của một mẫu.
41. Khi nào thì nên sử dụng kiểm định ANOVA thay vì kiểm định t để so sánh trung bình của các nhóm?
A. Khi có đúng hai nhóm để so sánh.
B. Khi các nhóm không độc lập với nhau.
C. Khi có nhiều hơn hai nhóm để so sánh.
D. Khi biến phụ thuộc không tuân theo phân phối chuẩn.
42. Phân phối chuẩn (normal distribution) còn được gọi là phân phối gì?
A. Phân phối Poisson.
B. Phân phối Bernoulli.
C. Phân phối Gauss.
D. Phân phối nhị thức.
43. Một cửa hàng bán lẻ muốn dự đoán doanh số bán hàng dựa trên chi phí quảng cáo. Họ thu thập dữ liệu về doanh số và chi phí quảng cáo trong 12 tháng qua và thực hiện phân tích hồi quy tuyến tính. Kết quả cho thấy hệ số hồi quy cho chi phí quảng cáo là 0.8. Điều này có nghĩa là gì?
A. Doanh số bán hàng tăng 0.8% khi chi phí quảng cáo tăng 1%.
B. Doanh số bán hàng tăng 80% khi chi phí quảng cáo tăng 1%.
C. Doanh số bán hàng tăng 0.8 đơn vị khi chi phí quảng cáo tăng 1 đơn vị.
D. Chi phí quảng cáo tăng 0.8 đơn vị khi doanh số bán hàng tăng 1 đơn vị.
44. Hệ số tương quan (correlation coefficient) Pearson đo lường điều gì?
A. Mức độ biến thiên của hai biến.
B. Mức độ quan hệ tuyến tính giữa hai biến.
C. Mức độ quan hệ phi tuyến tính giữa hai biến.
D. Mức độ ảnh hưởng của một biến lên biến kia.
45. Trong kiểm định giả thuyết thống kê, sai lầm loại I (Type I error) xảy ra khi nào?
A. Chấp nhận giả thuyết H0 khi nó sai.
B. Bác bỏ giả thuyết H0 khi nó đúng.
C. Không bác bỏ giả thuyết H0 khi nó sai.
D. Bác bỏ giả thuyết H0 khi nó sai.
46. Trong lý thuyết xác suất, hai sự kiện được gọi là độc lập nếu điều gì xảy ra?
A. Xác suất xảy ra của một sự kiện ảnh hưởng đến xác suất xảy ra của sự kiện kia.
B. Hai sự kiện không thể xảy ra đồng thời.
C. Xác suất xảy ra của một sự kiện không ảnh hưởng đến xác suất xảy ra của sự kiện kia.
D. Tổng xác suất của hai sự kiện bằng 1.
47. Phương pháp lấy mẫu nào đảm bảo mọi phần tử của quần thể đều có cơ hội được chọn như nhau?
A. Lấy mẫu phân tầng (stratified sampling).
B. Lấy mẫu cụm (cluster sampling).
C. Lấy mẫu ngẫu nhiên đơn giản (simple random sampling).
D. Lấy mẫu thuận tiện (convenience sampling).
48. Một công ty muốn đánh giá xem một chương trình đào tạo mới có cải thiện năng suất của nhân viên hay không. Họ đo năng suất của 30 nhân viên trước và sau khi tham gia chương trình đào tạo. Kiểm định thống kê nào phù hợp nhất để đánh giá sự thay đổi năng suất của nhân viên?
A. Kiểm định t độc lập (independent t-test).
B. Kiểm định t ghép cặp (paired t-test).
C. Kiểm định Chi bình phương (Chi-square test).
D. Phân tích phương sai (ANOVA).
49. Trong phân tích phương sai (ANOVA), yếu tố nào sau đây được sử dụng để đo lường sự biến thiên giữa các nhóm?
A. Tổng bình phương sai số (SSE).
B. Tổng bình phương giữa các nhóm (SSB).
C. Tổng bình phương toàn phần (SST).
D. Độ lệch chuẩn.
50. Một nhà máy sản xuất bóng đèn tuyên bố rằng tuổi thọ trung bình của bóng đèn là 1000 giờ. Một người tiêu dùng mua 100 bóng đèn và thấy rằng tuổi thọ trung bình của chúng chỉ là 950 giờ, với độ lệch chuẩn là 80 giờ. Người tiêu dùng muốn kiểm định xem tuyên bố của nhà máy có đúng không. Giả thuyết H0 trong trường hợp này là gì?
A. Tuổi thọ trung bình của bóng đèn nhỏ hơn 1000 giờ.
B. Tuổi thọ trung bình của bóng đèn lớn hơn 1000 giờ.
C. Tuổi thọ trung bình của bóng đèn bằng 1000 giờ.
D. Tuổi thọ trung bình của bóng đèn khác 1000 giờ.
51. Trong thống kê mô tả, tứ phân vị (quartile) được sử dụng để làm gì?
A. Đo lường mức độ tập trung của dữ liệu.
B. Đo lường mức độ phân tán của dữ liệu.
C. Chia dữ liệu thành bốn phần bằng nhau.
D. Tính giá trị trung bình của dữ liệu.
52. Trong phân tích thời gian (time series analysis), thành phần nào sau đây thể hiện xu hướng dài hạn của dữ liệu?
A. Tính mùa vụ (seasonality).
B. Tính chu kỳ (cyclicality).
C. Xu hướng (trend).
D. Tính ngẫu nhiên (randomness).
53. Một nhà phân tích tài chính muốn ước tính lợi nhuận trung bình hàng năm của một cổ phiếu. Họ thu thập dữ liệu về lợi nhuận hàng năm của cổ phiếu trong 10 năm qua và tính được lợi nhuận trung bình là 12%, với độ lệch chuẩn là 5%. Họ muốn xây dựng một khoảng tin cậy 95% cho lợi nhuận trung bình thực tế của cổ phiếu. Yếu tố nào sau đây quan trọng nhất để xác định độ rộng của khoảng tin cậy?
A. Lợi nhuận trung bình mẫu.
B. Độ lệch chuẩn mẫu.
C. Kích thước mẫu.
D. Mức ý nghĩa (alpha).
54. Khi nào thì nên sử dụng kiểm định phi tham số (non-parametric test) thay vì kiểm định tham số (parametric test)?
A. Khi kích thước mẫu lớn.
B. Khi dữ liệu tuân theo phân phối chuẩn.
C. Khi phương sai của các nhóm bằng nhau.
D. Khi dữ liệu không tuân theo phân phối chuẩn hoặc kích thước mẫu nhỏ.
55. Một nhà nghiên cứu muốn tìm hiểu xem có mối liên hệ giữa trình độ học vấn và thu nhập hay không. Họ thu thập dữ liệu về trình độ học vấn (cấp 3, cao đẳng, đại học, sau đại học) và thu nhập hàng năm của 200 người. Kiểm định thống kê nào phù hợp nhất để phân tích mối liên hệ này?
A. Kiểm định t độc lập (independent t-test).
B. Phân tích phương sai (ANOVA).
C. Hồi quy tuyến tính (linear regression).
D. Kiểm định Chi bình phương (Chi-square test).
56. Trong kiểm định giả thuyết, mức ý nghĩa (alpha) được sử dụng để làm gì?
A. Xác định kích thước mẫu cần thiết.
B. Xác định xác suất mắc sai lầm loại II.
C. Xác định ngưỡng để bác bỏ giả thuyết H0.
D. Xác định giá trị p (p-value).
57. Độ lệch chuẩn (standard deviation) đo lường điều gì?
A. Mức độ tập trung của dữ liệu xung quanh giá trị trung bình.
B. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình.
C. Giá trị trung bình của dữ liệu.
D. Trung vị của dữ liệu.
58. Một công ty thực hiện một cuộc khảo sát trực tuyến và phát hiện ra rằng 70% người tham gia khảo sát thích sản phẩm mới của họ hơn sản phẩm cũ. Tuy nhiên, cuộc khảo sát chỉ được quảng bá trên trang web của công ty. Điều gì có thể ảnh hưởng đến tính đại diện của kết quả khảo sát này?
A. Kích thước mẫu quá lớn.
B. Những người truy cập trang web của công ty có thể không đại diện cho toàn bộ khách hàng tiềm năng.
C. Việc khảo sát trực tuyến không đáng tin cậy.
D. Sản phẩm mới thực sự tốt hơn sản phẩm cũ.
59. Ước lượng khoảng tin cậy (confidence interval) cho biết điều gì?
A. Giá trị chính xác của tham số quần thể.
B. Một khoảng giá trị mà tham số quần thể có khả năng nằm trong đó với một độ tin cậy nhất định.
C. Độ lệch chuẩn của mẫu.
D. Kích thước mẫu cần thiết để đạt được độ chính xác mong muốn.
60. Trong phân tích hồi quy tuyến tính, R-squared (R²) biểu thị điều gì?
A. Phương sai của sai số.
B. Tỷ lệ phương sai của biến phụ thuộc được giải thích bởi biến độc lập.
C. Tổng bình phương sai số.
D. Độ lệch chuẩn của biến độc lập.
61. Trong kiểm định giả thuyết, mức ý nghĩa (alpha) thường được chọn là 0.05. Điều này có nghĩa là gì?
A. Có 5% khả năng chấp nhận giả thuyết H0 khi H0 đúng.
B. Có 5% khả năng bác bỏ giả thuyết H0 khi H0 đúng.
C. Có 95% khả năng chấp nhận giả thuyết H0 khi H0 đúng.
D. Có 95% khả năng bác bỏ giả thuyết H0 khi H0 đúng.
62. Phương pháp lấy mẫu nào đảm bảo mỗi phần tử của tổng thể đều có cơ hội được chọn như nhau?
A. Lấy mẫu thuận tiện.
B. Lấy mẫu phân tầng.
C. Lấy mẫu ngẫu nhiên đơn giản.
D. Lấy mẫu theo cụm.
63. Khi nào thì nên sử dụng kiểm định phi tham số (non-parametric test) thay vì kiểm định tham số (parametric test)?
A. Khi dữ liệu tuân theo phân phối chuẩn.
B. Khi kích thước mẫu lớn.
C. Khi dữ liệu không tuân theo phân phối chuẩn hoặc kích thước mẫu nhỏ.
D. Khi cần so sánh trung bình của hai mẫu.
64. Điều gì xảy ra với độ rộng của khoảng tin cậy khi kích thước mẫu tăng lên (giả sử các yếu tố khác không đổi)?
A. Độ rộng khoảng tin cậy tăng lên.
B. Độ rộng khoảng tin cậy giảm xuống.
C. Độ rộng khoảng tin cậy không đổi.
D. Không thể xác định được sự thay đổi.
65. Một công ty sản xuất bóng đèn, tỷ lệ bóng đèn bị lỗi là 2%. Nếu bạn mua ngẫu nhiên 100 bóng, số lượng bóng đèn bị lỗi kỳ vọng là bao nhiêu?
66. Một nhà máy sản xuất sản phẩm với tỷ lệ phế phẩm là 5%. Nếu kiểm tra ngẫu nhiên 20 sản phẩm, xác suất có đúng 2 phế phẩm là bao nhiêu? (Sử dụng phân phối nhị thức)
A. C(20, 2) * (0.05)^2 * (0.95)^18
B. (0.05)^2
C. (0.95)^18
D. C(20, 2) * (0.95)^2 * (0.05)^18
67. Bạn gieo một con xúc xắc 6 mặt. Tính kỳ vọng của số bạn nhận được.
68. Một bài kiểm tra có 20 câu hỏi trắc nghiệm, mỗi câu có 4 lựa chọn. Nếu một học sinh chọn đáp án ngẫu nhiên cho tất cả các câu, xác suất để học sinh đó trả lời đúng ít nhất 1 câu là bao nhiêu?
A. 1 – (3/4)^20
B. (1/4)^20
C. 1 – (1/4)^20
D. (3/4)^20
69. Trong kiểm định giả thuyết thống kê, sai lầm loại I (Type I error) xảy ra khi nào?
A. Chấp nhận giả thuyết H0 khi H0 sai.
B. Bác bỏ giả thuyết H0 khi H0 đúng.
C. Chấp nhận giả thuyết H0 khi H0 đúng.
D. Bác bỏ giả thuyết H0 khi H0 sai.
70. Ý nghĩa của việc tính khoảng tin cậy (confidence interval) là gì?
A. Ước lượng một giá trị duy nhất cho tham số tổng thể.
B. Cung cấp một khoảng giá trị mà trong đó tham số tổng thể có khả năng nằm trong đó với một độ tin cậy nhất định.
C. Xác định mức ý nghĩa (alpha) cho kiểm định giả thuyết.
D. Tính toán sai số chuẩn của trung bình mẫu.
71. Trong phân tích hồi quy bội (multiple regression), VIF (Variance Inflation Factor) được sử dụng để làm gì?
A. Đo lường mức độ phù hợp của mô hình.
B. Kiểm tra sự đa cộng tuyến (multicollinearity) giữa các biến độc lập.
C. Đánh giá mức độ quan trọng của các biến độc lập.
D. Kiểm tra tính tuyến tính của mối quan hệ giữa các biến.
72. Phân phối nào sau đây thường được sử dụng để mô hình hóa số lượng sự kiện xảy ra trong một khoảng thời gian hoặc không gian nhất định?
A. Phân phối chuẩn.
B. Phân phối nhị thức.
C. Phân phối Poisson.
D. Phân phối mũ.
73. Hệ số tương quan (correlation coefficient) có giá trị nằm trong khoảng nào?
A. 0 đến 1
B. -1 đến 0
C. -1 đến 1
D. Âm vô cực đến dương vô cực
74. Trong thống kê, thuật ngữ ‘ngoại lệ’ (outlier) dùng để chỉ điều gì?
A. Giá trị trung bình của tập dữ liệu.
B. Giá trị xuất hiện nhiều nhất trong tập dữ liệu.
C. Giá trị khác biệt đáng kể so với các giá trị khác trong tập dữ liệu.
D. Giá trị nằm ở giữa tập dữ liệu đã được sắp xếp.
75. Khi nào nên sử dụng kiểm định t (t-test) thay vì kiểm định z (z-test) để so sánh trung bình của hai mẫu?
A. Khi kích thước mẫu lớn (n > 30).
B. Khi phương sai của tổng thể đã biết.
C. Khi kích thước mẫu nhỏ (n < 30) và phương sai của tổng thể chưa biết.
D. Khi so sánh trung bình của nhiều hơn hai mẫu.
76. Khi nào nên sử dụng kiểm định ANOVA hai yếu tố (two-way ANOVA)?
A. Khi so sánh trung bình của hai nhóm.
B. Khi so sánh trung bình của nhiều hơn hai nhóm với một yếu tố tác động.
C. Khi so sánh trung bình của nhiều hơn hai nhóm với hai yếu tố tác động.
D. Khi so sánh phương sai của hai nhóm.
77. Khi thực hiện kiểm định Chi-bình phương (Chi-square test), điều gì đang được kiểm tra?
A. Sự khác biệt giữa trung bình của hai mẫu.
B. Sự phù hợp giữa phân phối quan sát được và phân phối kỳ vọng.
C. Mối quan hệ tuyến tính giữa hai biến liên tục.
D. Sự bằng nhau của phương sai giữa hai mẫu.
78. Một cửa hàng nhận được trung bình 5 khách hàng mỗi giờ. Tính xác suất để cửa hàng nhận được đúng 3 khách hàng trong một giờ nhất định? (Sử dụng phân phối Poisson)
A. e^(-5) * (5^3) / 3!
B. 5^3 / 3!
C. e^(-3) * (3^5) / 5!
D. e^(-5)
79. Một nhà nghiên cứu muốn tìm hiểu xem có mối liên hệ giữa việc hút thuốc và nguy cơ mắc bệnh ung thư phổi hay không. Kiểm định thống kê nào phù hợp nhất để sử dụng?
A. Kiểm định t (t-test).
B. Kiểm định ANOVA.
C. Kiểm định Chi-bình phương (Chi-square test).
D. Phân tích hồi quy tuyến tính.
80. Khi so sánh hai thuật toán máy học để dự đoán, bạn sử dụng độ đo nào để đánh giá xem thuật toán nào tốt hơn về độ chính xác?
A. Phương sai.
B. Độ lệch chuẩn.
C. RMSE (Root Mean Squared Error).
D. Giá trị trung bình.
81. Trong một cuộc khảo sát, 60% người dân thích sản phẩm A. Nếu chọn ngẫu nhiên 10 người, xác suất để có đúng 6 người thích sản phẩm A là bao nhiêu? (Sử dụng phân phối nhị thức)
A. 0.6
B. C(10, 6) * (0.6)^6 * (0.4)^4
C. C(10, 6) * (0.4)^6 * (0.6)^4
D. 0.4
82. Trong phân tích hồi quy tuyến tính đơn giản, hệ số xác định (R-squared) đo lường điều gì?
A. Độ mạnh và hướng của mối quan hệ giữa các biến.
B. Tỷ lệ phương sai của biến phụ thuộc được giải thích bởi biến độc lập.
C. Mức độ ý nghĩa thống kê của các hệ số hồi quy.
D. Sai số chuẩn của các hệ số hồi quy.
83. Thời gian phục vụ một khách hàng tại một quầy giao dịch tuân theo phân phối mũ với trung bình là 4 phút. Tính xác suất để một khách hàng được phục vụ trong vòng 2 phút?
A. e^(-2/4)
B. 1 – e^(-2/4)
C. e^(-4/2)
D. 1 – e^(-4/2)
84. Một biến ngẫu nhiên X tuân theo phân phối chuẩn với trung bình là 10 và độ lệch chuẩn là 2. Tính P(8 < X < 12)?
A. P(Z < 1) – P(Z < -1)
B. P(Z < 2) – P(Z < -2)
C. P(Z < 1)
D. P(Z < -1)
85. Giá trị p (p-value) trong kiểm định giả thuyết thể hiện điều gì?
A. Xác suất giả thuyết H0 là đúng.
B. Xác suất giả thuyết H1 là đúng.
C. Xác suất quan sát được kết quả (hoặc kết quả cực đoan hơn) nếu giả thuyết H0 là đúng.
D. Mức ý nghĩa của kiểm định.
86. Trong một hộp có 5 bi đỏ và 3 bi xanh. Nếu bạn lấy ngẫu nhiên 2 bi, xác suất để cả hai bi đều đỏ là bao nhiêu?
A. 5/8
B. 25/64
C. 5/14
D. 10/56
87. Trong phân tích phương sai (ANOVA), mục tiêu chính là gì?
A. So sánh trung bình của hai nhóm.
B. So sánh phương sai của hai nhóm.
C. So sánh trung bình của nhiều hơn hai nhóm.
D. So sánh mối quan hệ giữa hai biến liên tục.
88. Trong một phân phối chuẩn, khoảng bao nhiêu phần trăm dữ liệu nằm trong khoảng một độ lệch chuẩn so với trung bình?
A. 50%
B. 68%
C. 95%
D. 99.7%
89. Trong thống kê mô tả, ‘trung vị’ là gì?
A. Giá trị trung bình của tập dữ liệu.
B. Giá trị xuất hiện nhiều nhất trong tập dữ liệu.
C. Giá trị ở giữa tập dữ liệu đã được sắp xếp.
D. Độ lệch trung bình của tập dữ liệu.
90. Đại lượng nào sau đây không phải là tham số đặc trưng cho một phân phối xác suất?
A. Trung bình mẫu.
B. Phương sai.
C. Trung vị.
D. Độ lệch chuẩn.
91. Trong bài toán dự báo doanh số bán hàng, mô hình nào sau đây phù hợp để mô tả xu hướng tăng trưởng theo thời gian?
A. Hồi quy tuyến tính.
B. Hồi quy đa thức.
C. Chuỗi thời gian.
D. Phân tích phương sai (ANOVA).
92. Trong thống kê mô tả, ‘độ lệch chuẩn’ đo lường điều gì?
A. Mức độ tập trung của dữ liệu xung quanh giá trị trung bình.
B. Mức độ phân tán của dữ liệu so với giá trị trung bình.
C. Giá trị lớn nhất trong tập dữ liệu.
D. Giá trị nhỏ nhất trong tập dữ liệu.
93. Một công ty sản xuất bóng đèn kiểm tra chất lượng bằng cách lấy mẫu ngẫu nhiên 100 bóng đèn từ lô hàng 10000 bóng. Họ thấy rằng 5 bóng đèn bị lỗi. Ước tính tỷ lệ bóng đèn bị lỗi trong toàn bộ lô hàng là bao nhiêu?
A. 5%
B. 0.5%
C. 0.05%
D. Không thể ước tính.
94. Trong phân tích chuỗi thời gian, thành phần nào sau đây mô tả sự biến động ngắn hạn và không đều đặn trong dữ liệu?
A. Xu hướng (Trend).
B. Tính mùa vụ (Seasonality).
C. Chu kỳ (Cycle).
D. Tính ngẫu nhiên (Irregularity).
95. Đại lượng nào sau đây đo lường mức độ phân tán của dữ liệu so với giá trị trung bình?
A. Trung vị.
B. Phương sai.
C. Mốt.
D. Khoảng biến thiên.
96. Một công ty muốn dự đoán doanh số bán hàng cho quý tới. Họ sử dụng mô hình hồi quy tuyến tính với các biến độc lập như chi phí quảng cáo, giá sản phẩm và thu nhập của khách hàng. Để đánh giá mức độ phù hợp của mô hình, họ nên sử dụng chỉ số nào?
A. Kiểm định t.
B. Thống kê F.
C. Hệ số xác định (R-squared).
D. Độ lệch chuẩn.
97. Điều gì xảy ra với độ rộng của khoảng tin cậy khi kích thước mẫu tăng lên, với các yếu tố khác không đổi?
A. Độ rộng tăng lên.
B. Độ rộng giảm xuống.
C. Độ rộng không thay đổi.
D. Độ rộng có thể tăng hoặc giảm tùy thuộc vào dữ liệu.
98. Giá trị P (p-value) trong kiểm định giả thuyết có ý nghĩa gì?
A. Xác suất giả thuyết null là đúng.
B. Xác suất mắc sai lầm loại I.
C. Xác suất thu được kết quả kiểm định ít nhất cực đoan bằng kết quả quan sát được, giả sử giả thuyết null là đúng.
D. Mức ý nghĩa thống kê của kiểm định.
99. Công thức nào sau đây được sử dụng để tính khoảng tin cậy cho trung bình tổng thể khi độ lệch chuẩn tổng thể đã biết?
A. x̄ ± z*(σ/√n)
B. x̄ ± t*(s/√n)
C. x̄ ± z*(s/√n)
D. x̄ ± t*(σ/√n)
100. Một công ty muốn ước tính tỷ lệ khách hàng hài lòng với sản phẩm mới. Họ thu thập dữ liệu từ một mẫu ngẫu nhiên 200 khách hàng và thấy rằng 160 người hài lòng. Khoảng tin cậy 95% cho tỷ lệ khách hàng hài lòng là bao nhiêu (ước lượng điểm ± sai số)?
A. 0.8 ± 0.028
B. 0.8 ± 0.056
C. 0.8 ± 0.08
D. 0.8 ± 0.113
101. Một hệ thống có độ tin cậy 0.9. Điều này có nghĩa là:
A. Hệ thống sẽ hoạt động sai 90% thời gian.
B. Hệ thống sẽ hoạt động đúng 90% thời gian.
C. Hệ thống sẽ hoạt động sai 10% thời gian.
D. Không thể xác định được khả năng hoạt động của hệ thống.
102. Trong kiểm định giả thuyết thống kê, sai lầm loại I (Type I error) xảy ra khi nào?
A. Bác bỏ giả thuyết null khi nó thực sự đúng.
B. Chấp nhận giả thuyết null khi nó thực sự sai.
C. Không bác bỏ giả thuyết null khi nó thực sự đúng.
D. Bác bỏ giả thuyết null khi nó thực sự sai.
103. Trong lý thuyết xác suất, hai sự kiện được gọi là độc lập nếu:
A. Chúng không thể xảy ra cùng một lúc.
B. Xác suất xảy ra sự kiện này ảnh hưởng đến xác suất xảy ra sự kiện kia.
C. Xác suất xảy ra sự kiện này không ảnh hưởng đến xác suất xảy ra sự kiện kia.
D. Tổng xác suất của chúng bằng 1.
104. Khi nào thì nên sử dụng kiểm định t (t-test) thay vì kiểm định z (z-test) để so sánh trung bình của hai mẫu?
A. Khi kích thước mẫu lớn (n > 30).
B. Khi phương sai của tổng thể đã biết.
C. Khi kích thước mẫu nhỏ (n < 30) và phương sai của tổng thể chưa biết.
D. Khi muốn so sánh trung bình của nhiều hơn hai mẫu.
105. Một nhà quản lý muốn đánh giá xem có sự khác biệt về năng suất giữa ba ca làm việc khác nhau trong nhà máy hay không. Phương pháp thống kê nào phù hợp nhất để sử dụng?
A. Kiểm định t.
B. Phân tích phương sai (ANOVA).
C. Hồi quy tuyến tính.
D. Kiểm định khi bình phương.
106. Một hộp chứa 5 viên bi đỏ và 3 viên bi xanh. Nếu bạn rút ngẫu nhiên 2 viên bi mà không hoàn lại, xác suất để rút được 2 viên bi đỏ là bao nhiêu?
A. 5/8 * 5/8
B. 5/8 * 4/7
C. 5/8 + 4/7
D. 5/8 / 4/7
107. Trong lý thuyết quyết định, giá trị kỳ vọng (expected value) được tính như thế nào?
A. Tổng của các kết quả có thể xảy ra.
B. Trung bình của các kết quả có thể xảy ra.
C. Tổng của tích các kết quả có thể xảy ra với xác suất tương ứng của chúng.
D. Tích của các kết quả có thể xảy ra với xác suất tương ứng của chúng.
108. Giá trị trung vị của một tập dữ liệu là gì?
A. Giá trị xuất hiện nhiều nhất trong tập dữ liệu.
B. Giá trị trung bình của tập dữ liệu.
C. Giá trị nằm chính giữa tập dữ liệu đã được sắp xếp.
D. Tổng của tất cả các giá trị trong tập dữ liệu chia cho số lượng giá trị.
109. Một cửa hàng muốn kiểm tra xem có sự khác biệt về doanh số bán hàng giữa các ngày trong tuần hay không. Họ thu thập dữ liệu doanh số bán hàng trong một tháng và sử dụng kiểm định ANOVA. Kết quả cho thấy giá trị p = 0.03. Với mức ý nghĩa alpha = 0.05, kết luận nào sau đây là đúng?
A. Không có sự khác biệt về doanh số bán hàng giữa các ngày trong tuần.
B. Có sự khác biệt về doanh số bán hàng giữa các ngày trong tuần.
C. Cần tăng kích thước mẫu để đưa ra kết luận.
D. Không thể đưa ra kết luận.
110. Công thức nào sau đây được sử dụng để tính xác suất của sự kiện A hoặc sự kiện B xảy ra, biết rằng A và B là hai sự kiện loại trừ lẫn nhau?
A. P(A hoặc B) = P(A) + P(B)
B. P(A hoặc B) = P(A) * P(B)
C. P(A hoặc B) = P(A) + P(B) – P(A và B)
D. P(A hoặc B) = P(A) / P(B)
111. Khi nào thì nên sử dụng kiểm định phi tham số thay vì kiểm định tham số?
A. Khi dữ liệu tuân theo phân phối chuẩn.
B. Khi kích thước mẫu lớn.
C. Khi dữ liệu không tuân theo phân phối chuẩn hoặc kích thước mẫu nhỏ.
D. Khi muốn so sánh trung bình của hai mẫu.
112. Trong phân tích hồi quy, hiện tượng đa cộng tuyến (multicollinearity) xảy ra khi nào?
A. Khi có mối tương quan cao giữa các biến độc lập.
B. Khi có mối tương quan cao giữa biến độc lập và biến phụ thuộc.
C. Khi sai số có phân phối không chuẩn.
D. Khi phương sai của sai số thay đổi.
113. Chọn khẳng định đúng về phân phối chuẩn:
A. Phân phối chuẩn là phân phối rời rạc.
B. Phân phối chuẩn có dạng bất đối xứng.
C. Phân phối chuẩn hoàn toàn được xác định bởi trung bình và độ lệch chuẩn.
D. Phân phối chuẩn có đuôi bị chặn.
114. Khi thực hiện một kiểm định giả thuyết, mức ý nghĩa (alpha) được sử dụng để làm gì?
A. Để tính giá trị p.
B. Để xác định kích thước mẫu cần thiết.
C. Để xác định ngưỡng bác bỏ giả thuyết null.
D. Để ước lượng khoảng tin cậy.
115. Một nhà nghiên cứu muốn xác định xem có mối liên hệ giữa việc hút thuốc và nguy cơ mắc bệnh ung thư phổi hay không. Phương pháp thống kê nào phù hợp nhất để sử dụng?
A. Kiểm định t.
B. Phân tích phương sai (ANOVA).
C. Hồi quy tuyến tính.
D. Kiểm định khi bình phương.
116. Trong phân tích ANOVA, yếu tố nào sau đây được sử dụng để so sánh sự khác biệt giữa các nhóm?
A. Kiểm định t.
B. Thống kê F.
C. Hệ số tương quan.
D. Phương sai.
117. Trong phân phối Poisson, tham số lambda (λ) đại diện cho điều gì?
A. Xác suất thành công trong một thử nghiệm.
B. Số lượng thử nghiệm.
C. Trung bình số lượng sự kiện xảy ra trong một khoảng thời gian hoặc không gian nhất định.
D. Độ lệch chuẩn của phân phối.
118. Trong phân tích hồi quy tuyến tính, hệ số xác định (R-squared) cho biết điều gì?
A. Mức độ quan hệ nhân quả giữa biến độc lập và biến phụ thuộc.
B. Tỷ lệ phần trăm biến thiên của biến phụ thuộc được giải thích bởi biến độc lập.
C. Độ mạnh của mối tương quan giữa các biến độc lập.
D. Sai số chuẩn của ước lượng hồi quy.
119. Một nhà phân tích tài chính sử dụng hồi quy tuyến tính để dự đoán giá cổ phiếu dựa trên các yếu tố kinh tế vĩ mô. Sau khi xây dựng mô hình, họ nhận thấy rằng phần dư (residuals) của mô hình có xu hướng tăng lên khi giá cổ phiếu tăng. Điều này cho thấy điều gì?
A. Mô hình có hiện tượng đa cộng tuyến.
B. Mô hình có hiện tượng phương sai sai số thay đổi (heteroscedasticity).
C. Mô hình có hiện tượng tự tương quan.
D. Mô hình phù hợp.
120. Trong kiểm định khi bình phương (Chi-square), giả thuyết null thường phát biểu điều gì?
A. Có mối liên hệ giữa các biến.
B. Không có mối liên hệ giữa các biến.
C. Các biến có phân phối chuẩn.
D. Phương sai giữa các nhóm là bằng nhau.
121. Giả sử bạn có một biến định lượng liên tục và bạn muốn chia nó thành các nhóm (ví dụ: tuổi từ 18-25, 26-35, 36-45). Quá trình này được gọi là gì?
A. Chuẩn hóa.
B. Rời rạc hóa.
C. Tái cấu trúc.
D. Phân tích thành phần chính.
122. Trong kiểm định giả thuyết thống kê, sai lầm loại I xảy ra khi nào?
A. Chấp nhận giả thuyết H0 khi nó sai.
B. Bác bỏ giả thuyết H0 khi nó đúng.
C. Chấp nhận giả thuyết H1 khi nó đúng.
D. Bác bỏ giả thuyết H1 khi nó sai.
123. Khi nào thì nên sử dụng phương pháp lấy mẫu phân tầng (stratified sampling)?
A. Khi quần thể đồng nhất.
B. Khi quần thể được chia thành các nhóm (strata) khác nhau và bạn muốn đảm bảo mỗi nhóm được đại diện trong mẫu.
C. Khi bạn không có thông tin gì về quần thể.
D. Khi bạn muốn tiết kiệm thời gian và chi phí lấy mẫu.
124. Một công ty sản xuất bóng đèn tuyên bố rằng tuổi thọ trung bình của bóng đèn là 1000 giờ với độ lệch chuẩn là 100 giờ. Bạn lấy mẫu 25 bóng đèn và tính được tuổi thọ trung bình là 950 giờ. Bạn muốn kiểm tra xem tuyên bố của công ty có đúng không. Kiểm định nào phù hợp nhất để sử dụng?
A. Kiểm định Chi-bình phương.
B. Kiểm định t một mẫu.
C. Kiểm định t hai mẫu độc lập.
D. Phân tích ANOVA.
125. Đại lượng nào sau đây đo lường mức độ phân tán của dữ liệu so với giá trị trung bình?
A. Trung vị.
B. Mốt.
C. Độ lệch chuẩn.
D. Tứ phân vị.
126. Hệ số tương quan (correlation coefficient) đo lường điều gì?
A. Mức độ biến động của một biến.
B. Mối quan hệ nhân quả giữa hai biến.
C. Mức độ liên kết tuyến tính giữa hai biến.
D. Mức độ phi tuyến tính giữa hai biến.
127. Trong phân tích ANOVA (phân tích phương sai), mục đích chính là gì?
A. So sánh trung bình của hai quần thể.
B. So sánh phương sai của hai quần thể.
C. So sánh trung bình của nhiều hơn hai quần thể.
D. So sánh phương sai của nhiều hơn hai quần thể.
128. Trong một bài kiểm tra giả thuyết, mức ý nghĩa (alpha) thường được đặt là 0.05. Điều này có nghĩa là gì?
A. Có 5% khả năng chấp nhận giả thuyết H0 khi nó đúng.
B. Có 5% khả năng bác bỏ giả thuyết H0 khi nó sai.
C. Có 5% khả năng bác bỏ giả thuyết H0 khi nó đúng.
D. Có 95% khả năng chấp nhận giả thuyết H0 khi nó đúng.
129. Thống kê mô tả (descriptive statistics) được sử dụng để làm gì?
A. Đưa ra kết luận về một quần thể dựa trên mẫu.
B. Mô tả và tóm tắt các đặc điểm chính của một tập dữ liệu.
C. Dự đoán giá trị tương lai của một biến.
D. Xác định mối quan hệ nhân quả giữa các biến.
130. Giả sử bạn muốn khảo sát ý kiến của sinh viên về chất lượng giảng dạy của một trường đại học. Bạn quyết định chọn ngẫu nhiên 100 sinh viên từ danh sách tất cả sinh viên của trường. Đây là loại lấy mẫu nào?
A. Lấy mẫu phân tầng.
B. Lấy mẫu cụm.
C. Lấy mẫu ngẫu nhiên đơn giản.
D. Lấy mẫu thuận tiện.
131. Một nhà nghiên cứu muốn xác định xem có sự khác biệt đáng kể về điểm trung bình của một bài kiểm tra giữa hai nhóm sinh viên hay không. Nhóm thứ nhất được dạy theo phương pháp A, nhóm thứ hai được dạy theo phương pháp B. Kiểm định nào sau đây phù hợp nhất để sử dụng?
A. Kiểm định Chi-bình phương.
B. Kiểm định t hai mẫu độc lập.
C. Phân tích phương sai (ANOVA).
D. Phân tích hồi quy tuyến tính.
132. Khi nào nên sử dụng kiểm định phi tham số (non-parametric test) thay vì kiểm định tham số (parametric test)?
A. Khi dữ liệu tuân theo phân phối chuẩn.
B. Khi kích thước mẫu lớn.
C. Khi các giả định của kiểm định tham số không được đáp ứng.
D. Khi bạn muốn ước lượng tham số của quần thể.
133. Giá trị p (p-value) trong kiểm định giả thuyết thể hiện điều gì?
A. Xác suất giả thuyết H0 là đúng.
B. Xác suất giả thuyết H1 là đúng.
C. Xác suất thu được kết quả quan sát hoặc kết quả cực đoan hơn nếu giả thuyết H0 là đúng.
D. Xác suất thu được kết quả quan sát hoặc kết quả ít cực đoan hơn nếu giả thuyết H0 là đúng.
134. Điều gì xảy ra với khoảng tin cậy (confidence interval) khi kích thước mẫu tăng lên?
A. Khoảng tin cậy trở nên rộng hơn.
B. Khoảng tin cậy trở nên hẹp hơn.
C. Khoảng tin cậy không thay đổi.
D. Không thể xác định được sự thay đổi của khoảng tin cậy.
135. Bạn muốn so sánh hiệu quả của ba phương pháp giảng dạy khác nhau đối với kết quả học tập của sinh viên. Bạn chia sinh viên thành ba nhóm và áp dụng mỗi phương pháp cho một nhóm. Sau đó, bạn đo lường kết quả học tập của sinh viên trong mỗi nhóm. Kiểm định nào phù hợp nhất?
A. Kiểm định t hai mẫu độc lập.
B. Kiểm định t ghép cặp.
C. Phân tích ANOVA.
D. Kiểm định Chi-bình phương.
136. Trong phân tích hồi quy, hệ số R-squared (R²) đo lường điều gì?
A. Mức độ mạnh mẽ của mối quan hệ nhân quả giữa các biến.
B. Tỷ lệ phương sai của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình.
C. Độ dốc của đường hồi quy.
D. Sai số chuẩn của ước lượng.
137. Phân phối nào sau đây thường được sử dụng để mô hình hóa số lượng sự kiện xảy ra trong một khoảng thời gian hoặc không gian nhất định?
A. Phân phối chuẩn.
B. Phân phối nhị thức.
C. Phân phối Poisson.
D. Phân phối đều.
138. Trong kiểm định giả thuyết, ‘vùng bác bỏ’ (rejection region) là gì?
A. Tập hợp các giá trị thống kê mà nếu giá trị kiểm định rơi vào đó, chúng ta chấp nhận giả thuyết H0.
B. Tập hợp các giá trị thống kê mà nếu giá trị kiểm định rơi vào đó, chúng ta bác bỏ giả thuyết H0.
C. Xác suất mắc sai lầm loại I.
D. Xác suất mắc sai lầm loại II.
139. Một hộp chứa 5 viên bi đỏ và 3 viên bi xanh. Nếu bạn lấy ngẫu nhiên 2 viên bi, xác suất để cả hai viên bi đều màu đỏ là bao nhiêu?
A. 5/8 * 4/7
B. 5/8 * 5/8
C. 3/8 * 2/7
D. 3/8 * 3/8
140. Trong phân tích hồi quy đa biến, hiện tượng đa cộng tuyến (multicollinearity) đề cập đến điều gì?
A. Mối quan hệ tuyến tính mạnh mẽ giữa biến phụ thuộc và một biến độc lập.
B. Mối quan hệ tuyến tính mạnh mẽ giữa hai hoặc nhiều biến độc lập.
C. Sự không tuân theo phân phối chuẩn của biến phụ thuộc.
D. Sự không đồng nhất phương sai của các sai số.
141. Một đồng xu được tung 10 lần. Xác suất để có đúng 5 mặt ngửa là bao nhiêu?
A. 0.5
B. C(10, 5) * (0.5)^10
C. (0.5)^5
D. 1 – (0.5)^10
142. Bạn có dữ liệu về doanh thu hàng tháng của một công ty trong 5 năm qua. Bạn muốn dự đoán doanh thu cho tháng tới. Phương pháp nào phù hợp nhất?
A. Phân tích hồi quy tuyến tính.
B. Phân tích chuỗi thời gian.
C. Kiểm định t.
D. Kiểm định Chi-bình phương.
143. Kiểm định Chi-bình phương (Chi-square test) thường được sử dụng để làm gì?
A. So sánh trung bình của hai mẫu.
B. Kiểm tra sự phù hợp của một phân phối lý thuyết với dữ liệu thực tế.
C. Đo lường mối quan hệ tuyến tính giữa hai biến.
D. Ước lượng tham số của một quần thể.
144. Trong thống kê, thuật ngữ ‘ngoại lệ’ (outlier) đề cập đến điều gì?
A. Một giá trị xuất hiện nhiều lần trong tập dữ liệu.
B. Một giá trị nằm gần giá trị trung bình của tập dữ liệu.
C. Một giá trị khác biệt đáng kể so với các giá trị khác trong tập dữ liệu.
D. Một giá trị bị thiếu trong tập dữ liệu.
145. Trong phân tích hồi quy tuyến tính, phương pháp bình phương tối thiểu (least squares method) được sử dụng để làm gì?
A. Tìm đường thẳng hồi quy sao cho tổng bình phương khoảng cách từ các điểm dữ liệu đến đường thẳng là lớn nhất.
B. Tìm đường thẳng hồi quy sao cho tổng khoảng cách từ các điểm dữ liệu đến đường thẳng là nhỏ nhất.
C. Tìm đường thẳng hồi quy sao cho tổng bình phương khoảng cách từ các điểm dữ liệu đến đường thẳng là nhỏ nhất.
D. Tìm đường thẳng hồi quy sao cho tổng giá trị tuyệt đối của khoảng cách từ các điểm dữ liệu đến đường thẳng là nhỏ nhất.
146. Nếu bạn có một tập dữ liệu và bạn muốn chia nó thành 4 phần bằng nhau, mỗi phần chứa 25% dữ liệu, bạn sẽ sử dụng đại lượng nào?
A. Trung bình.
B. Trung vị.
C. Độ lệch chuẩn.
D. Tứ phân vị.
147. Phương sai (variance) là gì?
A. Giá trị trung bình của một tập dữ liệu.
B. Căn bậc hai của độ lệch chuẩn.
C. Độ đo mức độ phân tán của dữ liệu xung quanh giá trị trung bình.
D. Giá trị xuất hiện nhiều nhất trong một tập dữ liệu.
148. Khi nào thì nên sử dụng kiểm định t (t-test) thay vì kiểm định z (z-test)?
A. Khi kích thước mẫu lớn (n > 30) và độ lệch chuẩn của quần thể đã biết.
B. Khi kích thước mẫu nhỏ (n < 30) và độ lệch chuẩn của quần thể đã biết.
C. Khi kích thước mẫu lớn (n > 30) và độ lệch chuẩn của quần thể chưa biết.
D. Khi kích thước mẫu nhỏ (n < 30) và độ lệch chuẩn của quần thể chưa biết.
149. Trong phân tích độ tin cậy (reliability analysis), hệ số Cronbach’s alpha được sử dụng để đo lường điều gì?
A. Tính hợp lệ của một công cụ đo lường.
B. Độ ổn định của một công cụ đo lường theo thời gian.
C. Mức độ nhất quán nội tại của các mục trong một công cụ đo lường.
D. Khả năng phân biệt giữa các nhóm khác nhau của một công cụ đo lường.
150. Trong một nghiên cứu, bạn muốn xem xét liệu có mối liên hệ giữa việc hút thuốc và nguy cơ mắc bệnh ung thư phổi hay không. Bạn nên sử dụng loại kiểm định nào?
A. Kiểm định t.
B. Kiểm định Chi-bình phương.
C. Phân tích ANOVA.
D. Phân tích hồi quy.