1. Công cụ nào sau đây là một hệ thống quản lý cơ sở dữ liệu NoSQL phổ biến, thường được sử dụng trong các ứng dụng Big Data?
A. MySQL
B. PostgreSQL
C. MongoDB
D. Oracle
2. Giải thuật MapReduce thường được sử dụng để làm gì trong xử lý Big Data?
A. Để trực quan hóa dữ liệu.
B. Để quản lý và lập lịch các công việc.
C. Để xử lý song song các tập dữ liệu lớn.
D. Để lưu trữ dữ liệu trong cơ sở dữ liệu quan hệ.
3. Thuật ngữ ‘data virtualization’ (ảo hóa dữ liệu) có nghĩa là gì?
A. Việc tạo ra các bản sao dữ liệu để dự phòng.
B. Việc lưu trữ dữ liệu trên các máy chủ ảo.
C. Việc cung cấp một lớp trừu tượng cho phép người dùng truy cập dữ liệu từ các nguồn khác nhau mà không cần biết chi tiết về vị trí hoặc định dạng của dữ liệu.
D. Việc mã hóa dữ liệu.
4. Công cụ nào sau đây thường được sử dụng để thu thập dữ liệu nhật ký (log data) và truyền nó đến Hadoop?
A. Flume
B. Sqoop
C. Kafka
D. ZooKeeper
5. Công cụ nào sau đây thường được sử dụng để thực hiện các truy vấn SQL trên dữ liệu được lưu trữ trong Hadoop?
A. Spark
B. Hive
C. Kafka
D. Flume
6. Trong kiến trúc Lambda, lớp nào chịu trách nhiệm xử lý dữ liệu theo thời gian thực?
A. Lớp Batch
B. Lớp Serving
C. Lớp Speed
D. Lớp Storage
7. Thuật ngữ ‘data wrangling’ (chuẩn bị dữ liệu) đề cập đến công việc nào?
A. Việc xây dựng các mô hình học máy.
B. Việc thu thập dữ liệu từ các nguồn khác nhau.
C. Việc làm sạch, chuyển đổi và chuẩn hóa dữ liệu để phân tích.
D. Việc trực quan hóa dữ liệu.
8. Công nghệ nào sau đây cung cấp một cách để xử lý dữ liệu trong bộ nhớ (in-memory data processing) để tăng tốc độ tính toán trong Big Data?
A. Hadoop
B. Spark
C. Hive
D. HBase
9. Công cụ nào sau đây thường được sử dụng để di chuyển dữ liệu giữa Hadoop và các hệ thống cơ sở dữ liệu quan hệ?
A. Flume
B. Sqoop
C. Kafka
D. ZooKeeper
10. Hadoop Distributed File System (HDFS) được thiết kế để làm gì?
A. Để quản lý tài nguyên trong cụm Hadoop.
B. Để lưu trữ và truy cập các tập dữ liệu lớn một cách tin cậy và hiệu quả.
C. Để thực hiện các phép tính song song trên dữ liệu.
D. Để trực quan hóa dữ liệu.
11. Thuật ngữ ‘data science’ (khoa học dữ liệu) bao gồm những lĩnh vực nào?
A. Chỉ thống kê và toán học.
B. Chỉ lập trình và cơ sở dữ liệu.
C. Sự kết hợp của thống kê, toán học, lập trình, cơ sở dữ liệu và kiến thức chuyên môn về lĩnh vực ứng dụng.
D. Chỉ trực quan hóa dữ liệu.
12. Thuật ngữ ‘Data Lake’ (Hồ dữ liệu) thường được hiểu là gì?
A. Một kho lưu trữ dữ liệu có cấu trúc cao, được tối ưu hóa cho các truy vấn SQL.
B. Một hệ thống quản lý cơ sở dữ liệu quan hệ phân tán.
C. Một kho lưu trữ dữ liệu lớn, chứa dữ liệu thô ở định dạng gốc của nó cho đến khi cần thiết.
D. Một công cụ trực quan hóa dữ liệu mạnh mẽ.
13. Trong ngữ cảnh Big Data, ‘data governance’ (quản trị dữ liệu) đề cập đến điều gì?
A. Việc mã hóa dữ liệu để bảo mật.
B. Việc quản lý và kiểm soát chất lượng, tính nhất quán và bảo mật của dữ liệu.
C. Việc thu thập dữ liệu từ các nguồn khác nhau.
D. Việc trực quan hóa dữ liệu.
14. Trong lĩnh vực Big Data, thuật ngữ ‘scalability’ (khả năng mở rộng) có nghĩa là gì?
A. Khả năng trực quan hóa dữ liệu một cách hiệu quả.
B. Khả năng xử lý dữ liệu nhanh chóng.
C. Khả năng của một hệ thống để xử lý lượng dữ liệu và lưu lượng truy cập ngày càng tăng.
D. Khả năng bảo vệ dữ liệu khỏi truy cập trái phép.
15. Công cụ nào sau đây là một công cụ ETL (Extract, Transform, Load) phổ biến được sử dụng để tích hợp dữ liệu từ các nguồn khác nhau?
A. Hadoop
B. Spark
C. Informatica PowerCenter
D. Hive
16. Trong ngữ cảnh Big Data, ‘real-time processing’ (xử lý thời gian thực) đề cập đến điều gì?
A. Việc xử lý dữ liệu sau khi nó đã được lưu trữ trong một khoảng thời gian.
B. Việc xử lý dữ liệu ngay khi nó được tạo ra hoặc thu thập, với độ trễ tối thiểu.
C. Việc xử lý dữ liệu theo lô định kỳ.
D. Việc xử lý dữ liệu ngẫu nhiên.
17. Công cụ nào sau đây thường được sử dụng để thu thập, xử lý và phân tích dữ liệu nhật ký (log data) trong môi trường Big Data?
A. Tableau
B. Splunk
C. Hadoop
D. Spark
18. Công cụ nào sau đây là một công cụ lập lịch công việc (job scheduler) phổ biến cho các ứng dụng Hadoop?
A. ZooKeeper
B. Oozie
C. Flume
D. Sqoop
19. Trong ngữ cảnh Big Data, ‘machine learning’ (học máy) được sử dụng để làm gì?
A. Để thu thập dữ liệu từ các nguồn khác nhau.
B. Để lưu trữ dữ liệu một cách hiệu quả.
C. Để xây dựng các mô hình dự đoán và khám phá các mẫu từ dữ liệu.
D. Để bảo vệ dữ liệu khỏi truy cập trái phép.
20. Trong kiến trúc Kappa, luồng dữ liệu được xử lý như thế nào?
A. Dữ liệu được xử lý theo lô định kỳ.
B. Dữ liệu được xử lý cả theo lô và theo thời gian thực.
C. Dữ liệu chỉ được xử lý theo thời gian thực.
D. Dữ liệu được xử lý ngẫu nhiên.
21. HBase là gì và nó thường được sử dụng để làm gì trong Big Data?
A. Một hệ thống quản lý tài nguyên cụm.
B. Một hệ thống kho dữ liệu.
C. Một cơ sở dữ liệu NoSQL cột (column-oriented NoSQL database) được sử dụng để lưu trữ và truy cập dữ liệu lớn, có cấu trúc thưa thớt.
D. Một công cụ trực quan hóa dữ liệu.
22. Công cụ nào sau đây là một công cụ trực quan hóa dữ liệu (data visualization tool) phổ biến được sử dụng để tạo ra các biểu đồ và báo cáo tương tác?
A. Hadoop
B. Spark
C. Tableau
D. Hive
23. Trong ngữ cảnh Big Data, ‘data security’ (bảo mật dữ liệu) bao gồm những biện pháp nào?
A. Chỉ việc mã hóa dữ liệu.
B. Chỉ việc kiểm soát truy cập vào dữ liệu.
C. Việc mã hóa dữ liệu, kiểm soát truy cập, giám sát hoạt động và tuân thủ các quy định.
D. Chỉ việc sao lưu dữ liệu.
24. Trong ngữ cảnh Big Data, ‘data mining’ (khai phá dữ liệu) được sử dụng để làm gì?
A. Để thu thập dữ liệu từ các nguồn khác nhau.
B. Để lưu trữ dữ liệu một cách hiệu quả.
C. Để khám phá các mẫu và thông tin hữu ích từ các tập dữ liệu lớn.
D. Để bảo vệ dữ liệu khỏi truy cập trái phép.
25. Công cụ nào sau đây là một nền tảng nhắn tin phân tán (distributed messaging platform) được sử dụng để xây dựng các luồng dữ liệu thời gian thực?
A. Hadoop
B. Spark
C. Kafka
D. Hive
26. Yếu tố nào sau đây KHÔNG phải là một trong ‘5 V’ đặc trưng của Big Data?
A. Volume (Khối lượng)
B. Variety (Đa dạng)
C. Velocity (Tốc độ)
D. Veracity (Độ tin cậy)
27. Thuật ngữ ‘data streaming’ (truyền dữ liệu trực tuyến) đề cập đến điều gì?
A. Việc lưu trữ dữ liệu trên các ổ đĩa cứng.
B. Việc truyền dữ liệu liên tục từ một nguồn đến một hoặc nhiều đích để xử lý thời gian thực.
C. Việc sao chép dữ liệu giữa các hệ thống.
D. Việc mã hóa dữ liệu.
28. YARN (Yet Another Resource Negotiator) là gì và nó có vai trò gì trong Hadoop?
A. Một hệ thống tệp phân tán.
B. Một hệ thống quản lý tài nguyên cụm, cho phép các ứng dụng khác nhau chia sẻ tài nguyên của cụm Hadoop.
C. Một hệ thống kho dữ liệu.
D. Một công cụ trực quan hóa dữ liệu.
29. Công cụ nào sau đây là một hệ thống điều phối dịch vụ (service coordination system) được sử dụng để quản lý cấu hình và đồng bộ hóa trong các ứng dụng phân tán?
A. ZooKeeper
B. Oozie
C. Flume
D. Sqoop
30. Trong kiến trúc Big Data, ‘data warehouse’ (kho dữ liệu) thường được sử dụng để làm gì?
A. Để lưu trữ dữ liệu thô ở định dạng gốc của nó.
B. Để lưu trữ dữ liệu đã được làm sạch, chuyển đổi và tổng hợp để phân tích và báo cáo.
C. Để xử lý dữ liệu thời gian thực.
D. Để thu thập dữ liệu từ các nguồn khác nhau.
31. Công cụ nào sau đây thường được sử dụng để xây dựng các pipeline xử lý dữ liệu (data processing pipelines) trong Big Data?
A. Tableau
B. Apache Airflow
C. Microsoft Excel
D. MySQL
32. Trong kiến trúc Kappa, dữ liệu được xử lý chủ yếu thông qua:
A. Batch processing
B. Real-time streaming
C. Kết hợp cả batch và streaming
D. Phân tích dự đoán (predictive analytics)
33. Công cụ nào sau đây thường được sử dụng để thu thập, xử lý và phân tích dữ liệu từ các nguồn streaming như Twitter?
A. Hadoop HDFS
B. Apache Spark Streaming
C. Apache Hive
D. Apache Sqoop
34. Thuật ngữ ‘Data Lake’ (Hồ Dữ liệu) khác biệt so với ‘Data Warehouse’ (Kho Dữ liệu) chủ yếu ở điểm nào?
A. Data Lake lưu trữ dữ liệu đã được xử lý và chuyển đổi (transformed), trong khi Data Warehouse lưu trữ dữ liệu thô (raw data).
B. Data Lake lưu trữ dữ liệu có cấu trúc (structured data), trong khi Data Warehouse lưu trữ dữ liệu phi cấu trúc (unstructured data).
C. Data Lake lưu trữ dữ liệu thô (raw data) ở nhiều định dạng khác nhau, trong khi Data Warehouse lưu trữ dữ liệu đã được xử lý và chuyển đổi (transformed) theo một lược đồ (schema) định trước.
D. Data Lake chỉ dành cho dữ liệu lớn (Big Data), trong khi Data Warehouse chỉ dành cho dữ liệu nhỏ (Small Data).
35. Đâu là một framework phổ biến để xử lý đồ thị (graph processing) trong Big Data?
A. Apache Pig
B. Apache Mahout
C. Apache Giraph
D. Apache Flume
36. Đâu là một ví dụ về ứng dụng của Big Data trong lĩnh vực tài chính?
A. Quản lý nhân sự
B. Phát hiện gian lận (fraud detection)
C. Tối ưu hóa quy trình sản xuất
D. Cải thiện trải nghiệm người dùng trên website
37. Phương pháp nào sau đây được sử dụng để bảo vệ dữ liệu nhạy cảm (sensitive data) trong Big Data khỏi truy cập trái phép?
A. Data aggregation (tổng hợp dữ liệu)
B. Data anonymization (ẩn danh dữ liệu)
C. Data normalization (chuẩn hóa dữ liệu)
D. Data validation (xác thực dữ liệu)
38. Đâu là một ví dụ về use case của Big Data trong lĩnh vực y tế?
A. Quản lý kho hàng
B. Phân tích cảm xúc khách hàng (customer sentiment analysis)
C. Dự đoán dịch bệnh (disease prediction)
D. Tối ưu hóa chuỗi cung ứng (supply chain optimization)
39. Trong quá trình phân tích dữ liệu lớn, ‘feature engineering’ (kỹ thuật đặc trưng) là gì?
A. Quá trình lựa chọn thuật toán phân tích phù hợp nhất
B. Quá trình trực quan hóa dữ liệu để hiểu rõ hơn về dữ liệu
C. Quá trình tạo ra các thuộc tính (features) mới từ dữ liệu hiện có để cải thiện hiệu suất của các mô hình học máy
D. Quá trình làm sạch dữ liệu để loại bỏ các giá trị bị thiếu
40. Công cụ nào sau đây được sử dụng để quản lý và điều phối các dịch vụ phân tán (distributed services) trong một cluster Hadoop?
A. Hadoop HDFS
B. Apache Spark
C. Apache ZooKeeper
D. Apache Kafka
41. Trong ngữ cảnh Big Data, ‘schema-on-read’ nghĩa là gì?
A. Schema của dữ liệu phải được xác định trước khi dữ liệu được lưu trữ.
B. Schema của dữ liệu được xác định khi dữ liệu được truy vấn.
C. Schema của dữ liệu được lưu trữ cùng với dữ liệu.
D. Schema của dữ liệu được tự động suy luận từ dữ liệu.
42. Trong ngữ cảnh của Big Data, CAP theorem đề cập đến những thuộc tính nào?
A. Consistency, Availability, Partition Tolerance
B. Capacity, Agility, Performance
C. Cost, Accuracy, Privacy
D. Complexity, Automation, Portability
43. Công cụ nào sau đây được sử dụng để chuyển dữ liệu giữa Hadoop và các hệ thống cơ sở dữ liệu quan hệ (relational databases)?
A. Apache Flume
B. Apache Sqoop
C. Apache Kafka
D. Apache Pig
44. Phương pháp nào sau đây giúp giảm thiểu kích thước dữ liệu (data size) trong quá trình lưu trữ và truyền tải Big Data?
A. Data Virtualization
B. Data Compression
C. Data Replication
D. Data Migration
45. Đâu là một lợi ích của việc sử dụng cloud-based Big Data platforms (nền tảng Big Data trên đám mây)?
A. Chi phí cố định thấp
B. Khả năng kiểm soát hoàn toàn phần cứng
C. Khả năng mở rộng linh hoạt và chi phí trả theo mức sử dụng
D. Yêu cầu ít kỹ năng chuyên môn hơn
46. Đâu là một thách thức lớn trong việc xử lý dữ liệu streaming (streaming data) so với xử lý dữ liệu batch (batch data)?
A. Khả năng mở rộng (scalability)
B. Tính toàn vẹn dữ liệu (data integrity)
C. Độ trễ (latency)
D. Chi phí lưu trữ (storage cost)
47. Kỹ thuật MapReduce thường được sử dụng để làm gì trong quá trình xử lý Big Data?
A. Lưu trữ dữ liệu một cách an toàn
B. Phân tích dữ liệu theo thời gian thực
C. Xử lý song song các tập dữ liệu lớn
D. Trực quan hóa dữ liệu
48. Trong kiến trúc Lambda, lớp (layer) nào chịu trách nhiệm xử lý dữ liệu theo thời gian thực (real-time)?
A. Lớp Batch
B. Lớp Serving
C. Lớp Speed
D. Lớp Storage
49. Chiến lược nào sau đây giúp tăng cường tính sẵn sàng (availability) của một hệ thống Big Data?
A. Data encryption (mã hóa dữ liệu)
B. Data compression (nén dữ liệu)
C. Data replication (sao chép dữ liệu)
D. Data masking (che giấu dữ liệu)
50. Kỹ thuật nào sau đây giúp cải thiện hiệu suất truy vấn (query performance) trong các hệ thống Big Data?
A. Data encryption (mã hóa dữ liệu)
B. Data compression (nén dữ liệu)
C. Data partitioning (phân vùng dữ liệu)
D. Data validation (xác thực dữ liệu)
51. Đâu là lợi ích chính của việc sử dụng NoSQL database so với relational database (cơ sở dữ liệu quan hệ) trong các ứng dụng Big Data?
A. Hỗ trợ ACID transactions (giao dịch ACID) tốt hơn
B. Dễ dàng thực hiện các truy vấn phức tạp (complex queries)
C. Khả năng mở rộng (scalability) và hiệu suất cao hơn khi làm việc với dữ liệu phi cấu trúc (unstructured data)
D. Ít tốn chi phí hơn
52. Yếu tố nào sau đây KHÔNG phải là một trong ‘5V’ của Big Data?
A. Volume (Khối lượng)
B. Velocity (Vận tốc)
C. Variety (Đa dạng)
D. Veracity (Độ tin cậy)
53. Trong kiến trúc Microservices, Big Data có thể được sử dụng để:
A. Thay thế hoàn toàn cơ sở dữ liệu quan hệ
B. Giám sát hiệu suất và hành vi của các microservice
C. Triển khai các microservice nhanh hơn
D. Giảm chi phí phát triển phần mềm
54. Trong Hadoop, thành phần nào chịu trách nhiệm quản lý tài nguyên và lập lịch công việc (job scheduling)?
A. HDFS (Hadoop Distributed File System)
B. MapReduce
C. YARN (Yet Another Resource Negotiator)
D. Hive
55. Công cụ nào sau đây thường được sử dụng để thu thập (ingest) dữ liệu nhật ký (log data) vào một hệ thống Big Data?
A. Hadoop HDFS
B. Apache Spark
C. Apache Kafka
D. Apache Cassandra
56. Trong Hadoop, NameNode đóng vai trò gì?
A. Lưu trữ dữ liệu thực tế
B. Quản lý metadata của hệ thống file (file system metadata)
C. Thực hiện các tính toán MapReduce
D. Quản lý tài nguyên của cluster
57. Đâu là một thách thức liên quan đến việc đảm bảo tính bảo mật (security) trong môi trường Big Data?
A. Dung lượng lưu trữ lớn
B. Tốc độ xử lý nhanh
C. Sự đa dạng của nguồn dữ liệu
D. Thiếu công cụ trực quan hóa dữ liệu
58. Trong quá trình xây dựng mô hình học máy trên dữ liệu lớn, kỹ thuật nào sau đây giúp tránh overfitting (quá khớp)?
A. Data augmentation (tăng cường dữ liệu)
B. Feature selection (lựa chọn đặc trưng)
C. Regularization (điều chuẩn)
D. Cross-validation (kiểm định chéo)
59. Trong quá trình xử lý dữ liệu lớn, ‘data cleansing’ (làm sạch dữ liệu) có nghĩa là gì?
A. Di chuyển dữ liệu sang một hệ thống lưu trữ mới
B. Xóa bỏ dữ liệu không sử dụng
C. Chuyển đổi dữ liệu sang một định dạng khác
D. Phát hiện và sửa chữa các lỗi, sự không nhất quán và dữ liệu bị thiếu trong tập dữ liệu
60. Công cụ nào sau đây được sử dụng để thực hiện truy vấn SQL trên dữ liệu được lưu trữ trong Hadoop?
A. Spark SQL
B. Hadoop HDFS
C. ZooKeeper
D. Flume
61. Công cụ nào sau đây thường được sử dụng để truy vấn dữ liệu trong Hadoop sử dụng cú pháp SQL?
A. Hadoop MapReduce
B. Spark Core
C. Hive
D. Pig
62. Trong Big Data, thuật ngữ ‘data lineage’ (dòng dõi dữ liệu) đề cập đến điều gì?
A. Quá trình thu thập dữ liệu từ các nguồn khác nhau.
B. Quá trình lưu trữ dữ liệu trong Data Lake.
C. Lịch sử và nguồn gốc của dữ liệu, bao gồm các biến đổi và chuyển đổi đã được áp dụng cho dữ liệu.
D. Quá trình trực quan hóa dữ liệu.
63. Thuật ngữ ‘data virtualization’ (ảo hóa dữ liệu) có nghĩa là gì?
A. Tạo ra các bản sao của dữ liệu.
B. Ẩn dữ liệu nhạy cảm.
C. Cung cấp một lớp trừu tượng cho phép truy cập dữ liệu từ nhiều nguồn khác nhau mà không cần biết chi tiết về nguồn dữ liệu.
D. Xóa dữ liệu không cần thiết.
64. YARN (Yet Another Resource Negotiator) trong Hadoop 2.0 có vai trò gì?
A. Lưu trữ dữ liệu phân tán.
B. Quản lý tài nguyên cluster và lập lịch công việc.
C. Xử lý dữ liệu theo lô (batch processing).
D. Truy vấn dữ liệu bằng SQL.
65. Chọn phát biểu đúng về Hadoop Distributed File System (HDFS).
A. HDFS phù hợp cho việc đọc/ghi ngẫu nhiên các file nhỏ.
B. HDFS được thiết kế để chạy trên một máy tính duy nhất.
C. HDFS lưu trữ dữ liệu thành các khối và phân tán chúng trên nhiều máy trong cluster.
D. HDFS chỉ hỗ trợ lưu trữ dữ liệu dạng văn bản.
66. Ưu điểm chính của việc sử dụng cơ sở dữ liệu dạng cột (columnar database) so với cơ sở dữ liệu dạng hàng (row-oriented database) trong Big Data là gì?
A. Cơ sở dữ liệu dạng cột hỗ trợ tốt hơn cho các giao dịch ACID.
B. Cơ sở dữ liệu dạng cột có hiệu suất đọc tốt hơn khi truy vấn chỉ một số cột nhất định.
C. Cơ sở dữ liệu dạng cột dễ dàng cập nhật dữ liệu hơn.
D. Cơ sở dữ liệu dạng cột yêu cầu ít bộ nhớ hơn.
67. K-means clustering là một kỹ thuật gì trong Big Data analytics?
A. Một thuật toán phân loại (classification).
B. Một thuật toán hồi quy (regression).
C. Một thuật toán phân cụm (clustering).
D. Một thuật toán giảm chiều dữ liệu (dimensionality reduction).
68. Thuật ngữ ‘Data Lake’ (Hồ dữ liệu) dùng để chỉ điều gì?
A. Một kho lưu trữ dữ liệu đã được xử lý và chuyển đổi.
B. Một hệ thống quản lý cơ sở dữ liệu quan hệ.
C. Một kho lưu trữ dữ liệu thô ở định dạng gốc của nó.
D. Một công cụ trực quan hóa dữ liệu.
69. Trong Big Data, ‘data governance’ (quản trị dữ liệu) đề cập đến điều gì?
A. Quá trình thu thập dữ liệu từ các nguồn khác nhau.
B. Quá trình lưu trữ dữ liệu trong Data Lake.
C. Tập hợp các chính sách và quy trình để đảm bảo chất lượng, bảo mật và tuân thủ của dữ liệu.
D. Quá trình trực quan hóa dữ liệu.
70. CAP theorem phát biểu rằng một hệ thống phân tán chỉ có thể đảm bảo tối đa bao nhiêu trong số ba thuộc tính sau: Consistency (Tính nhất quán), Availability (Tính sẵn sàng), Partition Tolerance (Tính chịu phân vùng)?
A. Cả ba thuộc tính.
B. Tối đa hai thuộc tính.
C. Chỉ một thuộc tính.
D. Không thuộc tính nào.
71. Chọn phát biểu đúng về Apache Cassandra.
A. Cassandra là một hệ thống quản lý cơ sở dữ liệu quan hệ.
B. Cassandra được thiết kế để chạy trên một máy tính duy nhất.
C. Cassandra là một cơ sở dữ liệu NoSQL dạng cột (column-family) được thiết kế để có khả năng mở rộng và tính sẵn sàng cao.
D. Cassandra chỉ hỗ trợ lưu trữ dữ liệu dạng văn bản.
72. Chọn phát biểu đúng nhất về NoSQL.
A. NoSQL là một loại cơ sở dữ liệu quan hệ.
B. NoSQL đảm bảo tính toàn vẹn ACID (Atomicity, Consistency, Isolation, Durability) trong mọi trường hợp.
C. NoSQL thường được sử dụng để xử lý dữ liệu có cấu trúc cố định.
D. NoSQL cung cấp các mô hình dữ liệu linh hoạt hơn so với cơ sở dữ liệu quan hệ.
73. Trong lĩnh vực Big Data, ‘feature engineering’ (kỹ thuật đặc trưng) là gì?
A. Quá trình lựa chọn các thuật toán học máy phù hợp.
B. Quá trình làm sạch dữ liệu.
C. Quá trình tạo ra các đặc trưng (features) mới từ dữ liệu thô để cải thiện hiệu suất của các mô hình học máy.
D. Quá trình triển khai mô hình học máy vào sản xuất.
74. Apache Kafka được sử dụng chủ yếu cho mục đích gì trong Big Data?
A. Lưu trữ dữ liệu lịch sử.
B. Truyền tải luồng dữ liệu thời gian thực.
C. Phân tích dữ liệu theo lô.
D. Trực quan hóa dữ liệu.
75. Trong kiến trúc Lambda, lớp nào chịu trách nhiệm xử lý dữ liệu theo thời gian thực?
A. Lớp Batch
B. Lớp Serving
C. Lớp Speed
D. Lớp Storage
76. Công cụ nào sau đây thường được sử dụng để xử lý luồng dữ liệu (stream processing) trong Big Data?
A. Hadoop MapReduce
B. Apache Spark Streaming
C. Hive
D. Pig
77. Trong ngữ cảnh Big Data, ‘schema-on-read’ có nghĩa là gì?
A. Schema của dữ liệu phải được xác định trước khi ghi dữ liệu vào hệ thống.
B. Schema của dữ liệu được áp dụng khi dữ liệu được đọc, không phải khi ghi.
C. Schema của dữ liệu được lưu trữ cùng với dữ liệu.
D. Schema của dữ liệu được tự động suy luận bởi hệ thống.
78. Chọn phát biểu đúng về tính chất ACID (Atomicity, Consistency, Isolation, Durability) trong cơ sở dữ liệu.
A. ACID là một tập hợp các thuộc tính không quan trọng trong cơ sở dữ liệu.
B. ACID đảm bảo rằng các giao dịch cơ sở dữ liệu được xử lý một cách đáng tin cậy.
C. ACID chỉ áp dụng cho cơ sở dữ liệu NoSQL.
D. ACID không liên quan đến tính toàn vẹn của dữ liệu.
79. Trong kiến trúc Kappa, dữ liệu được xử lý như thế nào?
A. Dữ liệu được xử lý qua hai lớp riêng biệt: lớp batch và lớp speed.
B. Dữ liệu được xử lý chỉ qua một lớp duy nhất, là lớp stream processing.
C. Dữ liệu được xử lý tuần tự qua nhiều lớp xử lý khác nhau.
D. Dữ liệu không được xử lý mà chỉ được lưu trữ.
80. Một trong những thách thức lớn nhất khi làm việc với Big Data là gì?
A. Sự thiếu hụt các công cụ để lưu trữ dữ liệu.
B. Sự thiếu hụt phần cứng máy tính.
C. Sự phức tạp trong việc xử lý và phân tích dữ liệu với khối lượng lớn.
D. Sự thiếu hụt các kỹ sư phần mềm.
81. Trong ngữ cảnh của MapReduce, ‘reducer’ có chức năng gì?
A. Đọc dữ liệu đầu vào và chia thành các phần nhỏ hơn.
B. Chuyển đổi dữ liệu sang định dạng phù hợp.
C. Tổng hợp và xử lý dữ liệu đã được xử lý bởi ‘mapper’.
D. Lưu trữ dữ liệu vào hệ thống tệp phân tán.
82. Công cụ nào sau đây thường được sử dụng để thu thập dữ liệu log từ nhiều nguồn khác nhau và tập trung chúng vào một nơi để phân tích?
A. Hadoop MapReduce
B. Apache Spark
C. Elasticsearch
D. Logstash
83. Một trong những thách thức chính của việc xử lý dữ liệu IoT (Internet of Things) là gì?
A. Sự thiếu hụt các thiết bị IoT.
B. Khả năng mở rộng để xử lý lượng lớn dữ liệu được tạo ra bởi các thiết bị IoT.
C. Sự thiếu hụt các kỹ sư phần mềm IoT.
D. Chi phí thấp của các thiết bị IoT.
84. Apache Flink là một framework mã nguồn mở chủ yếu được sử dụng cho mục đích gì trong Big Data?
A. Lưu trữ dữ liệu phân tán.
B. Xử lý luồng dữ liệu (stream processing) và xử lý batch.
C. Truy vấn dữ liệu bằng SQL.
D. Trực quan hóa dữ liệu.
85. Trong Big Data, thuật ngữ ‘data wrangling’ (hoặc ‘data munging’) dùng để chỉ điều gì?
A. Quá trình lưu trữ dữ liệu trong Data Lake.
B. Quá trình thu thập dữ liệu từ các nguồn khác nhau.
C. Quá trình làm sạch, chuyển đổi và chuẩn bị dữ liệu để phân tích.
D. Quá trình trực quan hóa dữ liệu.
86. Công cụ nào sau đây thường được sử dụng để xây dựng các pipeline ETL (Extract, Transform, Load) trong Big Data?
A. Hadoop MapReduce
B. Apache Kafka
C. Apache Airflow
D. Apache Cassandra
87. Trong Big Data, thuật ngữ ‘lambda architecture’ (kiến trúc lambda) đề cập đến điều gì?
A. Một phương pháp để mã hóa dữ liệu.
B. Một kiến trúc xử lý dữ liệu kết hợp cả xử lý batch và xử lý stream.
C. Một kỹ thuật để giảm kích thước dữ liệu.
D. Một cách để trực quan hóa dữ liệu.
88. Trong ngữ cảnh Big Data, ‘data skew’ (lệch dữ liệu) có thể gây ra vấn đề gì?
A. Làm giảm độ chính xác của các mô hình học máy.
B. Làm tăng chi phí lưu trữ dữ liệu.
C. Làm cho một số node trong cluster phải xử lý nhiều dữ liệu hơn các node khác, dẫn đến hiệu suất kém.
D. Làm cho dữ liệu trở nên khó hiểu hơn.
89. Trong Big Data, thuật ngữ ‘data catalog’ (danh mục dữ liệu) đề cập đến điều gì?
A. Một công cụ để trực quan hóa dữ liệu.
B. Một kho lưu trữ tất cả dữ liệu của một tổ chức.
C. Một bản ghi chi tiết về siêu dữ liệu (metadata) của dữ liệu, bao gồm mô tả, nguồn gốc và các thuộc tính khác.
D. Một phương pháp để mã hóa dữ liệu.
90. Phân tích cảm xúc (Sentiment analysis) là gì trong lĩnh vực Big Data?
A. Quá trình thu thập dữ liệu từ các nguồn khác nhau.
B. Quá trình xác định và phân loại cảm xúc được thể hiện trong văn bản.
C. Quá trình chuyển đổi dữ liệu sang định dạng phù hợp.
D. Quá trình trực quan hóa dữ liệu.
91. Công nghệ nào sau đây thường được sử dụng để xử lý các truy vấn SQL trên dữ liệu lưu trữ trong Hadoop?
A. Spark
B. Hive
C. HBase
D. Flume
92. Hệ thống nào sau đây phù hợp nhất cho việc lưu trữ và truy vấn dữ liệu dạng đồ thị (graph data)?
A. HDFS
B. HBase
C. Neo4j
D. Hive
93. Trong kiến trúc Big Data, ETL (Extract, Transform, Load) là quy trình dùng để làm gì?
A. Bảo mật dữ liệu
B. Sao lưu và phục hồi dữ liệu
C. Trích xuất, biến đổi và tải dữ liệu vào kho lưu trữ
D. Phân tích dữ liệu thời gian thực
94. Thuật ngữ ‘Data Lake’ dùng để chỉ loại kho lưu trữ dữ liệu nào?
A. Kho dữ liệu quan hệ (Relational database)
B. Kho dữ liệu phi quan hệ (NoSQL database)
C. Kho dữ liệu chứa dữ liệu thô ở định dạng gốc (Raw data in native format)
D. Kho dữ liệu đã được xử lý và chuyển đổi (Processed and transformed data)
95. Hệ thống nào sau đây phù hợp nhất cho việc lưu trữ dữ liệu phi cấu trúc (unstructured data) như văn bản, hình ảnh và video?
A. HDFS
B. HBase
C. Hive
D. MySQL
96. Công cụ nào sau đây thường được sử dụng để chuyển dữ liệu giữa các hệ thống khác nhau, ví dụ như từ RDBMS sang Hadoop?
A. Hadoop
B. Sqoop
C. Hive
D. Pig
97. Công cụ nào sau đây thường được sử dụng để xây dựng các pipeline xử lý dữ liệu (data processing pipelines) phức tạp trong Big Data?
A. Hadoop
B. Spark
C. Kafka
D. Flume
98. Trong ngữ cảnh Big Data, thuật ngữ ‘Data Skew’ (Lệch dữ liệu) đề cập đến vấn đề gì?
A. Dữ liệu bị thiếu
B. Dữ liệu không chính xác
C. Dữ liệu phân bố không đều giữa các node trong cluster
D. Dữ liệu bị trùng lặp
99. Ưu điểm chính của việc sử dụng các hệ thống xử lý song song (parallel processing) trong Big Data là gì?
A. Giảm chi phí lưu trữ
B. Tăng tốc độ xử lý dữ liệu
C. Cải thiện độ bảo mật dữ liệu
D. Đơn giản hóa việc quản lý dữ liệu
100. Trong mô hình MapReduce, giai đoạn ‘Reduce’ có chức năng chính là gì?
A. Chia nhỏ dữ liệu đầu vào
B. Ánh xạ dữ liệu sang các cặp key-value
C. Tổng hợp và xử lý các kết quả trung gian
D. Lọc dữ liệu không hợp lệ
101. Trong ngữ cảnh Big Data, thuật ngữ ‘Lambda Architecture’ là gì?
A. Một kiến trúc xử lý dữ liệu chỉ sử dụng batch processing
B. Một kiến trúc xử lý dữ liệu chỉ sử dụng stream processing
C. Một kiến trúc kết hợp cả batch processing và stream processing
D. Một kiến trúc lưu trữ dữ liệu phân tán
102. Công cụ nào sau đây là một framework mã nguồn mở để xử lý stream dữ liệu thời gian thực?
A. Hadoop
B. Spark Streaming
C. Hive
D. Pig
103. Công nghệ nào sau đây KHÔNG phải là một giải pháp NoSQL?
A. MongoDB
B. Cassandra
C. MySQL
D. Redis
104. Trong kiến trúc Lambda, lớp (layer) nào chịu trách nhiệm xử lý dữ liệu theo thời gian thực?
A. Batch Layer
B. Serving Layer
C. Speed Layer
D. Storage Layer
105. Trong ngữ cảnh Big Data, thuật ngữ ‘CAP theorem’ đề cập đến những thuộc tính nào?
A. Tính nhất quán, tính khả dụng và khả năng chịu lỗi phân vùng
B. Tính bảo mật, tính toàn vẹn và tính sẵn sàng
C. Tính linh hoạt, tính mở rộng và tính hiệu quả
D. Tính đơn giản, tính dễ sử dụng và tính bảo trì
106. Thuật ngữ ‘Data Governance’ (Quản trị dữ liệu) đề cập đến điều gì?
A. Quy trình mã hóa dữ liệu
B. Quy trình quản lý và bảo vệ dữ liệu
C. Quy trình thu thập dữ liệu
D. Quy trình phân tích dữ liệu
107. Trong ngữ cảnh Big Data, thuật ngữ ‘Data Virtualization’ (Ảo hóa dữ liệu) đề cập đến điều gì?
A. Tạo ra các bản sao dữ liệu
B. Che giấu sự phức tạp của dữ liệu bằng cách cung cấp một lớp truy cập thống nhất
C. Mã hóa dữ liệu
D. Nén dữ liệu
108. Trong ngữ cảnh Big Data, ‘Schema on Read’ có nghĩa là gì?
A. Cấu trúc dữ liệu được xác định trước khi ghi dữ liệu
B. Cấu trúc dữ liệu được xác định khi đọc dữ liệu
C. Dữ liệu được lưu trữ dưới dạng JSON
D. Dữ liệu được mã hóa trước khi lưu trữ
109. Công cụ nào sau đây thường được sử dụng để điều phối và quản lý các công việc (jobs) trong một cluster Hadoop?
A. HDFS
B. YARN
C. Hive
D. Pig
110. Trong ngữ cảnh Big Data, ‘Scalability’ (Khả năng mở rộng) đề cập đến khả năng gì của hệ thống?
A. Khả năng xử lý nhiều loại dữ liệu khác nhau
B. Khả năng tăng hoặc giảm tài nguyên để đáp ứng nhu cầu xử lý
C. Khả năng bảo vệ dữ liệu khỏi các truy cập trái phép
D. Khả năng phục hồi sau sự cố
111. Ưu điểm chính của việc sử dụng hệ thống xử lý dữ liệu theo lô (batch processing) là gì?
A. Độ trễ thấp
B. Khả năng mở rộng cao
C. Xử lý dữ liệu thời gian thực
D. Chi phí thấp cho việc xử lý lượng lớn dữ liệu
112. Yếu tố nào sau đây KHÔNG phải là một trong ‘5 Vs’ đặc trưng của Big Data?
A. Volume (Khối lượng)
B. Velocity (Tốc độ)
C. Veracity (Độ xác thực)
D. Volatility (Tính biến động)
113. Thuật ngữ ‘Data Mining’ (Khai thác dữ liệu) liên quan đến quy trình nào?
A. Thu thập dữ liệu từ nhiều nguồn
B. Làm sạch và chuẩn hóa dữ liệu
C. Phân tích và khám phá các mẫu thông tin hữu ích từ dữ liệu
D. Lưu trữ dữ liệu trong kho dữ liệu
114. Công nghệ nào sau đây thường được sử dụng để thực hiện các tác vụ machine learning trên dữ liệu lớn?
A. Hadoop
B. Spark MLlib
C. Hive
D. Flume
115. Hệ thống lưu trữ nào sau đây phù hợp nhất cho việc lưu trữ dữ liệu có cấu trúc (structured data) trong môi trường Hadoop?
A. HDFS
B. HBase
C. MapReduce
D. YARN
116. Công cụ nào sau đây thường được sử dụng để thu thập, xử lý và phân tích dữ liệu từ các nguồn stream liên tục như mạng xã hội và cảm biến?
A. Hadoop
B. Spark Streaming
C. Hive
D. Pig
117. Hệ thống nào sau đây cung cấp khả năng truy vấn dữ liệu tương tác (interactive queries) với độ trễ thấp trên dữ liệu Hadoop?
A. HDFS
B. HBase
C. Impala
D. Pig
118. Công cụ nào sau đây thường được sử dụng để thu thập (ingest) dữ liệu log từ nhiều nguồn khác nhau vào một hệ thống Big Data?
A. Hadoop
B. Spark
C. Kafka
D. Hive
119. Hệ thống nào sau đây cung cấp khả năng lập lịch và quản lý các workflow phức tạp trong Hadoop?
A. HDFS
B. Oozie
C. Hive
D. Pig
120. Thuật ngữ ‘Data Warehouse’ (Kho dữ liệu) thường được sử dụng để mô tả hệ thống lưu trữ dữ liệu như thế nào?
A. Dữ liệu thô, chưa qua xử lý
B. Dữ liệu đã được tích hợp, làm sạch và chuyển đổi cho mục đích báo cáo và phân tích
C. Dữ liệu được lưu trữ phân tán trên nhiều máy chủ
D. Dữ liệu được lưu trữ tạm thời
121. Công cụ nào sau đây thường được sử dụng để thu thập dữ liệu từ các nguồn khác nhau và tải chúng vào hệ thống Big Data?
A. Sqoop
B. Tableau
C. R
D. TensorFlow
122. Chọn phát biểu đúng về Apache Flink:
A. Chỉ hỗ trợ xử lý dữ liệu theo lô (batch).
B. Là một framework xử lý luồng dữ liệu mạnh mẽ, hỗ trợ cả xử lý theo lô và xử lý luồng (streaming) với độ trễ thấp.
C. Chỉ hỗ trợ xử lý dữ liệu theo lô (batch).
D. Không hỗ trợ xử lý dữ liệu.
123. Công cụ nào sau đây thường được sử dụng để thực hiện các truy vấn SQL trên dữ liệu Hadoop?
A. Java
B. Python
C. Hive
D. Scala
124. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu ‘streaming’ (dữ liệu luồng) trong thời gian thực?
A. MapReduce
B. Batch processing
C. Micro-batching
D. Data warehousing
125. Trong ngữ cảnh Big Data, ‘Data Veracity’ (tính xác thực của dữ liệu) đề cập đến điều gì?
A. Độ lớn của dữ liệu.
B. Tốc độ mà dữ liệu được tạo ra và xử lý.
C. Sự đa dạng của các loại dữ liệu.
D. Độ tin cậy và chất lượng của dữ liệu.
126. Trong kiến trúc Kappa, dữ liệu được xử lý như thế nào?
A. Dữ liệu được xử lý theo cả lô (batch) và luồng (streaming).
B. Dữ liệu chỉ được xử lý theo lô (batch).
C. Dữ liệu chỉ được xử lý theo luồng (streaming).
D. Dữ liệu không được xử lý.
127. Trong Big Data, thuật ngữ ‘Data Velocity’ (vận tốc dữ liệu) đề cập đến yếu tố nào?
A. Độ lớn của dữ liệu.
B. Sự đa dạng của các loại dữ liệu.
C. Tốc độ mà dữ liệu được tạo ra và xử lý.
D. Giá trị của dữ liệu.
128. Trong Big Data, kỹ thuật ‘Data Mining’ (khai phá dữ liệu) được sử dụng để làm gì?
A. Lưu trữ và quản lý dữ liệu.
B. Tìm kiếm các mẫu, xu hướng và thông tin hữu ích từ các tập dữ liệu lớn.
C. Trực quan hóa dữ liệu.
D. Đảm bảo tính bảo mật của dữ liệu.
129. Thuật ngữ ‘Data Governance’ (quản trị dữ liệu) trong Big Data đề cập đến điều gì?
A. Việc quản lý cơ sở hạ tầng phần cứng cho Big Data.
B. Các chính sách, quy trình và tiêu chuẩn để đảm bảo chất lượng, tính bảo mật và tuân thủ của dữ liệu.
C. Việc phát triển các ứng dụng machine learning.
D. Việc trực quan hóa dữ liệu.
130. Trong ngữ cảnh Big Data, ‘Data Variety’ (tính đa dạng của dữ liệu) đề cập đến điều gì?
A. Độ lớn của dữ liệu.
B. Tốc độ mà dữ liệu được tạo ra và xử lý.
C. Sự đa dạng của các loại dữ liệu, bao gồm dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc.
D. Giá trị của dữ liệu.
131. Trong Big Data, kỹ thuật ‘Feature Engineering’ (thiết kế đặc trưng) được sử dụng để làm gì?
A. Lưu trữ và quản lý dữ liệu.
B. Lựa chọn, biến đổi và tạo ra các thuộc tính (features) mới từ dữ liệu thô để cải thiện hiệu suất của các mô hình machine learning.
C. Trực quan hóa dữ liệu.
D. Đảm bảo tính bảo mật của dữ liệu.
132. Trong ngữ cảnh Big Data, CAP theorem (Định lý CAP) đề cập đến những yếu tố nào?
A. Consistency (Tính nhất quán), Availability (Tính khả dụng), Partition Tolerance (Tính chịu phân vùng)
B. Capacity (Dung lượng), Accuracy (Độ chính xác), Performance (Hiệu suất)
C. Cost (Chi phí), Agility (Tính linh hoạt), Privacy (Quyền riêng tư)
D. Complexity (Độ phức tạp), Analytics (Phân tích), Prediction (Dự đoán)
133. Trong Big Data, thuật ngữ ‘Data Volume’ (khối lượng dữ liệu) đề cập đến yếu tố nào?
A. Độ lớn của dữ liệu.
B. Tốc độ mà dữ liệu được tạo ra và xử lý.
C. Sự đa dạng của các loại dữ liệu.
D. Giá trị của dữ liệu.
134. Trong ngữ cảnh Big Data, ‘Schema on Read’ (lược đồ khi đọc) có nghĩa là gì?
A. Lược đồ dữ liệu phải được xác định trước khi dữ liệu được ghi vào hệ thống.
B. Lược đồ dữ liệu được áp dụng khi dữ liệu được đọc và truy vấn.
C. Lược đồ dữ liệu được lưu trữ riêng biệt với dữ liệu.
D. Lược đồ dữ liệu không cần thiết trong Big Data.
135. Trong kiến trúc Big Data, ‘Data Warehouse’ (kho dữ liệu) thường được sử dụng để làm gì?
A. Lưu trữ dữ liệu thô ở định dạng gốc của nó.
B. Lưu trữ dữ liệu đã được làm sạch, biến đổi và tích hợp để hỗ trợ phân tích và báo cáo.
C. Xử lý dữ liệu theo luồng (streaming).
D. Quản lý và điều phối tài nguyên cluster.
136. Chọn phát biểu đúng về Apache Spark:
A. Chỉ hỗ trợ xử lý dữ liệu theo lô (batch).
B. Là một framework xử lý dữ liệu lớn nhanh chóng và đa năng, hỗ trợ cả xử lý theo lô và xử lý luồng (streaming).
C. Chỉ hỗ trợ xử lý dữ liệu luồng (streaming).
D. Không hỗ trợ xử lý dữ liệu.
137. Công cụ nào sau đây thường được sử dụng để trực quan hóa dữ liệu trong Big Data?
A. Hadoop
B. Spark
C. Tableau
D. Kafka
138. YARN (Yet Another Resource Negotiator) là một thành phần quan trọng trong hệ sinh thái Hadoop, nó có chức năng chính là gì?
A. Lưu trữ dữ liệu phân tán trên các nút trong cluster.
B. Điều phối và quản lý tài nguyên cluster để thực hiện các tác vụ.
C. Thực hiện các phép toán MapReduce trên dữ liệu.
D. Cung cấp giao diện truy vấn SQL cho dữ liệu Hadoop.
139. Trong kiến trúc Lambda, lớp (layer) nào chịu trách nhiệm xử lý dữ liệu theo lô (batch processing) định kỳ?
A. Lớp phục vụ (Serving Layer)
B. Lớp tốc độ (Speed Layer)
C. Lớp lô (Batch Layer)
D. Lớp tích hợp (Integration Layer)
140. Công cụ nào sau đây thường được sử dụng để thu thập, xử lý và phân tích các bản ghi nhật ký (log records) trong môi trường Big Data?
A. Tableau
B. Splunk
C. R
D. TensorFlow
141. Kỹ thuật ‘Data Wrangling’ (chuẩn bị dữ liệu) trong Big Data bao gồm các hoạt động nào?
A. Chỉ trích xuất dữ liệu từ các nguồn khác nhau.
B. Chỉ tải dữ liệu vào hệ thống lưu trữ.
C. Làm sạch, biến đổi và chuyển đổi dữ liệu sang định dạng phù hợp cho phân tích.
D. Chỉ xây dựng mô hình machine learning.
142. Chọn phát biểu đúng nhất về Apache Kafka:
A. Là một hệ thống quản lý cơ sở dữ liệu quan hệ.
B. Là một nền tảng xử lý luồng phân tán, có khả năng mở rộng cao.
C. Là một công cụ để trực quan hóa dữ liệu.
D. Là một framework để phát triển các ứng dụng machine learning.
143. HDFS (Hadoop Distributed File System) được thiết kế chủ yếu để làm gì?
A. Quản lý và truy vấn dữ liệu quan hệ.
B. Lưu trữ và truy cập dữ liệu lớn một cách tin cậy và hiệu quả trên các cluster phần cứng thông thường.
C. Thực hiện các thuật toán machine learning trên dữ liệu.
D. Điều phối tài nguyên và lên lịch các tác vụ trong cluster Hadoop.
144. Chọn phát biểu sai về Big Data:
A. Big Data luôn cần các công cụ và framework phức tạp để xử lý.
B. Big Data đề cập đến dữ liệu có khối lượng lớn, tốc độ cao và đa dạng.
C. Big Data có thể được sử dụng để cải thiện quyết định kinh doanh.
D. Big Data có thể tạo ra những thách thức về lưu trữ và xử lý dữ liệu.
145. Chọn phát biểu đúng về MapReduce:
A. Là một hệ thống quản lý cơ sở dữ liệu quan hệ.
B. Là một mô hình lập trình để xử lý song song các tập dữ liệu lớn.
C. Là một công cụ để trực quan hóa dữ liệu.
D. Là một framework để phát triển các ứng dụng machine learning.
146. Thuật ngữ ‘Data Lake’ (Hồ dữ liệu) thường được định nghĩa là gì?
A. Một kho lưu trữ dữ liệu có cấu trúc, được tối ưu hóa cho các truy vấn SQL.
B. Một hệ thống quản lý cơ sở dữ liệu quan hệ phân tán.
C. Một kho lưu trữ dữ liệu lớn, chứa dữ liệu thô ở định dạng gốc của nó cho đến khi cần.
D. Một công cụ trực quan hóa dữ liệu dựa trên web.
147. Công cụ nào sau đây thường được sử dụng để quản lý và điều phối các container trong môi trường Big Data?
A. Kubernetes
B. Tableau
C. R
D. TensorFlow
148. Kỹ thuật ‘Dimensionality Reduction’ (giảm chiều dữ liệu) trong Big Data được sử dụng để làm gì?
A. Tăng kích thước của dữ liệu.
B. Giảm số lượng thuộc tính (features) của dữ liệu trong khi vẫn giữ lại thông tin quan trọng.
C. Tăng độ phức tạp của dữ liệu.
D. Loại bỏ hoàn toàn dữ liệu.
149. Công cụ nào sau đây thường được sử dụng để xây dựng các pipeline ETL (Extract, Transform, Load) trong Big Data?
A. Spark
B. Tableau
C. TensorFlow
D. Docker
150. Chọn phát biểu đúng về Apache Cassandra:
A. Là một hệ thống quản lý cơ sở dữ liệu quan hệ.
B. Là một hệ thống quản lý cơ sở dữ liệu NoSQL phân tán, có khả năng mở rộng cao và tính sẵn sàng cao.
C. Là một công cụ để trực quan hóa dữ liệu.
D. Là một framework để phát triển các ứng dụng machine learning.