1. Kỹ thuật ‘Topic Modeling’ được sử dụng để làm gì trong Xử lý ngôn ngữ tự nhiên?
A. Phát hiện các chủ đề tiềm ẩn trong một tập hợp các văn bản.
B. Phân tích cảm xúc của người viết.
C. Xác định các thực thể có tên.
D. Tóm tắt nội dung chính của văn bản.
2. Backpropagation là gì và tại sao nó quan trọng trong việc huấn luyện các mạng nơ-ron (neural networks) cho các tác vụ Xử lý ngôn ngữ tự nhiên?
A. Là một thuật toán để tính toán gradient của hàm mất mát (loss function) và cập nhật trọng số của mạng nơ-ron.
B. Là một thuật toán để giảm kích thước của mạng nơ-ron.
C. Là một thuật toán để tăng tốc độ xử lý của mạng nơ-ron.
D. Là một thuật toán để trực quan hóa cấu trúc của mạng nơ-ron.
3. BLEU (Bilingual Evaluation Understudy) score là gì và nó được sử dụng để làm gì trong Machine Translation?
A. Là một thước đo để đánh giá chất lượng của bản dịch máy so với bản dịch tham khảo.
B. Là một thước đo để đánh giá tốc độ dịch của hệ thống dịch máy.
C. Là một thước đo để đánh giá mức độ sử dụng tài nguyên của hệ thống dịch máy.
D. Là một thước đo để đánh giá tính dễ sử dụng của hệ thống dịch máy.
4. Các thành phần chính của một hệ thống đối thoại (dialogue system) bao gồm những gì?
A. Natural Language Understanding (NLU), Dialogue Management, và Natural Language Generation (NLG).
B. Text Summarization, Sentiment Analysis, và Named Entity Recognition.
C. Machine Translation, Question Answering, và Text Classification.
D. Word Embedding, Part-of-Speech Tagging, và Parsing.
5. Trong Xử lý ngôn ngữ tự nhiên, ‘zero-shot learning’ là gì?
A. Khả năng của mô hình để thực hiện một tác vụ mà không cần bất kỳ dữ liệu huấn luyện nào cho tác vụ đó.
B. Khả năng của mô hình để thực hiện một tác vụ với dữ liệu huấn luyện rất ít.
C. Khả năng của mô hình để thực hiện một tác vụ với độ chính xác tuyệt đối.
D. Khả năng của mô hình để thực hiện nhiều tác vụ cùng một lúc.
6. Trong ngữ cảnh của Xử lý ngôn ngữ tự nhiên, ‘attention mechanism’ (cơ chế chú ý) là gì?
A. Một kỹ thuật cho phép mô hình tập trung vào các phần quan trọng nhất của dữ liệu đầu vào.
B. Một kỹ thuật để loại bỏ các từ không quan trọng.
C. Một kỹ thuật để tăng cường độ chính xác của mô hình.
D. Một kỹ thuật để giảm kích thước của mô hình.
7. Bag-of-Words (BoW) là gì và nó hoạt động như thế nào trong Xử lý ngôn ngữ tự nhiên?
A. Là một phương pháp biểu diễn văn bản bằng cách đếm tần suất xuất hiện của các từ, bỏ qua thứ tự của chúng.
B. Là một phương pháp biểu diễn văn bản bằng cách sắp xếp các từ theo thứ tự xuất hiện.
C. Là một phương pháp biểu diễn văn bản bằng cách sử dụng các từ đồng nghĩa.
D. Là một phương pháp biểu diễn văn bản bằng cách sử dụng các từ trái nghĩa.
8. Trong Xử lý ngôn ngữ tự nhiên, ‘stop word’ là gì và tại sao chúng thường bị loại bỏ khỏi văn bản?
A. Là các từ phổ biến, ít mang ý nghĩa, bị loại bỏ để giảm nhiễu và tăng hiệu quả xử lý.
B. Là các từ mang tính chất xúc phạm, bị loại bỏ để đảm bảo tính lịch sự của văn bản.
C. Là các từ mới xuất hiện, bị loại bỏ để đảm bảo tính ổn định của từ điển.
D. Là các từ viết sai chính tả, bị loại bỏ để đảm bảo tính chính xác của văn bản.
9. Mục tiêu của ‘Machine Translation’ (Dịch máy) là gì?
A. Tự động dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
B. Tóm tắt nội dung chính của văn bản.
C. Phân tích cảm xúc của người viết.
D. Xác định các thực thể có tên trong văn bản.
10. Trong Xử lý ngôn ngữ tự nhiên, ‘dialogue system’ (hệ thống đối thoại) là gì?
A. Một hệ thống cho phép người dùng tương tác với máy tính thông qua ngôn ngữ tự nhiên.
B. Một hệ thống để dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
C. Một hệ thống để tóm tắt nội dung chính của văn bản.
D. Một hệ thống để phân tích cảm xúc của người viết.
11. Phân biệt giữa ‘extractive summarization’ và ‘abstractive summarization’ trong Text Summarization.
A. Extractive chọn các câu có sẵn trong văn bản gốc, abstractive diễn giải và tạo ra các câu mới.
B. Extractive tạo ra các câu mới, abstractive chọn các câu có sẵn trong văn bản gốc.
C. Extractive sử dụng các từ khóa, abstractive sử dụng các câu.
D. Extractive tóm tắt nhanh hơn, abstractive tóm tắt chính xác hơn.
12. Phương pháp nào sau đây thường được sử dụng để giảm số chiều của dữ liệu trong Word Embedding, giúp giảm tải tính toán và cải thiện hiệu suất mô hình?
A. Principal Component Analysis (PCA)
B. Tokenization
C. Part-of-Speech Tagging
D. Named Entity Recognition
13. Fine-tuning (tinh chỉnh) một mô hình ngôn ngữ đã được huấn luyện trước (pre-trained language model) là gì?
A. Huấn luyện mô hình trên một tập dữ liệu nhỏ, cụ thể cho một tác vụ nhất định.
B. Huấn luyện lại mô hình từ đầu.
C. Giảm kích thước của mô hình.
D. Tăng tốc độ xử lý của mô hình.
14. Mục tiêu chính của việc sử dụng mô hình ngôn ngữ (Language Model) trong Xử lý ngôn ngữ tự nhiên là gì?
A. Dự đoán chuỗi từ tiếp theo trong một câu.
B. Phân tích cấu trúc ngữ pháp của câu.
C. Biên dịch ngôn ngữ tự nhiên sang ngôn ngữ máy.
D. Tìm kiếm thông tin liên quan đến một truy vấn.
15. Trong Xử lý ngôn ngữ tự nhiên, ‘n-gram’ là gì?
A. Là một chuỗi gồm n từ liên tiếp trong một văn bản.
B. Là một từ có n nghĩa khác nhau.
C. Là một câu có n từ.
D. Là một đoạn văn có n câu.
16. Trong lĩnh vực Question Answering (QA), hệ thống QA có nhiệm vụ gì?
A. Trả lời câu hỏi của người dùng bằng cách trích xuất thông tin từ văn bản hoặc cơ sở dữ liệu.
B. Tự động đặt câu hỏi dựa trên nội dung của văn bản.
C. Tóm tắt nội dung chính của văn bản.
D. Phân tích cảm xúc của người viết.
17. Named Entity Recognition (NER) là gì trong Xử lý ngôn ngữ tự nhiên?
A. Là kỹ thuật xác định và phân loại các thực thể có tên (ví dụ: tên người, tổ chức, địa điểm) trong văn bản.
B. Là kỹ thuật phân tích cảm xúc của người viết trong văn bản.
C. Là kỹ thuật tóm tắt nội dung chính của văn bản.
D. Là kỹ thuật dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
18. Trong Xử lý ngôn ngữ tự nhiên, ‘domain adaptation’ (thích ứng miền) là gì?
A. Quá trình điều chỉnh một mô hình đã được huấn luyện trên một miền dữ liệu để hoạt động tốt trên một miền dữ liệu khác.
B. Quá trình huấn luyện một mô hình từ đầu trên một miền dữ liệu mới.
C. Quá trình giảm kích thước của một mô hình.
D. Quá trình tăng tốc độ xử lý của một mô hình.
19. Một thách thức lớn trong Xử lý ngôn ngữ tự nhiên đối với tiếng Việt là gì?
A. Sự phức tạp của cấu trúc từ vựng và ngữ pháp do tính đơn lập và giàu hình thái của tiếng Việt.
B. Sự thiếu hụt dữ liệu huấn luyện có sẵn.
C. Sự thiếu hụt các công cụ và thư viện hỗ trợ.
D. Sự thiếu hụt nhân lực có trình độ chuyên môn cao.
20. Trong Xử lý ngôn ngữ tự nhiên, phương pháp nào thường được sử dụng để chuyển đổi văn bản thành dạng số, giúp máy tính có thể hiểu và xử lý?
A. Word Embedding
B. Phân tích cú pháp
C. Loại bỏ stop word
D. Stemming
21. Mục đích của việc sử dụng ‘Word Sense Disambiguation’ (WSD) là gì?
A. Xác định nghĩa chính xác của một từ trong ngữ cảnh cụ thể.
B. Tìm kiếm các từ đồng nghĩa.
C. Loại bỏ các từ không quan trọng.
D. Dịch văn bản sang ngôn ngữ khác.
22. Sentiment Analysis (Phân tích cảm xúc) được sử dụng để làm gì?
A. Xác định thái độ, cảm xúc của người viết đối với một chủ đề cụ thể.
B. Xác định cấu trúc ngữ pháp của câu.
C. Xác định các thực thể có tên trong văn bản.
D. Tóm tắt nội dung chính của văn bản.
23. Trong Xử lý ngôn ngữ tự nhiên, Recurrent Neural Networks (RNNs) thường được sử dụng cho các tác vụ nào?
A. Xử lý dữ liệu chuỗi (ví dụ: dịch máy, phân tích cảm xúc).
B. Xử lý ảnh.
C. Xử lý dữ liệu bảng.
D. Xử lý dữ liệu âm thanh.
24. Phương pháp nào sau đây được sử dụng để xác định loại từ (danh từ, động từ, tính từ…) của mỗi từ trong một câu?
A. Part-of-Speech Tagging (POS Tagging)
B. Named Entity Recognition (NER)
C. Sentiment Analysis
D. Text Summarization
25. TF-IDF (Term Frequency-Inverse Document Frequency) là gì và nó được sử dụng để làm gì?
A. Là một kỹ thuật đánh giá tầm quan trọng của một từ trong một văn bản so với toàn bộ tập văn bản.
B. Là một kỹ thuật loại bỏ các từ không quan trọng trong một văn bản.
C. Là một kỹ thuật tìm kiếm các từ đồng nghĩa trong một văn bản.
D. Là một kỹ thuật tóm tắt nội dung chính của một văn bản.
26. Trong Xử lý ngôn ngữ tự nhiên, ‘regularization’ (chính quy hóa) được sử dụng để làm gì?
A. Ngăn chặn overfitting (quá khớp) của mô hình.
B. Tăng tốc độ huấn luyện của mô hình.
C. Giảm kích thước của mô hình.
D. Cải thiện khả năng diễn giải của mô hình.
27. Kỹ thuật ‘stemming’ trong Xử lý ngôn ngữ tự nhiên có tác dụng gì?
A. Đưa các từ về dạng gốc của chúng.
B. Phân loại các từ theo chủ đề.
C. Tìm kiếm các từ đồng nghĩa.
D. Chuyển đổi văn bản thành giọng nói.
28. Transformer networks, đặc biệt là kiến trúc BERT, đã đạt được những thành công lớn trong lĩnh vực Xử lý ngôn ngữ tự nhiên. Ưu điểm chính của Transformer so với RNN là gì?
A. Khả năng xử lý song song, giúp tăng tốc độ huấn luyện.
B. Khả năng xử lý dữ liệu tuần tự tốt hơn.
C. Yêu cầu ít dữ liệu huấn luyện hơn.
D. Dễ dàng triển khai trên các thiết bị di động.
29. Trong Xử lý ngôn ngữ tự nhiên, kỹ thuật ‘data augmentation’ được sử dụng để làm gì?
A. Tăng kích thước của tập dữ liệu huấn luyện bằng cách tạo ra các biến thể của dữ liệu hiện có.
B. Giảm kích thước của tập dữ liệu huấn luyện để tăng tốc độ huấn luyện.
C. Cải thiện chất lượng của dữ liệu huấn luyện bằng cách loại bỏ các lỗi.
D. Phân tích và trực quan hóa dữ liệu huấn luyện.
30. Kỹ thuật ‘Text Summarization’ (Tóm tắt văn bản) được sử dụng để làm gì?
A. Tạo ra một phiên bản ngắn gọn của văn bản, giữ lại những thông tin quan trọng nhất.
B. Dịch văn bản sang ngôn ngữ khác.
C. Phân tích cảm xúc của người viết.
D. Xác định các thực thể có tên trong văn bản.
31. Kỹ thuật nào sau đây được sử dụng để xử lý các từ chưa biết (out-of-vocabulary words) trong mô hình ngôn ngữ?
A. Sử dụng mã thông báo đặc biệt (ví dụ: ) để thay thế các từ chưa biết.
B. Loại bỏ hoàn toàn các câu chứa từ chưa biết.
C. Thay thế từ chưa biết bằng một từ ngẫu nhiên.
D. Bỏ qua các từ chưa biết.
32. Kỹ thuật nào sau đây được sử dụng để tạo ra dữ liệu huấn luyện bổ sung khi dữ liệu gốc quá ít?
A. Data augmentation (tăng cường dữ liệu).
B. Regularization (chuẩn hóa).
C. Dimensionality reduction (giảm chiều dữ liệu).
D. Stop word removal (loại bỏ stop word).
33. Trong xử lý ngôn ngữ tự nhiên, ‘backpropagation’ (lan truyền ngược) được sử dụng để làm gì?
A. Cập nhật các trọng số của mạng nơ-ron trong quá trình huấn luyện.
B. Phân tích cú pháp của một câu.
C. Loại bỏ các từ dừng.
D. Tìm kiếm các từ khóa.
34. Phương pháp nào sau đây thường được sử dụng để giảm chiều dữ liệu trong xử lý ngôn ngữ tự nhiên, giúp giảm độ phức tạp tính toán?
A. Tokenization
B. Principal Component Analysis (PCA)
C. Part-of-speech tagging
D. Named Entity Recognition
35. Trong mô hình ngôn ngữ, perplexity được sử dụng để đánh giá điều gì?
A. Độ phức tạp của thuật toán huấn luyện.
B. Khả năng dự đoán của mô hình.
C. Thời gian huấn luyện mô hình.
D. Số lượng tham số trong mô hình.
36. Kỹ thuật nào sau đây được sử dụng để xử lý vấn đề ‘vanishing gradient’ (gradient biến mất) trong mạng nơ-ron sâu?
A. Sử dụng các hàm kích hoạt như ReLU (Rectified Linear Unit).
B. Loại bỏ các lớp ẩn.
C. Sử dụng các hàm kích hoạt sigmoid.
D. Giảm kích thước dữ liệu.
37. Trong xử lý ngôn ngữ tự nhiên, ‘zero-shot learning’ là gì?
A. Khả năng của một mô hình để thực hiện một tác vụ mà nó chưa từng được huấn luyện trực tiếp.
B. Một phương pháp để giảm kích thước dữ liệu.
C. Một kỹ thuật để loại bỏ các từ dừng.
D. Một phương pháp để tạo ra word embeddings.
38. Kỹ thuật nào sau đây thường được sử dụng để tạo ra các từ tương tự về nghĩa trong word embedding?
A. Word2Vec.
B. TF-IDF.
C. Stop word removal.
D. Stemming.
39. Mô hình ngôn ngữ BERT (Bidirectional Encoder Representations from Transformers) có ưu điểm gì so với các mô hình ngôn ngữ trước đó?
A. BERT xem xét ngữ cảnh cả bên trái và bên phải của một từ khi tạo ra biểu diễn của từ đó.
B. BERT chỉ có thể xử lý các câu ngắn.
C. BERT không cần dữ liệu huấn luyện.
D. BERT chỉ hoạt động tốt với tiếng Anh.
40. Phương pháp nào sau đây thường được sử dụng để đánh giá hiệu suất của một hệ thống dịch máy?
A. BLEU (Bilingual Evaluation Understudy)
B. ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
C. TF-IDF
D. Word2Vec
41. Trong xử lý ngôn ngữ tự nhiên, ‘stop words’ là gì và tại sao chúng thường bị loại bỏ?
A. Là các từ phổ biến như ‘và’, ‘là’, ‘của’, thường bị loại bỏ vì ít mang ý nghĩa phân biệt.
B. Là các từ hiếm gặp, thường bị loại bỏ để giảm kích thước dữ liệu.
C. Là các từ mang tính chất xúc phạm, thường bị loại bỏ để đảm bảo tính lịch sự.
D. Là các từ có nhiều nghĩa, thường bị loại bỏ để tránh gây hiểu nhầm.
42. Trong Xử lý ngôn ngữ tự nhiên, ‘word embedding’ (biểu diễn từ) nhằm mục đích gì?
A. Biểu diễn từ dưới dạng các vector số, sao cho các từ có nghĩa tương đồng nằm gần nhau trong không gian vector.
B. Loại bỏ các từ dừng (stop words) khỏi văn bản.
C. Chuyển đổi văn bản thành định dạng âm thanh.
D. Phân tích cấu trúc ngữ pháp của câu.
43. Thuật ngữ ‘Bag of Words’ (BoW) trong xử lý ngôn ngữ tự nhiên đề cập đến điều gì?
A. Một phương pháp biểu diễn văn bản, trong đó thứ tự của các từ không quan trọng.
B. Một tập hợp các từ đồng nghĩa.
C. Một kỹ thuật để tạo ra các từ mới.
D. Một phương pháp để loại bỏ các từ không quan trọng.
44. Trong xử lý ngôn ngữ tự nhiên, ‘cosine similarity’ được sử dụng để làm gì?
A. Đo lường sự tương đồng giữa hai vector.
B. Phân tích cú pháp.
C. Loại bỏ các từ dừng.
D. Tìm kiếm các từ khóa.
45. Mục tiêu của việc sử dụng ‘beam search’ trong dịch máy là gì?
A. Tìm kiếm bản dịch tốt nhất bằng cách duy trì một số lượng nhất định các giả thuyết tốt nhất.
B. Tăng tốc độ dịch.
C. Giảm kích thước mô hình.
D. Tăng độ chính xác của mô hình.
46. Mục đích của việc sử dụng ‘Attention Mechanism’ trong các mô hình sequence-to-sequence là gì?
A. Cho phép mô hình tập trung vào các phần quan trọng nhất của chuỗi đầu vào khi tạo ra chuỗi đầu ra.
B. Giảm kích thước của mô hình.
C. Tăng tốc độ huấn luyện mô hình.
D. Chuyển đổi văn bản thành vector.
47. Trong xử lý ngôn ngữ tự nhiên, ‘cross-entropy’ là gì?
A. Một hàm mất mát thường được sử dụng trong các bài toán phân loại.
B. Một phương pháp để giảm chiều dữ liệu.
C. Một kỹ thuật để loại bỏ các từ dừng.
D. Một phương pháp để tạo ra word embeddings.
48. Trong ngữ cảnh của chatbot, ‘intent recognition’ (nhận dạng ý định) là gì?
A. Xác định mục đích hoặc mong muốn của người dùng dựa trên câu nói của họ.
B. Tạo ra các câu trả lời tự động.
C. Lưu trữ lịch sử trò chuyện.
D. Phân tích cảm xúc của người dùng.
49. Trong xử lý ngôn ngữ tự nhiên, ‘TF-IDF’ là viết tắt của cụm từ nào?
A. Term Frequency-Inverse Document Frequency
B. Text Frequency-Inverse Data Format
C. Term Frequency-Integrated Data Frequency
D. Text Frequency-Integrated Document Format
50. Ứng dụng nào sau đây sử dụng kỹ thuật ‘sequence-to-sequence’?
A. Dịch máy.
B. Phân tích cảm xúc.
C. Phân loại văn bản.
D. Nhận dạng giọng nói.
51. Trong xử lý ngôn ngữ tự nhiên, ‘regularization’ (chuẩn hóa) được sử dụng để làm gì?
A. Ngăn chặn overfitting (quá khớp) bằng cách thêm một hình phạt vào hàm mất mát.
B. Tăng tốc độ huấn luyện mô hình.
C. Giảm kích thước dữ liệu.
D. Tăng độ chính xác của mô hình.
52. Ứng dụng nào sau đây KHÔNG phải là một ứng dụng phổ biến của Xử lý ngôn ngữ tự nhiên (NLP)?
A. Dự báo thời tiết.
B. Phân tích cảm xúc.
C. Dịch máy.
D. Chatbot.
53. Mục tiêu của việc sử dụng ‘Conditional Random Fields’ (CRF) là gì?
A. Dự đoán chuỗi nhãn cho một chuỗi đầu vào, ví dụ như trong Named Entity Recognition.
B. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
C. Phân tích cảm xúc của văn bản.
D. Tóm tắt văn bản.
54. Trong xử lý ngôn ngữ tự nhiên, ‘stemming’ và ‘lemmatization’ khác nhau như thế nào?
A. Stemming loại bỏ các hậu tố một cách đơn giản, trong khi lemmatization đưa từ về dạng gốc có nghĩa.
B. Stemming đưa từ về dạng gốc có nghĩa, trong khi lemmatization loại bỏ các hậu tố một cách đơn giản.
C. Stemming chỉ áp dụng cho tiếng Anh, trong khi lemmatization áp dụng cho nhiều ngôn ngữ.
D. Stemming nhanh hơn lemmatization, nhưng kém chính xác hơn.
55. Trong xử lý ngôn ngữ tự nhiên, ‘parsing’ (phân tích cú pháp) là gì?
A. Phân tích cấu trúc ngữ pháp của một câu để xác định mối quan hệ giữa các từ.
B. Chuyển đổi văn bản thành chữ thường.
C. Loại bỏ các ký tự đặc biệt khỏi văn bản.
D. Tìm kiếm các từ khóa trong văn bản.
56. Trong xử lý ngôn ngữ tự nhiên, ‘n-gram’ đề cập đến điều gì?
A. Một chuỗi gồm n từ liên tiếp trong một văn bản.
B. Một phương pháp để loại bỏ các từ dừng.
C. Một kỹ thuật để phân tích cảm xúc.
D. Một loại mô hình dịch máy.
57. Trong xử lý ngôn ngữ tự nhiên, ‘chunking’ là gì?
A. Phân chia văn bản thành các cụm từ (chunks) dựa trên cấu trúc ngữ pháp.
B. Loại bỏ các ký tự đặc biệt.
C. Chuyển đổi văn bản thành chữ thường.
D. Tìm kiếm các từ khóa.
58. Trong xử lý ngôn ngữ tự nhiên, ‘transfer learning’ (học chuyển giao) là gì?
A. Sử dụng kiến thức đã học từ một tác vụ để cải thiện hiệu suất trên một tác vụ khác.
B. Loại bỏ các ký tự đặc biệt.
C. Chuyển đổi văn bản thành chữ thường.
D. Tìm kiếm các từ khóa.
59. Mục tiêu của ‘topic modeling’ (mô hình hóa chủ đề) là gì?
A. Phát hiện các chủ đề tiềm ẩn trong một tập hợp các văn bản.
B. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
C. Phân tích cảm xúc của văn bản.
D. Tóm tắt văn bản.
60. Mục tiêu chính của ‘Named Entity Recognition’ (NER) là gì?
A. Xác định và phân loại các thực thể có tên trong văn bản (ví dụ: tên người, tổ chức, địa điểm).
B. Chuyển đổi văn bản thành giọng nói.
C. Phân tích cảm xúc của văn bản.
D. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
61. Trong xử lý ngôn ngữ tự nhiên, ‘transfer learning’ là gì?
A. Sử dụng kiến thức đã học từ một tác vụ để cải thiện hiệu suất trên một tác vụ khác.
B. Chuyển đổi dữ liệu từ định dạng này sang định dạng khác.
C. Chuyển đổi ngôn ngữ từ ngôn ngữ này sang ngôn ngữ khác.
D. Chuyển đổi văn bản thành giọng nói.
62. Trong xử lý ngôn ngữ tự nhiên, thuật ngữ ‘overfitting’ có nghĩa là gì?
A. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới.
B. Mô hình không hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu mới.
C. Mô hình hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu mới.
D. Mô hình sử dụng quá nhiều tài nguyên tính toán.
63. Trong xử lý ngôn ngữ tự nhiên, ‘Bag of Words’ (BoW) là gì?
A. Một phương pháp biểu diễn văn bản bằng cách đếm tần suất xuất hiện của các từ.
B. Một phương pháp để loại bỏ các từ không quan trọng trong văn bản.
C. Một phương pháp để sắp xếp các từ theo thứ tự quan trọng.
D. Một phương pháp để tìm kiếm các từ đồng nghĩa trong văn bản.
64. Mục đích chính của việc sử dụng ‘data augmentation’ trong NLP là gì?
A. Tăng kích thước của tập dữ liệu huấn luyện.
B. Giảm kích thước của tập dữ liệu huấn luyện.
C. Cải thiện chất lượng của tập dữ liệu huấn luyện.
D. Đánh giá hiệu suất của mô hình.
65. Trong xử lý ngôn ngữ tự nhiên, ‘cosine similarity’ được sử dụng để làm gì?
A. Đo độ tương đồng giữa hai vector.
B. Đo độ dài của một vector.
C. Đo góc giữa hai vector.
D. Đo khoảng cách giữa hai vector.
66. Khi xây dựng một hệ thống chatbot, bước nào sau đây là quan trọng nhất để đảm bảo chatbot hiểu đúng ý định của người dùng?
A. Intent recognition.
B. Entity extraction.
C. Dialogue management.
D. Response generation.
67. Phương pháp nào sau đây thường được sử dụng để giải quyết bài toán phân tích cảm xúc (sentiment analysis)?
A. Naive Bayes.
B. Tokenization.
C. Stemming.
D. Part-of-speech tagging.
68. Mô hình Transformer trong NLP chủ yếu dựa trên cơ chế nào?
A. Attention.
B. Recurrence.
C. Convolution.
D. Pooling.
69. Trong xử lý ngôn ngữ tự nhiên, ‘knowledge graph’ được sử dụng để làm gì?
A. Biểu diễn tri thức và mối quan hệ giữa các thực thể.
B. Phân tích cảm xúc của văn bản.
C. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
D. Tóm tắt văn bản.
70. Mục tiêu của việc sử dụng ‘n-gram’ trong mô hình ngôn ngữ là gì?
A. Dự đoán từ tiếp theo dựa trên n-1 từ trước đó.
B. Phân loại văn bản dựa trên n chủ đề.
C. Tìm kiếm n từ quan trọng nhất trong văn bản.
D. Loại bỏ n từ phổ biến nhất trong văn bản.
71. Trong xử lý ngôn ngữ tự nhiên, ‘fine-tuning’ là gì?
A. Quá trình điều chỉnh một mô hình đã được huấn luyện trước cho một tác vụ cụ thể.
B. Quá trình loại bỏ các tham số không quan trọng trong mô hình.
C. Quá trình thêm dữ liệu mới vào mô hình.
D. Quá trình đánh giá hiệu suất của mô hình.
72. BERT (Bidirectional Encoder Representations from Transformers) là một ví dụ của mô hình nào trong NLP?
A. Pre-trained language model.
B. Sequence-to-sequence model.
C. Hidden Markov model.
D. Conditional random field.
73. Trong xử lý ngôn ngữ tự nhiên, ‘active learning’ là gì?
A. Một phương pháp học máy trong đó mô hình chủ động chọn các mẫu dữ liệu để gán nhãn.
B. Một phương pháp học máy trong đó mô hình học từ dữ liệu không có nhãn.
C. Một phương pháp học máy trong đó mô hình học từ dữ liệu có nhãn.
D. Một phương pháp học máy trong đó mô hình học từ dữ liệu có nhiều nhãn.
74. Phương pháp nào sau đây thường được sử dụng để giảm chiều dữ liệu trong xử lý ngôn ngữ tự nhiên?
A. PCA (Principal Component Analysis).
B. Tokenization.
C. Stemming.
D. Part-of-speech tagging.
75. TF-IDF là viết tắt của thuật ngữ nào?
A. Term Frequency-Inverse Document Frequency.
B. Text Frequency-Inverse Data Function.
C. Term Frequency-Integrated Data Function.
D. Text Frequency-Integrated Document Frequency.
76. Trong xử lý ngôn ngữ tự nhiên, ‘zero-shot learning’ là gì?
A. Khả năng của mô hình để thực hiện một tác vụ mà không cần được huấn luyện trực tiếp trên tác vụ đó.
B. Quá trình huấn luyện mô hình với dữ liệu không có nhãn.
C. Quá trình huấn luyện mô hình với dữ liệu có ít nhãn.
D. Quá trình huấn luyện mô hình với dữ liệu có nhiều nhãn.
77. Mục đích chính của stemming trong xử lý ngôn ngữ tự nhiên là gì?
A. Đưa các từ về dạng gốc của chúng.
B. Phân loại các từ theo loại từ.
C. Tìm kiếm các từ đồng nghĩa.
D. Sửa lỗi chính tả của các từ.
78. Mục đích của việc sử dụng hàm kích hoạt (activation function) trong mạng neural là gì?
A. Giới thiệu tính phi tuyến vào mạng.
B. Giảm chiều dữ liệu.
C. Tăng tốc độ hội tụ.
D. Giảm overfitting.
79. Attention mechanism trong mô hình Transformer giúp giải quyết vấn đề gì so với các mô hình sequence-to-sequence truyền thống?
A. Vấn đề phụ thuộc vào khoảng cách (long-range dependencies).
B. Vấn đề vanishing gradient.
C. Vấn đề overfitting.
D. Vấn đề tính toán chậm.
80. Trong xử lý ngôn ngữ tự nhiên, ‘stop words’ thường được sử dụng để làm gì?
A. Loại bỏ các từ phổ biến, ít mang ý nghĩa trong văn bản.
B. Tăng cường các từ quan trọng trong văn bản.
C. Phân loại các từ theo chủ đề.
D. Đánh dấu các từ có lỗi chính tả.
81. Trong mô hình ngôn ngữ, perplexity dùng để đánh giá điều gì?
A. Độ không chắc chắn của mô hình khi dự đoán chuỗi văn bản.
B. Tốc độ hội tụ của mô hình.
C. Số lượng tham số của mô hình.
D. Khả năng khái quát hóa của mô hình.
82. Kỹ thuật nào sau đây thường được sử dụng để đánh giá hiệu suất của một hệ thống dịch máy?
A. BLEU score.
B. Accuracy.
C. Precision.
D. Recall.
83. Kỹ thuật nào sau đây có thể được sử dụng để giảm thiểu overfitting trong mô hình NLP?
A. Regularization.
B. Tokenization.
C. Stemming.
D. Part-of-speech tagging.
84. Trong xử lý ngôn ngữ tự nhiên, ‘backpropagation’ được sử dụng để làm gì?
A. Cập nhật trọng số của mạng neural.
B. Phân loại văn bản.
C. Tách từ trong văn bản.
D. Tìm kiếm các từ đồng nghĩa.
85. Trong xử lý ngôn ngữ tự nhiên, ‘tokenization’ là gì?
A. Quá trình chia văn bản thành các đơn vị nhỏ hơn, thường là từ hoặc cụm từ.
B. Quá trình loại bỏ các từ không quan trọng trong văn bản.
C. Quá trình gán nhãn cho các từ trong văn bản.
D. Quá trình tìm kiếm các từ đồng nghĩa trong văn bản.
86. Công cụ nào sau đây thường được sử dụng để thực hiện Part-of-speech tagging trong tiếng Việt?
A. VnCoreNLP.
B. NLTK.
C. SpaCy.
D. Gensim.
87. Trong xử lý ngôn ngữ tự nhiên, ‘sequence-to-sequence’ (seq2seq) models thường được sử dụng cho tác vụ nào?
A. Dịch máy.
B. Phân loại văn bản.
C. Tóm tắt văn bản.
D. Phân tích cảm xúc.
88. Trong xử lý ngôn ngữ tự nhiên, ‘Named Entity Recognition’ (NER) là gì?
A. Xác định và phân loại các thực thể có tên trong văn bản.
B. Tìm kiếm các từ đồng nghĩa trong văn bản.
C. Phân tích cảm xúc của văn bản.
D. Loại bỏ các thực thể không quan trọng trong văn bản.
89. Word2Vec là một ví dụ của kỹ thuật nào trong NLP?
A. Word embedding.
B. Text summarization.
C. Machine translation.
D. Question answering.
90. Trong xử lý ngôn ngữ tự nhiên (NLP), ‘word embedding’ là gì?
A. Một kỹ thuật để biểu diễn từ vựng thành các vector số thực trong không gian nhiều chiều, thể hiện mối quan hệ ngữ nghĩa giữa các từ.
B. Một phương pháp để loại bỏ các từ dừng (stop words) khỏi văn bản.
C. Một thuật toán để phân loại văn bản dựa trên tần suất xuất hiện của các từ.
D. Một kỹ thuật để tạo ra các từ mới từ các từ hiện có.
91. Phương pháp nào sau đây được sử dụng để nhóm các văn bản có nội dung tương tự nhau thành các chủ đề?
A. Sentiment analysis
B. Topic modeling
C. Named Entity Recognition (NER)
D. Part-of-speech tagging (POS tagging)
92. Trong Xử lý ngôn ngữ tự nhiên, ‘Named Entity Recognition’ (NER) là gì?
A. Quá trình phân tích cảm xúc của văn bản.
B. Quá trình xác định và phân loại các thực thể có tên trong văn bản.
C. Quá trình tạo ra các vector biểu diễn từ.
D. Quá trình loại bỏ các từ không quan trọng.
93. Trong Xử lý ngôn ngữ tự nhiên, phương pháp nào thường được sử dụng để giảm số chiều của dữ liệu văn bản, giúp giảm độ phức tạp tính toán?
A. Loại bỏ stop words
B. Stemming
C. Principal Component Analysis (PCA)
D. Tokenization
94. Long Short-Term Memory (LSTM) là một loại mạng nơ-ron đặc biệt, được thiết kế để giải quyết vấn đề gì của RNN?
A. Vanishing gradient.
B. Overfitting.
C. Tính toán chậm.
D. Khó khăn trong việc xử lý dữ liệu song song.
95. Phương pháp nào sau đây thường được sử dụng để trích xuất thông tin từ văn bản, chẳng hạn như ngày tháng, địa điểm, và sự kiện?
A. Sentiment analysis.
B. Topic modeling.
C. Information extraction.
D. Text summarization.
96. TF-IDF là viết tắt của cụm từ nào?
A. Term Frequency – Inverse Document Frequency
B. Text Frequency – Inverse Data Frequency
C. Term Frequency – Integrated Data Frequency
D. Text Frequency – Integrated Document Frequency
97. Phương pháp nào sau đây được sử dụng để chuyển đổi văn bản thành dạng số, phù hợp cho việc xử lý bằng các mô hình máy học?
A. Stemming
B. Tokenization
C. Word embedding
D. Part-of-speech tagging
98. Trong ngữ cảnh của Xử lý ngôn ngữ tự nhiên, ‘backpropagation’ là gì?
A. Một phương pháp để tiền xử lý dữ liệu văn bản.
B. Một thuật toán để tối ưu hóa các tham số của mạng nơ-ron.
C. Một kỹ thuật để giảm số chiều của dữ liệu.
D. Một phương pháp để phân tích cảm xúc.
99. Mục đích chính của việc sử dụng ‘stemming’ trong Xử lý ngôn ngữ tự nhiên là gì?
A. Loại bỏ stop words.
B. Chuyển đổi văn bản thành chữ thường.
C. Rút gọn các từ về dạng gốc của chúng.
D. Phân tích cú pháp của câu.
100. Trong Xử lý ngôn ngữ tự nhiên, ‘cross-entropy’ thường được sử dụng làm gì?
A. Một phương pháp để mã hóa văn bản.
B. Một hàm mất mát để huấn luyện các mô hình phân loại.
C. Một kỹ thuật để giảm số chiều của dữ liệu.
D. Một phương pháp để phân tích cú pháp.
101. Mục tiêu của ‘sentiment analysis’ trong Xử lý ngôn ngữ tự nhiên là gì?
A. Xác định chủ đề chính của văn bản.
B. Xác định và phân loại các thực thể có tên.
C. Xác định cảm xúc hoặc thái độ được thể hiện trong văn bản.
D. Chuyển đổi văn bản thành dạng số.
102. Phương pháp nào sau đây thường được sử dụng để xác định loại từ (danh từ, động từ, tính từ,…) của mỗi từ trong một câu?
A. Named Entity Recognition (NER)
B. Part-of-speech tagging (POS tagging)
C. Sentiment analysis
D. Topic modeling
103. Beam search là một thuật toán tìm kiếm thường được sử dụng trong các tác vụ nào của Xử lý ngôn ngữ tự nhiên?
A. Phân tích cú pháp.
B. Dịch máy.
C. Phân tích cảm xúc.
D. Nhận dạng thực thể có tên.
104. Trong Xử lý ngôn ngữ tự nhiên, ‘coreference resolution’ là gì?
A. Quá trình phân tích cú pháp của câu.
B. Quá trình xác định các biểu thức ngôn ngữ (ví dụ: đại từ) đề cập đến cùng một thực thể.
C. Quá trình phân tích cảm xúc của văn bản.
D. Quá trình tạo ra các vector biểu diễn từ.
105. Trong Xử lý ngôn ngữ tự nhiên, ‘knowledge graph’ là gì?
A. Một phương pháp để mã hóa văn bản.
B. Một biểu đồ tri thức thể hiện các thực thể và mối quan hệ giữa chúng.
C. Một kỹ thuật để phân tích cảm xúc.
D. Một mô hình ngôn ngữ lớn.
106. Ứng dụng nào sau đây của Xử lý ngôn ngữ tự nhiên liên quan đến việc tự động tạo ra các đoạn văn bản mới?
A. Sentiment analysis.
B. Text summarization.
C. Text generation.
D. Machine translation.
107. Trong các mô hình ngôn ngữ, perplexity được sử dụng để đánh giá điều gì?
A. Tốc độ xử lý của mô hình.
B. Độ chính xác của mô hình trong việc dự đoán từ tiếp theo.
C. Khả năng của mô hình trong việc phân tích cảm xúc.
D. Kích thước của mô hình.
108. Trong Xử lý ngôn ngữ tự nhiên, ‘n-gram’ là gì?
A. Một phương pháp mã hóa văn bản.
B. Một chuỗi gồm n từ liên tiếp trong một văn bản.
C. Một loại mô hình ngôn ngữ dựa trên mạng nơ-ron.
D. Một kỹ thuật loại bỏ nhiễu trong dữ liệu văn bản.
109. Trong Xử lý ngôn ngữ tự nhiên, ‘zero-shot learning’ là gì?
A. Huấn luyện mô hình với rất ít dữ liệu.
B. Huấn luyện mô hình mà không cần bất kỳ dữ liệu huấn luyện nào.
C. Khả năng của mô hình để thực hiện một tác vụ mà nó chưa từng được huấn luyện trực tiếp.
D. Sử dụng mô hình đã được huấn luyện trên một ngôn ngữ để thực hiện tác vụ trên một ngôn ngữ khác.
110. Mục tiêu chính của việc sử dụng ‘dropout’ trong huấn luyện mạng nơ-ron cho các tác vụ Xử lý ngôn ngữ tự nhiên là gì?
A. Tăng tốc độ huấn luyện.
B. Giảm overfitting.
C. Tăng độ chính xác trên tập huấn luyện.
D. Giảm kích thước của mô hình.
111. Trong ngữ cảnh của Xử lý ngôn ngữ tự nhiên, ‘stop words’ là gì?
A. Các từ mang ý nghĩa quan trọng nhất trong văn bản.
B. Các từ được sử dụng để kết nối các mệnh đề.
C. Các từ phổ biến và ít mang ý nghĩa trong văn bản, thường bị loại bỏ.
D. Các từ được sử dụng để biểu thị cảm xúc.
112. Fine-tuning một mô hình BERT đã được huấn luyện trước (pre-trained) có nghĩa là gì?
A. Huấn luyện lại mô hình từ đầu với dữ liệu mới.
B. Điều chỉnh các tham số của mô hình đã được huấn luyện trước trên một tập dữ liệu cụ thể cho một tác vụ cụ thể.
C. Giảm kích thước của mô hình.
D. Thay đổi kiến trúc của mô hình.
113. Mô hình Transformer, được sử dụng rộng rãi trong Xử lý ngôn ngữ tự nhiên, dựa trên cơ chế nào?
A. Recurrence
B. Convolution
C. Attention
D. Pooling
114. Mô hình Word2Vec sử dụng kiến trúc mạng nơ-ron nào để học biểu diễn từ?
A. Recurrent Neural Network (RNN)
B. Convolutional Neural Network (CNN)
C. Transformer
D. Shallow Neural Network
115. Phương pháp nào sau đây thường được sử dụng để tóm tắt một văn bản dài thành một phiên bản ngắn gọn hơn?
A. Named Entity Recognition (NER).
B. Part-of-speech tagging (POS tagging).
C. Text summarization.
D. Sentiment analysis.
116. Phương pháp nào sau đây thường được sử dụng để đánh giá chất lượng của bản dịch máy?
A. Perplexity.
B. BLEU (Bilingual Evaluation Understudy).
C. F1-score.
D. Accuracy.
117. Mô hình BERT (Bidirectional Encoder Representations from Transformers) cải thiện so với các mô hình trước đó như thế nào?
A. Chỉ sử dụng thông tin từ trước về để dự đoán từ tiếp theo.
B. Chỉ sử dụng thông tin từ sau về để dự đoán từ trước đó.
C. Sử dụng cả thông tin từ trước và sau để hiểu ngữ cảnh của từ.
D. Không sử dụng Transformer.
118. Trong Xử lý ngôn ngữ tự nhiên, ‘attention mechanism’ cho phép mô hình làm gì?
A. Tăng tốc độ huấn luyện.
B. Tập trung vào các phần quan trọng nhất của đầu vào.
C. Giảm kích thước của mô hình.
D. Loại bỏ nhiễu trong dữ liệu.
119. Recurrent Neural Network (RNN) đặc biệt phù hợp với loại dữ liệu nào?
A. Dữ liệu ảnh.
B. Dữ liệu chuỗi (sequential data).
C. Dữ liệu bảng.
D. Dữ liệu âm thanh.
120. Trong Xử lý ngôn ngữ tự nhiên, ‘chatbot’ là gì?
A. Một mô hình ngôn ngữ lớn.
B. Một chương trình máy tính được thiết kế để mô phỏng cuộc trò chuyện với con người.
C. Một kỹ thuật để phân tích cảm xúc.
D. Một phương pháp để tóm tắt văn bản.
121. Trong xử lý ngôn ngữ tự nhiên, ‘coreference resolution’ là gì?
A. Quá trình dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
B. Quá trình xác định các cụm từ hoặc thực thể khác nhau đề cập đến cùng một đối tượng.
C. Quá trình phân tích cảm xúc của văn bản.
D. Quá trình tóm tắt nội dung chính của văn bản.
122. Trong xử lý ngôn ngữ tự nhiên, ‘Bag of Words’ là gì?
A. Một mô hình biểu diễn văn bản dưới dạng tập hợp các từ, không quan tâm đến thứ tự.
B. Một kỹ thuật để loại bỏ các từ không quan trọng trong văn bản.
C. Một phương pháp để tạo ra các câu văn có nghĩa từ các từ riêng lẻ.
D. Một thuật toán để tìm kiếm các từ khóa trong văn bản.
123. Trong xử lý ngôn ngữ tự nhiên, ‘perplexity’ được sử dụng để đánh giá điều gì?
A. Độ phức tạp của thuật toán.
B. Hiệu suất của phần cứng.
C. Chất lượng của mô hình ngôn ngữ.
D. Số lượng từ trong từ vựng.
124. Trong xử lý ngôn ngữ tự nhiên, ‘transfer learning’ là gì?
A. Một phương pháp học máy không cần dữ liệu huấn luyện.
B. Một phương pháp học máy chỉ sử dụng dữ liệu không được gán nhãn.
C. Một phương pháp học máy sử dụng kiến thức đã học từ một nhiệm vụ để cải thiện hiệu suất trên một nhiệm vụ khác.
D. Một phương pháp học máy có độ chính xác bằng 0.
125. Trong xử lý ngôn ngữ tự nhiên, ‘zero-shot learning’ là gì?
A. Một phương pháp học máy không cần dữ liệu huấn luyện.
B. Một phương pháp học máy chỉ sử dụng dữ liệu không được gán nhãn.
C. Một phương pháp học máy có thể nhận biết các lớp chưa từng thấy trong quá trình huấn luyện.
D. Một phương pháp học máy có độ chính xác bằng 0.
126. Phương pháp nào sau đây được sử dụng để tạo ra các biểu diễn vector của từ, trong đó các từ có nghĩa tương tự có khoảng cách gần nhau trong không gian vector?
A. Bag of Words
B. TF-IDF
C. Word Embeddings
D. N-grams
127. Ứng dụng nào sau đây KHÔNG phải là một ứng dụng phổ biến của xử lý ngôn ngữ tự nhiên?
A. Dịch máy
B. Nhận dạng khuôn mặt
C. Phân tích cảm xúc
D. Chatbot
128. Kỹ thuật nào trong xử lý ngôn ngữ tự nhiên được sử dụng để chuyển đổi một từ về dạng gốc của nó, ví dụ như ‘running’ thành ‘run’?
A. Stemming
B. Lemmatization
C. Tokenization
D. Parsing
129. Kỹ thuật nào trong xử lý ngôn ngữ tự nhiên được sử dụng để nhóm các từ có nghĩa tương tự nhau vào cùng một nhóm?
A. Stemming
B. Lemmatization
C. Word embedding
D. Topic modeling
130. Mô hình ngôn ngữ nào sau đây được phát triển bởi Google và nổi tiếng với khả năng sinh văn bản tự nhiên và trả lời câu hỏi?
A. Word2Vec
B. GloVe
C. BERT
D. ELMo
131. Kỹ thuật nào trong xử lý ngôn ngữ tự nhiên giúp xác định mối quan hệ giữa các từ trong một câu, ví dụ như chủ ngữ, vị ngữ, tân ngữ?
A. Stemming
B. Lemmatization
C. Dependency Parsing
D. Tokenization
132. Ứng dụng nào sau đây sử dụng xử lý ngôn ngữ tự nhiên để tự động tạo ra các mô tả cho hình ảnh?
A. Image Recognition
B. Image Captioning
C. Object Detection
D. Image Segmentation
133. Phương pháp nào trong xử lý ngôn ngữ tự nhiên giúp xác định vai trò ngữ pháp của một từ trong câu, ví dụ như danh từ, động từ, tính từ?
A. Named entity recognition
B. Part-of-speech tagging
C. Sentiment analysis
D. Text summarization
134. Mục tiêu của ‘Sentiment Analysis’ trong xử lý ngôn ngữ tự nhiên là gì?
A. Tóm tắt nội dung chính của văn bản.
B. Xác định và phân loại các thực thể có tên trong văn bản.
C. Xác định cảm xúc hoặc thái độ được thể hiện trong văn bản.
D. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
135. Trong xử lý ngôn ngữ tự nhiên, ‘parsing’ là gì?
A. Quá trình loại bỏ các từ không quan trọng trong văn bản.
B. Quá trình phân tích cấu trúc cú pháp của một câu.
C. Quá trình chuyển đổi một từ về dạng gốc của nó.
D. Quá trình tìm kiếm các từ đồng nghĩa.
136. Trong xử lý ngôn ngữ tự nhiên, ‘knowledge graph’ là gì?
A. Một biểu đồ thể hiện mối quan hệ giữa các khái niệm và thực thể.
B. Một phương pháp để tóm tắt văn bản.
C. Một kỹ thuật để phân tích cảm xúc.
D. Một thuật toán để dịch văn bản.
137. Phương pháp nào sau đây giúp giải quyết vấn đề từ đa nghĩa trong xử lý ngôn ngữ tự nhiên?
A. Stemming
B. Word Sense Disambiguation
C. Stop word removal
D. Part-of-speech tagging
138. Trong xử lý ngôn ngữ tự nhiên, ‘n-gram’ là gì?
A. Một phương pháp để tạo ra các từ mới.
B. Một chuỗi gồm n từ liên tiếp trong một văn bản.
C. Một kỹ thuật để đánh giá độ chính xác của mô hình ngôn ngữ.
D. Một thuật toán để tìm kiếm các từ đồng nghĩa.
139. Trong xử lý ngôn ngữ tự nhiên, ‘BLEU score’ được sử dụng để đánh giá điều gì?
A. Chất lượng của mô hình phân tích cảm xúc.
B. Độ chính xác của mô hình nhận dạng thực thể có tên.
C. Chất lượng của bản dịch máy.
D. Hiệu quả của thuật toán tóm tắt văn bản.
140. Trong xử lý ngôn ngữ tự nhiên, ‘TF-IDF’ là viết tắt của cụm từ nào?
A. Term Frequency – Inverse Document Frequency
B. Text Frequency – Inverse Data Frequency
C. Term Frequency – Identical Document Frequency
D. Text Frequency – Identical Data Frequency
141. Kỹ thuật nào trong xử lý ngôn ngữ tự nhiên được sử dụng để tóm tắt nội dung chính của một văn bản dài?
A. Sentiment Analysis
B. Named Entity Recognition
C. Text Summarization
D. Machine Translation
142. Trong xử lý ngôn ngữ tự nhiên, mô hình ‘Transformer’ nổi tiếng với cơ chế nào?
A. Convolution
B. Recurrence
C. Attention
D. Pooling
143. Trong ngữ cảnh của chatbot, kỹ thuật nào của xử lý ngôn ngữ tự nhiên giúp chatbot hiểu được ý định của người dùng?
A. Machine Translation
B. Sentiment Analysis
C. Intent Recognition
D. Text Summarization
144. Mục tiêu chính của ‘Named Entity Recognition’ (NER) trong xử lý ngôn ngữ tự nhiên là gì?
A. Phân tích cảm xúc của văn bản.
B. Xác định và phân loại các thực thể có tên trong văn bản.
C. Tóm tắt nội dung chính của văn bản.
D. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
145. Trong xử lý ngôn ngữ tự nhiên, kỹ thuật nào được sử dụng để chia một văn bản thành các đơn vị nhỏ hơn, chẳng hạn như từ hoặc câu?
A. Stemming
B. Tokenization
C. Lemmatization
D. Parsing
146. Trong xử lý ngôn ngữ tự nhiên, ‘cosine similarity’ được sử dụng để làm gì?
A. Đo khoảng cách giữa hai từ.
B. Đo mức độ tương đồng giữa hai văn bản.
C. Đánh giá độ chính xác của mô hình ngôn ngữ.
D. Tìm kiếm các từ khóa trong văn bản.
147. Kỹ thuật nào trong xử lý ngôn ngữ tự nhiên được sử dụng để phát hiện tin giả hoặc thông tin sai lệch?
A. Sentiment Analysis
B. Fake News Detection
C. Text Summarization
D. Machine Translation
148. Kỹ thuật nào trong xử lý ngôn ngữ tự nhiên được sử dụng để tạo ra các câu trả lời tự động cho các câu hỏi?
A. Text Summarization
B. Machine Translation
C. Question Answering
D. Sentiment Analysis
149. Trong xử lý ngôn ngữ tự nhiên, kỹ thuật nào được sử dụng để giảm số lượng từ trong văn bản bằng cách loại bỏ các từ phổ biến như ‘the’, ‘a’, ‘is’?
A. Stemming
B. Tokenization
C. Stop word removal
D. Part-of-speech tagging
150. Mô hình ngôn ngữ nào dựa trên mạng nơ-ron được sử dụng rộng rãi trong xử lý ngôn ngữ tự nhiên, đặc biệt là trong dịch máy và sinh văn bản?
A. Support Vector Machine
B. Recurrent Neural Network
C. Decision Tree
D. Naive Bayes