ISSN | 2615-9813 |
ISSN (số cũ) | 1859-3682 |
Tóm tắt:
Bộ phân lớp Bayes là một trong những phương pháp phân lớp dữ liệu rất được quan tâm. Trong các công cụ phân loại Bayes thì sai số Bayes, Pe là một thước đo quan trọng bởi nó có thể ước lượng sai số của việc xây dựng mô hình thông qua việc tính toán vùng chồng lấn của hàm xác suất hậu nghiệm. Việc tính toán chính xác Pe phụ thuộc vào việc tính toán chính xác các hàm khả năng xảy ra và xác suất tiền nghiệm của từng loại. Trong các nghiên cứu trước đây, xác suất tiền nghiệm chỉ được xem là một giá trị cố định, do đó sai số Bayes thường là một giá trị cố định. Điều này đôi khi dẫn đến những kết quả không hợp lý. Để lấp đầy khoảng trống nghiên cứu đã đề cập, bài viết này xem xác suất tiền nghiệm q trong bộ phân loại Bayes là một phân phối và xem xét phân phối hậu nghiệm của sai số Bayes, sử dụng mô phỏng Monte-Carlo. Cuối cùng, phương pháp đề xuất được áp dụng cho dữ liệu chấm điểm tín dụng của một ngân hàng tại Việt Nam. Dựa trên kết quả, chúng ta có thể xác định liệu bộ phân loại Bayes có phù hợp với dữ liệu hay không. Ngoài ra, thiết lập tham số tiền nghiệm có thể được kiểm định thông qua phân tích độ nhạy.
Abstract:
Bayesian classifier is one of the data classification methods that are of interest. In the Bayesian classifier, Bayes error, Pe is an important measure because it can estimate the error of the model built through the calculation of the posterior probability function’s overlapping area. The exact calculation of Pe depends on the exact calculation of likelihood functions and the prior probability of each type. In previous studies, the prior probability has been considered as a fixed value only, hence, the Bayes error is usually a fixed value. This sometimes leads to unreasonable results. To fill the mentioned research gap, this paper considers the prior probability q in Bayesian classifier as a distribution, and looks insight the posterior distribution of Bayes error, using Monte-Carlo simulation. Finally, the proposed method is applied to credit scoring data of a bank in Vietnam. Based on the results, we can determine whether the Bayesian classifier is suitable for data or not. In addition, the prior parameter setting can be tested through sensitivity analysis.