có khả năng phân biệt cao và 'còn sót lại' các tính năng có
rất ít để đóng góp vào sự thành công của việc phát hiện gian lận tài chính.
Hơn nữa, để tiến hành một nghiên cứu thấu đáo hơn này
tập dữ liệu, trong tập thứ hai của thử nghiệm chúng tôi chỉ xem xét đầu
10 tính năng (dựa trên các giá trị của t-thống kê) để xây dựng
các tính năng giảm tập hợp con. 10 tính năng hàng đầu có thể được nhìn thấy trong những người đầu tiên
mười hàng Bảng 2.We lặp đi lặp lại các thí nghiệm như trong trường hợp đầu tiên.
Các kết quả trung bình cho tất cả các phân loại trên khắp foldswith 10 tính năng
được thể hiện trong Bảng 5. Từ bảng 5 chúng ta thấy rằng PNN
vượt trội so với các phân loại khác với 90.77% độ chính xác và 87,53%
nhạy cảm (như được chỉ ra bởi chữ số mặt in đậm trong bảng 5), trong khi
GP đứng thứ hai với 89,27% và độ chính xác 85,64% nhạy cảm.
Hơn nữa, kết quả dựa trên AUC chỉ ra rằng PNN mang lại sự
chính xác cao nhất tiếp theo GP, mà mang lại chỉ nhỉnh ít
chính xác.
Để tìm hiểu xem sự khác biệt trong AUCs trung bình là
ý nghĩa thống kê hay không, chúng tôi đã tiến hành một t-test giữa đầu
biểu diễn và phân loại còn lại (i) không có lựa chọn tính năng,
(ii) với lựa chọn tính năng bao gồm cả đầu 18 tính năng, và (iii) với
lựa chọn tính năng bao gồm 10 tính năng hàng đầu. Trong trường hợp của các tập dữ liệu
mà không cần lựa chọn tính năng, các giá trị thống kê t giữa các trung bình
AUCs thu được bằng PNN và của các phân loại khác được thể hiện trong
Bảng 6. Từ bảng 6 chúng tôi nhận thấy rằng các giá trị thống kê t có nhiều
hơn giá trị quan trọng của kiểm tra số liệu thống kê, đó là 1,73 ở 10%
mức ý nghĩa. Như vậy, chúng ta suy ra rằng PNN tốt hơn đáng kể
phân loại khác mà không có lựa chọn tính năng. Trong trường hợp của các
bộ dữ liệu với tính năng lựa chọn và xem xét chỉ có 18 đầu
tính năng, các giá trị thống kê t giữa AUCs trung bình thu được
bằng GP và của các phân loại khác được trình bày trong Bảng 7. Từ
bảng chúng ta có thể thấy rằng các giá trị thống kê t hơn 1,73 trong
trường hợp MLFF, SVM và LR, trong khi những giá trị ít hơn 1,73 trong
trường hợp của PNN và GMDH. Từ những kết quả này, chúng tôi có thể nói rằng các GP
tốt hơn đáng kể tất cả các phân loại trừ GMDH và PNN.
Xem xét chỉ ra 10 tính năng hàng đầu, các giá trị thống kê t giữa
các AUCs trung bình thu được bằng PNN và của các phân loại khác được
trình bày trong Bảng 8. Từ bảng này, chúng ta có thể quan sát thống kê t
giá trị hơn 1,73 trong trường hợp MLFF, SVM và LR, trong khi
những giá trị ít hơn 1,73 trong trường hợp GP và GMDH. Từ những
kết quả chúng ta có thể nói rằng PNN vượt trội so với tất cả các phân loại trừ GP
và GMDH.
Khi chúng ta có một cái nhìn gần vào top 10 và top 18 tính năng thể hiện
trong Bảng 2, chúng tôi nhận thấy rằng hầu hết các tính năng này được kết hợp với
khả năng của công ty để tạo ra lợi nhuận hoặc thu nhập. Trong số 10 đầu
tính năng, tám tính năng có liên quan đến lợi nhuận của các
công ty. Một vẻ gần hơn cho thấy rằng trong số 10 tính năng hàng đầu, bốn được
kết hợp với thu nhập kinh doanh chính, và năm được kết hợp với
một trong hai tổng hoặc lợi nhuận ròng thu được của công ty. Điều này chỉ ra rằng một
công ty lừa đảo thường cố gắng để thổi phồng lợi nhuận hoặc các con số thu nhập
nhằm tạo ra một báo cáo tài chính đầy ấn tượng. Bất kỳ bất thường
con số thu nhập hoặc lợi nhuận phải là lý do để nghi ngờ và tiếp tục
điều tra của kiểm toán.
Khi các bộ dữ liệu hiện tại của 35 chiều (chỉ tiêu tài chính) được
hình dung bằng cách sử dụng công cụ Neucom [32] trong các thành phần chính
kích thước bằng cách vẽ các thành phần chính đầu tiên trên trục x và
các thành phần chính thứ hai trên trục y, chúng tôi nhận thấy ba
cụm chiếm ưu thế và chín kẻ xuất. Điều này cung cấp một khả năng
lý do để thực hiện ngoạn mục của PNN vì PNN là
khoan dung để tách [4]. Trong khi so sánh các số liệu có và
không có lựa chọn tính năng, nó được nhận thấy rằng ngay cả sau khi giảm
số tính năng để gần một phần ba số lượng ban đầu, các
thay đổi về độ chính xác tối đa là 5% trong tất cả các trường hợp ngoại trừ PNN, nơi
các độ chính xác là giảm 8%. Từ đây chúng ta có thể suy ra rằng tstatistic
là một kỹ thuật lựa chọn tính năng đơn giản và hiệu quả để
chọn lên các tính năng rất quan trọng mà đảm bảo độ chính xác tốt hơn.
Dựa trên các thí nghiệm của chúng tôi, chúng tôi kết luận rằng PNN không có tính năng
lựa chọn tốt hơn các phương pháp như asMLFF, SVM, GP, GMDH, và
LR. Sau khi lựa chọn tính năng, GP thực hiện tốt so với tất cả các
kỹ thuật, và PNN mang lại độ chính xác nhẹ ít khi top 18
tính năng được lựa chọn. Tương tự như vậy, PNN vượt trội so với tất cả các
kỹ thuật khi top 10 tính năng được lựa chọn. Ngoài ra, chúng tôi kết luận
rằng kết quả của chúng tôi là vượt trội hơn nhiều để nghiên cứu trước đó trên cùng một
tập dữ liệu.
Cần lưu ý rằng trong khi tất cả các kỹ thuật có chi phí bằng nhau,
các kỹ thuật được ưa thích và đề nghị được hoàn toàn quyết
bởi các số liệu trong tầm tay. Kể từ khi chính xác là amajor quan tâm đến tài chính
các nhà phân tích, chúng ta nên chọn là kỹ thuật trong đó sản lượng ít
misclassifications và tiêu thụ l
đang được dịch, vui lòng đợi..
