lựa chọn kỹ thuật. Các tính năng được xếp hạng theo công thức
dưới đây [16,29]. Trong thực tế, Liu et al. [29] là những người đầu tiên đề xuất
thống kê t cho các mục đích lựa chọn tính năng trong lĩnh vực
sinh học.
thống kê t =
jμ1-μ2 j
ffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffi
σ2
1
n1
+ σ2
2
n2
r ð4Þ
nơi μ1 và μ2 đại diện cho các phương tiện của các mẫu của lừa đảo
các công ty và các công ty không gian lận cho một tính năng nhất định
tương ứng, σ1 và σ2 đại diện cho độ lệch chuẩn của các
mẫu của công ty lừa đảo và các công ty không gian lận cho một
tính năng nhất định tương ứng. n1 và n2 đại diện cho số của mẫu
của công ty lừa đảo và các công ty không gian lận cho một định
tính năng. Các giá trị thống kê t được tính toán cho từng tính năng và
18 tính năng hàng đầu với các giá trị thống kê t cao nhất được xem xét trong
trường hợp đầu tiên và 10 tính năng hàng đầu được xem xét trong trường hợp thứ hai. Một
giá trị thống kê t cao chỉ ra rằng các tính năng rất có thể phân biệt
giữa các mẫu của công ty lừa đảo và không gian lận.
18 tính năng tài chính hàng đầu được lựa chọn bởi các thống kê t dựa
lựa chọn tính năng được thể hiện trong Bảng 2. Các tính năng tập hợp được hình thành với
18 tính năng hàng đầu được cho ăn như là đầu vào MLFF / SVM / GP / GMDH / LR / PNN cho
mục đích phân loại trong trường hợp đầu tiên. Tương tự như vậy, các tập con tính năng
hình thành với 10 tính năng hàng đầu được cho ăn như là đầu vào MLFF / SVM / GP /
GMDH / LR / PNN cho mục đích phân loại trong trường hợp thứ hai. Khối
sơ đồ cho tất cả những kết hợp này được thể hiện trong hình. 3. kiểm chứng chéo Mười lần
được sử dụng để đảm bảo tính hiệu lực tốt hơn về các thí nghiệm. Nó
nên được lưu ý rằng các thống kê t được sử dụng để lựa chọn tính năng
cho mỗi lần cách riêng biệt. Nó được quan sát thấy rằng cùng một tập hợp các tính năng đã
không bật ra được tốt nhất trong mỗi lần. Do đó, chúng tôi đi theo một tần số
phương pháp tiếp cận dựa trên, theo đó, các tần số xuất hiện của mỗi
tính năng trong vị trí hàng đầu là tính toán và các tính năng này sau đó được sắp xếp theo
thứ tự giảm dần của tần số lần xuất hiện. Theo cách này,
chúng tôi chọn top 10 và top 18 tính năng và báo cáo chúng trong
Bảng 2.
5. Kết quả và thảo luận
Các số liệu phân tích trong báo cáo này bao gồm 35 chỉ tiêu tài chính đối với
202 công ty, trong đó 101 là gian lận và 101 là nonfraudulent.
Kể từ khi các chỉ tiêu tài chính đã có một phạm vi rộng, đầu tiên chúng ta
thực hiện chuyển đổi logarit tự nhiên, và sau đó bình thường
trong giai đoạn tiền xử lý dữ liệu. Chúng tôi sử dụng các GP như
thực hiện trong công cụ Discipulus (có sẵn tại www.rmltech.com
và tải về trên Tháng Tám 20, 2008). Đối với MLFF, GMDH, và PNN,
chúng tôi sử dụng Neuroshell 2.0 [33] và cho SVM và LR chúng tôi sử dụng KNIME
2.0.0 [24].
Độ nhạy là thước đo tỷ lệ của số lượng các
công ty lừa đảo dự đoán một cách chính xác là gian lận của một cụ thể
mô hình với tổng số công ty lừa đảo thực tế. Các
đặc trưng chính là thước đo tỷ lệ của số nonfraudulent
công ty dự đoán là không gian lận bằng một mô hình với
tổng số công ty không gian lận thực tế. Trong mọi trường hợp, chúng tôi
đã trình bày trung bình độ chính xác, độ nhạy, độ đặc hiệu, và diện tích
dưới đường cong đặc trưng hoạt động tiếp nhận (AUC) cho các bài kiểm tra
dữ liệu, trung bình trên 10 lần. Chúng tôi xếp phân loại dựa trên AUC.
Đầu tiên, các kết quả của 10 lần phương pháp cross-validation cho độc
kỹ thuật tức. MLFF, SVM, GP, GMDH, LR, và PNN không có
lựa chọn tính năng được thể hiện trong Bảng 3. Từ bảng 3, chúng tôi quan sát
rằng PNN với 98,09% độ chính xác và 98,09% độ nhạy vượt trội so với
tất cả các phân loại khác (như được chỉ ra bởi chữ số mặt đậm trong Bảng 3).
GP mang lại kết quả tốt nhất kế tiếp với 94,14% độ chính xác và 95,09%
nhạy cảm. Chúng tôi cũng quan sát thấy rằng PNN là phân loại tốt nhất trong số tất cả
những người khác trong các điều khoản của AUC là tốt. Kết quả tốt nhất thu được bằng Bose và
Wang [5], người sử dụng phân tích biệt kinh điển (CDA),
phân loại và hồi quy cây (C & RT) và cắt tỉa NN đầy đủ
trên các số liệu tương tự cũng được thể hiện trong Bảng 3 để dễ
so sánh. Từ bảng 3, chúng tôi có thể quan sát các kết quả thu được
trong nghiên cứu này là luôn luôn vượt trội so với các kết quả thu được của họ cho tất cả các
trường hợp, trừ SVM và LR.
Là bước tiếp theo, chúng tôi sử dụng thống kê t để lựa chọn tính năng và
trích xuất các tính năng quan trọng nhất. Đầu tiên, chúng tôi coi là đỉnh
18 tính năng để xây dựng các tính năng giảm tập hợp con. Sau đó, điều này có
tính năng tập hợp được đưa vào tất cả các phân loại trên cho mục đích
phân loại. Các kết quả trung bình của tất cả các phân loại trên tất cả các nếp gấp
với 18 tính năng được trình bày trong bảng 4. Từ bảng 4, chúng tôi quan sát
thấy GP vượt trội so với các phân loại khác với 92,68% độ chính xác và
90,55% nhạy cảm, trong khi PNN đến gần phía sau với 95,64%
độ chính xác và 91,27% nhạy cảm (như được chỉ ra bởi chữ số mặt đậm
trong Bảng 4). Hơn nữa, kết quả dựa trên AUC cho thấy GP
mang lại độ chính xác cao nhất tiếp theo PNN, mà mang lại m
đang được dịch, vui lòng đợi..
