selection techniques. The features are ranked according to the formula dịch - selection techniques. The features are ranked according to the formula Việt làm thế nào để nói

selection techniques. The features

selection techniques. The features are ranked according to the formula
shown below [16,29]. In fact, Liu et al. [29] were the first to propose
t-statistic for the purpose of feature selection in the field of
bioinformatics.
t−statistic =
jμ1−μ2 j
ffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffi
σ2
1
n1
+ σ2
2
n2
r ð4Þ
where μ1 and μ2 represent the means of the samples of fraudulent
companies and non-fraudulent companies for a given feature
respectively, σ1 and σ2 represent the standard deviation of the
samples of fraudulent companies and non-fraudulent companies for a
given feature respectively. n1 and n2 represent the number of samples
of fraudulent companies and non-fraudulent companies for a given
feature. The t-statistic values are computed for each feature and the
top 18 features with the highest t-statistic values are considered in the
first case and the top 10 features are considered in the second case. A
high t-statistic value indicates that the feature can highly discriminate
between the samples of fraudulent and non-fraudulent companies.
The top 18 financial features that are selected by the t-statistic based
feature selection are shown in Table 2. The feature subset formed with
the top 18 features is fed as input to MLFF/SVM/GP/GMDH/LR/PNN for
classification purpose in the first case. Similarly, the feature subset
formed with the top 10 features is fed as input to MLFF/SVM/GP/
GMDH/LR/PNN for classification purpose in the second case. The block
diagram for all these combinations is shown in Fig. 3. Ten-fold crossvalidation
is used to ensure better validity of the experiments. It
should be noted that the t-statistic is employed for feature selection
for each fold separately. It is observed that the same set of features did
not turn out to be best in each fold. Hence, we followed a frequency
based approach, whereby, the frequency of occurrence of each of the
features in top slots is computed and the features are then sorted in
the descending order of the frequency of occurrences. In this manner,
we selected the top 10 and top 18 features and reported them in
Table 2.
5. Results and discussion
The dataset analyzed in this paper comprised 35 financial items for
202 companies, of which 101 were fraudulent and 101 were nonfraudulent.
Since the financial items had a wide range, we first
performed natural logarithmic transformation, and then normalization
during the data preprocessing phase. We employed the GP as
implemented in the tool Discipulus (available at www.rmltech.com
and downloaded on 20th August, 2008). For MLFF, GMDH, and PNN,
we employed Neuroshell 2.0 [33] and for SVM and LR we used KNIME
2.0.0 [24].
The sensitivity is the measure of the proportion of the number of
fraudulent companies predicted correctly as fraudulent by a particular
model to the total number of actual fraudulent companies. The
specificity is the measure of the proportion of the number of nonfraudulent
companies predicted as non-fraudulent by a model to the
total number of actual non-fraudulent companies. In all cases, we
presented the average accuracies, sensitivities, specificities, and area
under the Receiver Operating Characteristic curve (AUC) for the test
data, averaged over 10-folds. We ranked the classifiers based on AUC.
First, the results of the 10-fold cross-validation method for the standalone
techniques viz. MLFF, SVM, GP, GMDH, LR, and PNN without
feature selection are presented in Table 3. From Table 3 we observe
that PNN with 98.09% accuracy and 98.09% sensitivity outperformed
all other classifiers (as indicated by bold faced numerals in the Table 3).
GP yielded the next best result with 94.14% accuracy and 95.09%
sensitivity. We also observe that PNN is the best classifier among all
others in terms of AUC as well. The best results obtained by Bose and
Wang [5], who employed canonical discriminant analysis (CDA),
classification and regression tree (C&RT) and exhaustive pruning NN
on the same dataset are also presented in Table 3 for ease of
comparison. From Table 3 we can observe that the results obtained
in this study are always superior to the results obtained by them for all
cases, except SVM and LR.
As the next step, we used t-statistic for feature selection and
extracted the most important features. First, we considered the top
18 features for constructing the reduced feature subset. Later, this
feature subset is fed to all the above classifiers for the purpose of
classification. The average results of all the classifiers over all folds
with 18 features are presented in Table 4. From Table 4 we observe
that GP outperformed other classifiers with 92.68% accuracy and
90.55% sensitivity, whereas PNN came close behind with 95.64%
accuracy and 91.27% sensitivity (as indicated by bold faced numerals
in Table 4). Furthermore, results based on AUC indicated that GP
yielded highest accuracy followed by PNN, which yielded m
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
các kỹ thuật lựa chọn. Các tính năng được xếp hạng theo công thứcHiển thị dưới đây [16,29]. Trong thực tế, Liu et al. [29] là người đầu tiên đề xuấtt-thống kê cho các mục đích lựa chọn tính năng trong lĩnh vựctin sinh học.t−Statistic =jμ1−μ2 jffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiΣ21N1+ Σ22N2r ð4Þnơi μ1 và μ2 đại diện cho các phương tiện của các mẫu của gian lậncông ty và các công ty không gian lận cho một tính năng nhất địnhtương ứng, σ1 và σ2 đại diện cho độ lệch chuẩn của cácmẫu công ty lừa đảo, các công ty không gian lận cho mộtcung cấp tính năng tương ứng. N1 và n2 là số mẫu đại diện.công ty lừa đảo, các công ty không gian lận cho một nhất địnhtính năng. Các giá trị thống kê t được tính cho mỗi tính năng và cácTop 18 các tính năng với các giá trị thống kê t cao nhất được xem xét trong cáctrường hợp đầu tiên và top 10 tính năng được coi là trong trường hợp thứ hai. Agiá trị t cao, thống kê chỉ ra rằng các tính năng có thể đánh giá cao phân biệt đối xửgiữa các mẫu công ty lừa đảo và không gian lận.Dựa trên các tính năng hàng đầu 18 tài chính được lựa chọn bởi t-thống kêlựa chọn tính năng được hiển thị trong bảng 2. Tập hợp tính năng hình thành vớiCác tính năng trên 18 được ăn như là đầu vào MLFF/SVM/GP/GMDH/LR/PNN chophân loại các mục đích trong trường hợp đầu tiên. Tương tự, tập hợp tính năngđược thành lập với top 10 tính năng được ăn như là đầu vào cho SVM-MLFF-GP /GMDH/LR/PNN cho mục đích phân loại trong trường hợp thứ hai. KhốiSơ đồ cho tất cả các kết hợp được hiển thị trong hình 3. Ten-Fold crossvalidationđược dùng để đảm bảo tốt hơn tính hợp lệ của các thí nghiệm. Nócần lưu ý rằng số liệu thống kê t được sử dụng cho lựa chọn tính năngĐối với mỗi lần một cách riêng biệt. Nó được quan sát thấy rằng cùng một tập hợp các tính năng đã làmkhông phải lần lượt ra tốt nhất trong mỗi lần. Do đó, chúng tôi theo sau một tần sốDựa trên phương pháp tiếp cận, theo đó, tần suất xuất hiện của mỗi người trong số cácCác tính năng trong các khe cắm hàng đầu là tính toán và các tính năng sau đó được sắp xếp theoThứ tự giảm dần của tần số của lần xuất hiện. Theo cách này,chúng tôi được lựa chọn vào top 10 và top 18 các tính năng và báo cáo chúng trongBảng 2.5. kết quả và thảo luậnSố liệu phân tích trong bài báo này bao gồm 35 mục tài chính cho các202 công ty, trong đó 101 là gian lận và 101 nonfraudulent.Kể từ khi các khoản mục tài chính có một phạm vi rộng, chúng tôi đầu tiênthực hiện chuyển đổi hàm lôgarit tự nhiên, và sau đó là bình thườngtrong các dữ liệu giai đoạn tiền xử lý. Chúng tôi làm việc bác sĩ gia ĐÌNH nhưthực hiện trong công cụ Discipulus (có sẵn tại www.rmltech.comvà tải về vào ngày 20 tháng 8, 2008). MLFF, GMDH và PNN,chúng tôi sử dụng Neuroshell 2.0 [33] và SVM và LR, chúng tôi sử dụng KNIME2.0.0 [24].Độ nhạy là thước đo tỷ lệ số lượngtiên đoán một cách chính xác như là gian lận của một đặc biệt là các công ty lừa đảoMô hình tổng số thực tế các công ty lừa đảo. Cácđộ đặc hiệu là thước đo tỷ lệ số lượng nonfraudulentcông ty dự đoán như không gian lận bằng một mô hình để cácTổng số thực tế các công ty không lừa đảo. Trong mọi trường hợp, chúng tôitrình bày trung bình phàm, nhạy cảm, specificities và khu vựcdưới đường cong đặc trưng nhận điều hành (AUC) cho các bài kiểm tradữ liệu, Trung bình trong nếp gấp 10. Chúng tôi xếp hạng máy phân loại dựa trên AUC.Đầu tiên, các kết quả của các phương pháp xác nhận qua 10-fold cho sự độc lậpkỹ thuật viz. MLFF, SVM, GP, GMDH, LR và PNN khônglựa chọn tính năng được trình bày trong bảng 3. Từ bảng 3 chúng ta quan sátPNN có độ chính xác 98.09% và 98.09% nhạy tốt hơnTất cả các máy phân loại (như được chỉ ra bởi đậm phải đối mặt với chữ số ở bảng 3).Bác sĩ gia ĐÌNH mang lại kết quả tốt nhất tiếp theo với độ chính xác 94.14% và 95.09%độ nhạy cảm. Chúng tôi cũng quan sát rằng PNN là loại tốt nhất trong số tất cảnhững người khác trong điều khoản của AUC là tốt. Kết quả tốt nhất thu được bằng Bose vàWang [5], những người làm việc canonical biệt thức phân tích (CDA),phân loại và regression tree (C & RT) và đầy đủ cắt tỉa NNtrên cùng một bộ dữ liệu cũng được trình bày ở bảng 3 cho dễ dàngso sánh. Từ bảng 3 chúng ta có thể quan sát các kết quả thu đượctrong nghiên cứu này là luôn luôn vượt trội so với kết quả thu được của họ cho tất cảtrường hợp này, ngoại trừ SVM và LR.Bước tiếp theo, chúng tôi sử dụng số liệu thống kê t cho tính năng lựa chọn vàchiết xuất các tính năng quan trọng nhất. Trước tiên, chúng tôi coi là đầu trang18 các tính năng để xây dựng các tập hợp tính năng giảm. Sau đó, điều nàytập hợp tính năng là ăn cho tất cả các máy phân loại trên vì châm củaphân loại. Các kết quả trung bình của tất cả các máy phân loại trên tất cả các nếp gấpvới 18 các tính năng được trình bày trong bảng 4. Từ bảng 4 chúng ta quan sátbác sĩ gia ĐÌNH tốt hơn máy phân loại khác với 92.68% độ chính xác vànhạy cảm với 90.55%, trong khi PNN đến gần phía sau với 95.64%độ chính xác và 91.27% nhạy cảm (như được chỉ ra bởi đậm phải đối mặt với chữở bảng 4). Hơn nữa, kết quả dựa trên AUC chỉ ra rằng bác sĩ gia ĐÌNHmang lại độ chính xác cao nhất theo PNN, mang m
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
lựa chọn kỹ thuật. Các tính năng được xếp hạng theo công thức
dưới đây [16,29]. Trong thực tế, Liu et al. [29] là những người đầu tiên đề xuất
thống kê t cho các mục đích lựa chọn tính năng trong lĩnh vực
sinh học.
thống kê t =
jμ1-μ2 j
ffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffi
σ2
1
n1
+ σ2
2
n2
r ð4Þ
nơi μ1 và μ2 đại diện cho các phương tiện của các mẫu của lừa đảo
các công ty và các công ty không gian lận cho một tính năng nhất định
tương ứng, σ1 và σ2 đại diện cho độ lệch chuẩn của các
mẫu của công ty lừa đảo và các công ty không gian lận cho một
tính năng nhất định tương ứng. n1 và n2 đại diện cho số của mẫu
của công ty lừa đảo và các công ty không gian lận cho một định
tính năng. Các giá trị thống kê t được tính toán cho từng tính năng và
18 tính năng hàng đầu với các giá trị thống kê t cao nhất được xem xét trong
trường hợp đầu tiên và 10 tính năng hàng đầu được xem xét trong trường hợp thứ hai. Một
giá trị thống kê t cao chỉ ra rằng các tính năng rất có thể phân biệt
giữa các mẫu của công ty lừa đảo và không gian lận.
18 tính năng tài chính hàng đầu được lựa chọn bởi các thống kê t dựa
lựa chọn tính năng được thể hiện trong Bảng 2. Các tính năng tập hợp được hình thành với
18 tính năng hàng đầu được cho ăn như là đầu vào MLFF / SVM / GP / GMDH / LR / PNN cho
mục đích phân loại trong trường hợp đầu tiên. Tương tự như vậy, các tập con tính năng
hình thành với 10 tính năng hàng đầu được cho ăn như là đầu vào MLFF / SVM / GP /
GMDH / LR / PNN cho mục đích phân loại trong trường hợp thứ hai. Khối
sơ đồ cho tất cả những kết hợp này được thể hiện trong hình. 3. kiểm chứng chéo Mười lần
được sử dụng để đảm bảo tính hiệu lực tốt hơn về các thí nghiệm. Nó
nên được lưu ý rằng các thống kê t được sử dụng để lựa chọn tính năng
cho mỗi lần cách riêng biệt. Nó được quan sát thấy rằng cùng một tập hợp các tính năng đã
không bật ra được tốt nhất trong mỗi lần. Do đó, chúng tôi đi theo một tần số
phương pháp tiếp cận dựa trên, theo đó, các tần số xuất hiện của mỗi
tính năng trong vị trí hàng đầu là tính toán và các tính năng này sau đó được sắp xếp theo
thứ tự giảm dần của tần số lần xuất hiện. Theo cách này,
chúng tôi chọn top 10 và top 18 tính năng và báo cáo chúng trong
Bảng 2.
5. Kết quả và thảo luận
Các số liệu phân tích trong báo cáo này bao gồm 35 chỉ tiêu tài chính đối với
202 công ty, trong đó 101 là gian lận và 101 là nonfraudulent.
Kể từ khi các chỉ tiêu tài chính đã có một phạm vi rộng, đầu tiên chúng ta
thực hiện chuyển đổi logarit tự nhiên, và sau đó bình thường
trong giai đoạn tiền xử lý dữ liệu. Chúng tôi sử dụng các GP như
thực hiện trong công cụ Discipulus (có sẵn tại www.rmltech.com
và tải về trên Tháng Tám 20, 2008). Đối với MLFF, GMDH, và PNN,
chúng tôi sử dụng Neuroshell 2.0 [33] và cho SVM và LR chúng tôi sử dụng KNIME
2.0.0 [24].
Độ nhạy là thước đo tỷ lệ của số lượng các
công ty lừa đảo dự đoán một cách chính xác là gian lận của một cụ thể
mô hình với tổng số công ty lừa đảo thực tế. Các
đặc trưng chính là thước đo tỷ lệ của số nonfraudulent
công ty dự đoán là không gian lận bằng một mô hình với
tổng số công ty không gian lận thực tế. Trong mọi trường hợp, chúng tôi
đã trình bày trung bình độ chính xác, độ nhạy, độ đặc hiệu, và diện tích
dưới đường cong đặc trưng hoạt động tiếp nhận (AUC) cho các bài kiểm tra
dữ liệu, trung bình trên 10 lần. Chúng tôi xếp phân loại dựa trên AUC.
Đầu tiên, các kết quả của 10 lần phương pháp cross-validation cho độc
kỹ thuật tức. MLFF, SVM, GP, GMDH, LR, và PNN không có
lựa chọn tính năng được thể hiện trong Bảng 3. Từ bảng 3, chúng tôi quan sát
rằng PNN với 98,09% độ chính xác và 98,09% độ nhạy vượt trội so với
tất cả các phân loại khác (như được chỉ ra bởi chữ số mặt đậm trong Bảng 3).
GP mang lại kết quả tốt nhất kế tiếp với 94,14% độ chính xác và 95,09%
nhạy cảm. Chúng tôi cũng quan sát thấy rằng PNN là phân loại tốt nhất trong số tất cả
những người khác trong các điều khoản của AUC là tốt. Kết quả tốt nhất thu được bằng Bose và
Wang [5], người sử dụng phân tích biệt kinh điển (CDA),
phân loại và hồi quy cây (C & RT) và cắt tỉa NN đầy đủ
trên các số liệu tương tự cũng được thể hiện trong Bảng 3 để dễ
so sánh. Từ bảng 3, chúng tôi có thể quan sát các kết quả thu được
trong nghiên cứu này là luôn luôn vượt trội so với các kết quả thu được của họ cho tất cả các
trường hợp, trừ SVM và LR.
Là bước tiếp theo, chúng tôi sử dụng thống kê t để lựa chọn tính năng và
trích xuất các tính năng quan trọng nhất. Đầu tiên, chúng tôi coi là đỉnh
18 tính năng để xây dựng các tính năng giảm tập hợp con. Sau đó, điều này có
tính năng tập hợp được đưa vào tất cả các phân loại trên cho mục đích
phân loại. Các kết quả trung bình của tất cả các phân loại trên tất cả các nếp gấp
với 18 tính năng được trình bày trong bảng 4. Từ bảng 4, chúng tôi quan sát
thấy GP vượt trội so với các phân loại khác với 92,68% độ chính xác và
90,55% nhạy cảm, trong khi PNN đến gần phía sau với 95,64%
độ chính xác và 91,27% nhạy cảm (như được chỉ ra bởi chữ số mặt đậm
trong Bảng 4). Hơn nữa, kết quả dựa trên AUC cho thấy GP
mang lại độ chính xác cao nhất tiếp theo PNN, mà mang lại m
đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2025 I Love Translation. All reserved.

E-mail: