Abstract. Machine rule induction was examined on a difficult categorization problem by applying a Holland-
style classifier system to a complex letter recognition task. A set of 20,000 unique letter images was generated
by randomly distorting pixel images of the 26 uppercase letters from 20 different commercial fonts. The parent
fonts represented a full range of character types including script, italic, serif, and Gothic. The features of each
of the 20,000 characters were summarized in terms of 16 primitive numerical attributes. Our research focused
on machine induction techniques for generating IF-THEN classifiers in which the IF part was a list of values
for each of the 16 attributes and the THEN part was the correct category, i.e., one of the 26 letters of the alphabet.
We examined the effects of different procedures for encoding attributes, deriving new rules, and apportioning
credit among the rules. Binary and Gray-code attribute encodings that required exact matches for rule activation
were compared with integer representations that employed fuzzy matching for rule activation. Random and genetic
methods for rule creation were compared with instance-based generalization. The strength/specificity method
for credit apportionment was compared with a procedure we call "accuracy/utility.
Trừu tượng. Quy tắc máy cảm ứng đã được kiểm tra về một vấn đề phân loại khó khăn bằng cách áp dụng một Holland
hệ thống phân loại phong cách cho một nhiệm vụ nhận thư phức tạp. Một tập hợp các hình ảnh 20.000 lá thư độc đáo được tạo ra
bằng cách bóp méo hình ảnh ngẫu nhiên điểm ảnh của 26 chữ cái viết hoa từ 20 font thương mại khác nhau. Phụ huynh
phông chữ đại diện cho một loạt đầy đủ các loại nhân vật bao gồm kịch bản, in nghiêng, serif, và Gothic. Các tính năng của mỗi
20.000 ký tự đã được tổng kết trong các điều khoản của 16 thuộc tính số nguyên thủy. Nghiên cứu của chúng tôi tập trung
vào các kỹ thuật máy cảm ứng để tạo ra IF-THEN phân loại trong đó phần NẾU là một danh sách các giá trị
cho mỗi trong số 16 thuộc tính và các phần THEN là chính xác loại, tức là, một trong 26 chữ cái trong bảng chữ cái.
Chúng tôi kiểm tra tác động của thủ tục khác nhau để mã hóa các thuộc tính, xuất phát quy định mới, và bố trí
tín dụng giữa các quy tắc. Binary và Gray-mã thuộc tính mã hóa mà cần kết hợp chính xác để kích hoạt quy tắc
được so sánh với đại diện nguyên mà sử dụng kết hợp mờ để kích hoạt quy tắc. Ngẫu nhiên và di truyền
phương pháp để tạo ra quy tắc được so sánh với khái quát dụ dựa trên. Các phương pháp sức mạnh / đặc hiệu
cho phân bổ tín dụng được so sánh với một thủ tục gọi là "chính xác / tiện ích.
đang được dịch, vui lòng đợi..
