Việc thiếu cải thiện ngụ ý rằng một trong hai bộ tính năng là vẫn còn nghèo khó, hoặc các đào tạo dữ liệu là không phù hợp. Một sự thống nhất đơn giản thử nghiệm là để đồ thị bài tập thẻ POS cho một từ nhất định như là một chức năng của bài viết trong đó nó xảy ra. Được gắn thẻ một cách nhất quán từ nên có khoảng cùng một từ khóa phân phối các bài viết số điện thoại khác nhau. Hình 1 đại diện cho mỗi thẻ POS với một số nguyên duy nhất và đồ thị POS các chú thích của về trong việc đào tạo thiết lập như là một chức năng của các bài viết (các điểm "rải rác" cho mật độ). Như đã thấy trong hình 1, về thường chú thích với từ khóa #l, mà là bắt trong (giới từ), hoặc từ khóa #9, biểu thị RB (Phồn thể), và ob- các xác suất phục vụ của một trong hai sự lựa chọn phụ thuộc nặng nề Ngày bài viết hiện tại-~. Sau khi tiếp tục kiểm tra 5, phân phối gắn thẻ cho về những thay đổi chính xác khi annotator thay đổi. Hình 2, sử dụng số nguyên để biểu thị thẻ POS, một lần nữa cho thấy việc phân phối thẻ của về như là một chức năng của annotator, và ngụ ý rằng các lỗi gắn thẻ cho từ này là do chủ yếu là dữ liệu không phù hợp. Các từ trước, sếp à, xuống, giám đốc điều hành, ra, ra, lên và yên cũng thể hiện tương tự như thiên vị.
đang được dịch, vui lòng đợi..
