Một nguyên nhân chính của các lỗi là ở misalignments của dấu câu và các thẻ POS của họ. Ví dụ, trong PPCEME, 16,6% của dấu phẩy được dán nhãn là. thời gian (câu kết dấu chấm câu), và 12,3% được dán nhãn là, (dấu chấm câu, nội bộ); những dấu câu là ít mơ hồ trong PTB. Các corpora lịch sử thiếu thẻ đặc biệt cho dấu hai chấm và hình elip, trong đó có mặt trong PTB. Ngược lại với PTB, không có sự phân biệt giữa việc mở dấu ngoặc kép và đóng dấu ngoặc kép trong PPCEME
đang được dịch, vui lòng đợi..
