Vì vậy, bây giờ chúng tôi có một danh sách các câu mà chúng ta có thể sử dụng để chế biến tiếp sent_tokenize sử dụng một thể hiện của PunktSentenceTokenizer từ NLTK. Module tokenize.punkt. Trường hợp này đã được tập huấn về và hoạt động tốt cho nhiều ngôn ngữ châu Âu. Vì vậy, nó biết những gì dấu chấm câu và ký tự đánh dấu sự kết thúc của một câu và bắt đầu một câu mới.
đang được dịch, vui lòng đợi..
