Để tăng tốc độ giai đoạn thử nghiệm của chúng tôi, chúng tôi không nên cố gắng để đánh giá chúng tôiphân loại các ý tưởng về một tập tin 12 GB. Thay vào đó, chúng ta nên nghĩ về làm thế nào chúng tôi có thể cắt nóxuống do đó chúng tôi vẫn có thể giữ một bản chụp USD của nó trong khi có thểmột cách nhanh chóng kiểm tra kiến thức của chúng tôi. Nếu chúng tôi lọc một XML cho thẻ hàng có một CreationDate của2011 hoặc mới hơn, chúng tôi vẫn kết thúc với hơn 6 triệu bài viết (2,323,184 câu hỏi và4,055,999 trả lời), mà nên là đủ dữ liệu đào tạo cho bây giờ. Chúng tôi cũng khônghoạt động trên các định dạng XML như nó sẽ chúng ta chậm lại. Các đơn giản hơn các định dạng, cácnó là tốt hơn. Đó là lý do tại sao chúng tôi phân tích cú pháp XML còn lại bằng cách sử dụng của Python cElementTreevà viết nó ra vào một tập tin tab phân tách.
đang được dịch, vui lòng đợi..
