Các dữ liệu được làm sẵn cả hai như HTML liệu, theo văn bản chỉ tập tin. Các bộ sưu tập thứ hai bao gồm tất cả các file HTML và RSS từ đó tất cả các thẻ bị tước đoạt. HTML đi kèm trong các mã hóa ban đầu, trong khi văn bản đã được chuyển đổi sang UTF-8, mặc dù với nhân vật không hợp lệ không thường xuyên.
đang được dịch, vui lòng đợi..