Phân tích cú pháp và vượt qua một tài liệu
Để phân tích một tài liệu HTML: Chuỗi html = " " + "
First parse
HTML phân tích cú pháp vào một doc.";
Document doc = Jsoup.parse (html);
(Xem phân tích một tài liệu từ một chuỗi cho biết thêm.) Các phân tích cú pháp sẽ thực hiện mọi nỗ lực để tạo ra một phân tích cú pháp sạch từ HTML mà bạn cung cấp, bất kể HTML đang nổi . hình thành hay không Nó xử lý: hở (ví dụ:
Lorem Ipsum phân tích để Lorem Ipsum)
tags ẩn (ví dụ như một bảng dữ liệu thường được gói gọn trong một)
đáng tin cậy tạo ra các cấu trúc văn bản (html có chứa một cái đầu và cơ thể, và chỉ có các yếu tố thích hợp trong đầu)
Các mô hình đối tượng của một tài liệu
Tài liệu bao gồm các yếu tố và TextNodes (và một vài nút misc khác: thấy cây hạch gói) .
Các chuỗi thừa kế là: Tài liệu mở rộng phần tử mở rộng Node. TextNode kéo dài Node.
Một phần tử có chứa một danh sách các trẻ em nút, và có một phụ huynh Element. Họ cũng có cung cấp một danh sách lọc của chỉ Elements con.
Xem cũng
Tách dữ liệu: chuyển hướng DOM
Trích xuất dữ liệu: Cú pháp Selector
đang được dịch, vui lòng đợi..