3 mô hình gia tăng của Search Trees Để ước tính số lượng các nút đó IDA * sẽ mở rộng khi tìm đến một ngưỡng chi phí nhất định, một lý tưởng sẽ biết sự phân bố của tất cả các giá trị f trong không gian tìm kiếm. Giả sử một heuristic1 phù hợp, tất cả các nút có giá trị f trong ngưỡng chi phí sẽ được mở rộng, do đó, bằng cách sử dụng phân phối f một chỉ có thể tìm thấy những ràng buộc mà số lượng các nút với các giá trị f nhỏ hơn phù hợp với số lượng mong muốn. Mới gia tăng ước tính của chúng tôi mô hình phân phối này. Chúng tôi sẽ ước tính sự phân bố của các giá trị f theo hai bước. Trong bước đầu tiên, chúng tôi tìm hiểu một mô hình như thế nào các giá trị f đang thay đổi từ các nút cho con cái của họ. Trong bước thứ hai, chúng ta ngoại suy từ các mô hình của sự thay đổi trong giá trị f để ước tính sự phân bố chung của tất cả các giá trị f. Điều này có nghĩa là mô hình gia tăng của chúng ta thao túng hai phân phối chính: chúng ta gọi là người đầu tiên phân phối Δf và điều thứ hai phân phối f. Trong phần tiếp theo, chúng tôi mô tả sự phân bố Δf và cung cấp cho hai kỹ thuật cho việc học nó: một off-line và một on-line. Sau đó, trong phần 3.2, chúng tôi mô tả cách thức phân phối Δf có thể được sử dụng để ước tính sự phân bố của các giá trị f trong không gian tìm kiếm. 3.1 Phân phối Δf Mục đích của việc học phân phối Δf là để dự đoán cách các giá trị f trong tìm kiếm sự thay đổi không gian giữa các nút và con cái của họ. Lợi thế của việc lưu trữ các giá trị thặng dư Δf thay vì lưu trữ các giá trị f mình là nó cho phép mô hình của chúng tôi để ngoại suy đến các phần của không gian tìm kiếm mà nó không có dữ liệu huấn luyện, một điều cần thiết khi sử dụng các mô hình on-line hoặc với vài mẫu huấn luyện. Chúng tôi sẽ sử dụng thông tin từ phân phối Δf để xây dựng một ước tính của sự phân bố của các giá trị f qua các nút tìm kiếm. Các kỹ thuật CDP của Zahavi et al. [23] học được phân phối có điều kiện của các giá trị và nút loại phỏng đoán của một nút con c, điều hòa trên các loại nút và ước tính phỏng đoán của nút cha p, ký hiệu P (h (c), t (c) | h (p ), t (p)). Như mô tả của Zahavi et al., Điều này đòi hỏi chỉ mục vào một mảng đa chiều theo h (p) và do đó ước tính phỏng đoán phải là một giá trị số nguyên. Mô hình gia tăng của chúng tôi cũng học được phân bố điều kiện, tuy nhiên để xử lý ước tính phỏng đoán giá trị thực, nó sử dụng các số nguyên có giá trị tìm kiếm space- bước để đi dự d của một node thay vì nó chi phí-to-go ràng buộc thấp hơn, h. Trong lĩnh vực đơn vị chi phí, d sẽ thường xuyên được giống như h, tuy nhiên trong lĩnh vực có gian thực có giá trị chi phí cạnh họ sẽ khác nhau. d là thường dễ dàng để tính toán trong khi tính toán h [19] (ví dụ, nó thường là đủ để sử dụng các thủ tục tương tự như đối với heuristic nhưng với một chi phí của 1 cho mỗi hành động). Sự phân bố đó là học bằng mô hình gia tăng là P (Δf (c), t (c), Δd (c) | d (p), t (p)), có nghĩa là, sự phân bố 1 Một heuristic là phù hợp khi sự thay đổi trong giá trị h giữa một nút và người kế nhiệm của nó là không lớn hơn chi phí của các cạnh giữa các nút. Nếu heuristic là không phù hợp sau đó một thủ tục gọi là pathmax [13] có thể được sử dụng để làm cho nó phù hợp tại địa phương dọc theo mỗi con đường đi qua của các tìm kiếm.
đang được dịch, vui lòng đợi..
