3 Incremental Models of Search Tree

3 Incremental Models of Search Trees

To estimate the number of nodes that IDA* will expand when searching to a given cost threshold, one would ideally know the distribution of all of the f values in the search space. Assuming a consistent heuristic1 , all nodes with f values within the cost threshold will be expanded, so by using the f distribution one could simply find the bound for which the number of nodes with smaller f values matches the desired count. Our new incremental model estimates this distribution.
We will estimate the distribution of f values in two steps. In the first step, we learn a model of how the f values are changing from nodes to their offspring. In the second step, we extrapolate from the model of change in f values to estimate the overall distribution of all f values. This means that our incremental model manipulates two main distributions: we call the first one the ∆f distribution and the second one the f distribution. In the next section, we describe the ∆f distribution and give two techniques for learning it: one off-line and one on- line. Then, in Section 3.2, we describe how the ∆f distribution can be used to estimate the distribution of f values in the search space.

3.1 The ∆f Distribution

The goal of learning the ∆f distribution is to predict how the f values in the search space change between nodes and their offspring. The advantage of storing these ∆f increment values instead of storing the f values themselves is that it enables our model to extrapolate to portions of the search space for which it has no training data, a necessity when using the model on-line or with few training samples. We will use the information from the ∆f distribution to build an estimate of the distribution of f values over the search nodes.
The CDP technique of Zahavi et al. [23] learns a conditional distribution of the heuristic value and node type of a child node c, conditioned on the node type and heuristic estimate of the parent node p, notated P (h(c), t(c)|h(p), t(p)). As described by Zahavi et al., this requires indexing into a multi-dimensional array according to h(p) and so the heuristic estimate must be an integer value. Our incremental model also learns a conditional distribution, however in order to handle real-valued heuristic estimates, it uses the integer valued search-space- steps-to-go estimate d of a node instead of its cost-to-go lower bound, h. In unit-cost domains, d will often be the same as h, however in domains with real- valued edge costs they will differ. d is typically easy to compute while computing h [19] (for example, it is often sufficient to use the same procedure as for the heuristic but with a cost of 1 for each action). The distribution that is learned by the incremental model is P (∆f (c), t(c), ∆d(c)|d(p), t(p)), that is, the distribution

1 A heuristic is consistent when the change in the h value between a node and its successor is no greater than the cost of the edge between the nodes. If the heuristic is not consistent then a procedure called pathmax [13] can be used to make it consistent locally along each path traversed by the search.

3 Incremental Models of Search Trees

To estimate the number of nodes that IDA* will expand when searching to a given cost threshold, one would ideally know the distribution of all of the f values in the search space. Assuming a consistent heuristic1 , all nodes with f values within the cost threshold will be expanded, so by using the f distribution one could simply find the bound for which the number of nodes with smaller f values matches the desired count. Our new incremental model estimates this distribution.
We will estimate the distribution of f values in two steps. In the first step, we learn a model of how the f values are changing from nodes to their offspring. In the second step, we extrapolate from the model of change in f values to estimate the overall distribution of all f values. This means that our incremental model manipulates two main distributions: we call the first one the ∆f distribution and the second one the f distribution. In the next section, we describe the ∆f distribution and give two techniques for learning it: one off-line and one on- line. Then, in Section 3.2, we describe how the ∆f distribution can be used to estimate the distribution of f values in the search space.

3.1 The ∆f Distribution

The goal of learning the ∆f distribution is to predict how the f values in the search space change between nodes and their offspring. The advantage of storing these ∆f increment values instead of storing the f values themselves is that it enables our model to extrapolate to portions of the search space for which it has no training data, a necessity when using the model on-line or with few training samples. We will use the information from the ∆f distribution to build an estimate of the distribution of f values over the search nodes.
The CDP technique of Zahavi et al. [23] learns a conditional distribution of the heuristic value and node type of a child node c, conditioned on the node type and heuristic estimate of the parent node p, notated P (h(c), t(c)|h(p), t(p)). As described by Zahavi et al., this requires indexing into a multi-dimensional array according to h(p) and so the heuristic estimate must be an integer value. Our incremental model also learns a conditional distribution, however in order to handle real-valued heuristic estimates, it uses the integer valued search-space- steps-to-go estimate d of a node instead of its cost-to-go lower bound, h. In unit-cost domains, d will often be the same as h, however in domains with real- valued edge costs they will differ. d is typically easy to compute while computing h [19] (for example, it is often sufficient to use the same procedure as for the heuristic but with a cost of 1 for each action). The distribution that is learned by the incremental model is P (∆f (c), t(c), ∆d(c)|d(p), t(p)), that is, the distribution

1 A heuristic is consistent when the change in the h value between a node and its successor is no greater than the cost of the edge between the nodes. If the heuristic is not consistent then a procedure called pathmax [13] can be used to make it consistent locally along each path traversed by the search.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

3 mô hình gia tăng của cây tìm kiếmĐể ước tính số lượng các nút IDA * sẽ mở rộng khi tìm kiếm để một ngưỡng nhất định chi phí, một vị trí lý tưởng sẽ biết phân phối của tất cả các giá trị f trong không gian tìm kiếm. Giả sử một heuristic1 phù hợp, tất cả các nút với f giá trị trong ngưỡng chi phí sẽ được mở rộng, do đó, bằng cách sử dụng f phân phối một chỉ đơn giản là có thể tìm thấy ràng buộc mà số lượng các nút với nhỏ hơn f giá trị phù hợp với mục tiêu mong muốn. Mô hình gia tăng mới của chúng tôi ước tính phân phối này.Chúng tôi sẽ ước tính sự phân bố của f giá trị trong hai bước. Trong bước đầu tiên, chúng tôi tìm hiểu một mô hình làm thế nào các giá trị f được thay đổi từ nút để con cái của họ. Trong bước thứ hai, chúng tôi ngoại suy từ các mô hình của sự thay đổi trong f giá trị để phân phối tổng thể của tất cả f giá trị ước tính. Điều này có nghĩa rằng chúng tôi mô hình gia tăng sử dụng hai phân phối chính: chúng tôi gọi người đầu tiên phân phối ∆f và thứ hai một f phân phối. Trong phần tiếp theo, chúng tôi mô tả việc phân phối ∆f và cung cấp cho hai kỹ thuật cho việc học tập nó: một off-line và một trên dòng. Sau đó, trong phần 3.2, chúng tôi mô tả cách phân phối ∆f có thể được sử dụng để ước tính sự phân bố của f giá trị trong không gian tìm kiếm.3.1 phân phối ∆fMục đích của việc học phân phối ∆f là để dự đoán như thế nào các giá trị f trong không gian tìm kiếm thay đổi giữa các nút và con cái của họ. Lợi thế của lưu trữ các giá trị tăng ∆f thay vì lưu trữ các giá trị f mình là nó cho phép chúng tôi mô hình ngoại suy phần của không gian tìm kiếm mà nó đã không có dữ liệu đào tạo, một điều cần thiết khi sử dụng các mô hình trên mạng hoặc với vài đào tạo mẫu. Chúng tôi sẽ sử dụng thông tin từ phân phối ∆f để xây dựng một ước tính của sự phân bố của f giá trị trong các nút tìm.Kỹ thuật CDP của Zahavi et al. [23] học một phân bố có điều kiện của loại giá trị và nút heuristic của một đứa trẻ nút c, lạnh trên nút loại và heuristic xấp xỉ của phụ huynh nút p, notated P (h(c), t(c)|h(p), t(p)). Như được mô tả bởi Zahavi et al., điều này đòi hỏi chỉ mục vào một mảng đa chiều theo h(p) và vì vậy xấp xỉ heuristic phải là một giá trị số nguyên. Mô hình gia tăng của chúng tôi cũng biết một phân bố có điều kiện, Tuy nhiên để xử lý các giá trị thực heuristic ước tính, nó sử dụng d tìm-không gian-bước-to-go ước tính số nguyên có giá trị của một nút thay vì ràng buộc thấp hơn chi phí để đi, h. Trong lĩnh vực đơn vị chi phí, d thường sẽ giống như h, Tuy nhiên trong các lĩnh vực với chi phí thực tế - cạnh có giá trị chúng sẽ khác nhau. d là thường dễ dàng để tính toán trong khi tính toán h [19] (ví dụ, nó thường là đủ để sử dụng thủ tục tương tự đối với heuristic nhưng với chi phí 1 cho mỗi hành động). Phân phối học được bởi mô hình gia tăng là P (∆f (c), t(c), ∆d(c)|d(p), t(p)), có nghĩa là, bản phân phối 1 một heuristic là phù hợp khi sự thay đổi trong giá trị h giữa một nút và người kế nhiệm của nó là không lớn hơn chi phí của các cạnh giữa các nút. Nếu heuristic không phải là phù hợp sau đó một thủ tục được gọi là pathmax [13] có thể được sử dụng để làm cho nó phù hợp tại địa phương dọc theo mỗi con đường ngang bởi tìm kiếm.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

3 mô hình gia tăng của Search Trees Để ước tính số lượng các nút đó IDA * sẽ mở rộng khi tìm đến một ngưỡng chi phí nhất định, một lý tưởng sẽ biết sự phân bố của tất cả các giá trị f trong không gian tìm kiếm. Giả sử một heuristic1 phù hợp, tất cả các nút có giá trị f trong ngưỡng chi phí sẽ được mở rộng, do đó, bằng cách sử dụng phân phối f một chỉ có thể tìm thấy những ràng buộc mà số lượng các nút với các giá trị f nhỏ hơn phù hợp với số lượng mong muốn. Mới gia tăng ước tính của chúng tôi mô hình phân phối này. Chúng tôi sẽ ước tính sự phân bố của các giá trị f theo hai bước. Trong bước đầu tiên, chúng tôi tìm hiểu một mô hình như thế nào các giá trị f đang thay đổi từ các nút cho con cái của họ. Trong bước thứ hai, chúng ta ngoại suy từ các mô hình của sự thay đổi trong giá trị f để ước tính sự phân bố chung của tất cả các giá trị f. Điều này có nghĩa là mô hình gia tăng của chúng ta thao túng hai phân phối chính: chúng ta gọi là người đầu tiên phân phối Δf và điều thứ hai phân phối f. Trong phần tiếp theo, chúng tôi mô tả sự phân bố Δf và cung cấp cho hai kỹ thuật cho việc học nó: một off-line và một on-line. Sau đó, trong phần 3.2, chúng tôi mô tả cách thức phân phối Δf có thể được sử dụng để ước tính sự phân bố của các giá trị f trong không gian tìm kiếm. 3.1 Phân phối Δf Mục đích của việc học phân phối Δf là để dự đoán cách các giá trị f trong tìm kiếm sự thay đổi không gian giữa các nút và con cái của họ. Lợi thế của việc lưu trữ các giá trị thặng dư Δf thay vì lưu trữ các giá trị f mình là nó cho phép mô hình của chúng tôi để ngoại suy đến các phần của không gian tìm kiếm mà nó không có dữ liệu huấn luyện, một điều cần thiết khi sử dụng các mô hình on-line hoặc với vài mẫu huấn luyện. Chúng tôi sẽ sử dụng thông tin từ phân phối Δf để xây dựng một ước tính của sự phân bố của các giá trị f qua các nút tìm kiếm. Các kỹ thuật CDP của Zahavi et al. [23] học được phân phối có điều kiện của các giá trị và nút loại phỏng đoán của một nút con c, điều hòa trên các loại nút và ước tính phỏng đoán của nút cha p, ký hiệu P (h (c), t (c) | h (p ), t (p)). Như mô tả của Zahavi et al., Điều này đòi hỏi chỉ mục vào một mảng đa chiều theo h (p) và do đó ước tính phỏng đoán phải là một giá trị số nguyên. Mô hình gia tăng của chúng tôi cũng học được phân bố điều kiện, tuy nhiên để xử lý ước tính phỏng đoán giá trị thực, nó sử dụng các số nguyên có giá trị tìm kiếm space- bước để đi dự d của một node thay vì nó chi phí-to-go ràng buộc thấp hơn, h. Trong lĩnh vực đơn vị chi phí, d sẽ thường xuyên được giống như h, tuy nhiên trong lĩnh vực có gian thực có giá trị chi phí cạnh họ sẽ khác nhau. d là thường dễ dàng để tính toán trong khi tính toán h [19] (ví dụ, nó thường là đủ để sử dụng các thủ tục tương tự như đối với heuristic nhưng với một chi phí của 1 cho mỗi hành động). Sự phân bố đó là học bằng mô hình gia tăng là P (Δf (c), t (c), Δd (c) | d (p), t (p)), có nghĩa là, sự phân bố 1 Một heuristic là phù hợp khi sự thay đổi trong giá trị h giữa một nút và người kế nhiệm của nó là không lớn hơn chi phí của các cạnh giữa các nút. Nếu heuristic là không phù hợp sau đó một thủ tục gọi là pathmax [13] có thể được sử dụng để làm cho nó phù hợp tại địa phương dọc theo mỗi con đường đi qua của các tìm kiếm.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.