The Method of Lagrange MultipliersS. Sawyer — July 23, 20041. Lagrange dịch - The Method of Lagrange MultipliersS. Sawyer — July 23, 20041. Lagrange Việt làm thế nào để nói

The Method of Lagrange MultipliersS

The Method of Lagrange Multipliers
S. Sawyer — July 23, 2004
1. Lagrange’s Theorem. Suppose that we want to maximize (or minimize) a function of n variables
f(x) = f(x1,x2,...,xn) subject to p constraints for x = (x1,x2,...,xn) (1.1a)
g1(x) = c1, g2(x) = c2,
As an example for p = 1, find ..., and gp(x) = cp (1.1b)
(
Xn
min x2i
x1,...,xn
i=1
or for p = 2 ) Xn
: xi = 1
i=1
( (1.2a)
x1 + 2x2 + x3 = 1 and
subject to (1.2b)
x3 − 2x4 + x5 = 6
A first guess for (1.1) (with in (1.2)) might be to look for solutions of the n equations
, 1 ≤ i ≤ n (1.3)
However, this leads to xi = 0 in (1.2), which does not satisfy any of the constraints.
Lagrange’s solution is to introduce p new parameters (called Lagrange Multipliers) and then solve a more complicated problem:
Theorem (Lagrange) Assuming appropriate smoothness conditions, minimum or maximum of f(x) subject to the constraints (1.1b) that is not on the boundary of the region where f(x) and gj(x) are defined can be found by introducing p new parameters λ1,λ2,...,λp and solving the system
, 1 ≤ i ≤ n (1.4a)
(1.4b)
This amounts to solving n+p equations for the n+p real variables in x and λ. In contrast, (1.3) has n equations for the n unknowns in x. Fortunately, the system (1.4) is often easy to solve, and is usually much easier than using the constraints to substitute for some of the xi.
2. Examples. (1) There are p = 1 constraints in (1.2a), so that (1.4a) becomes
, 1 ≤ i ≤ n
= 1. Thus xi = −λ/2 for 1 ≤ i ≤ n and hence −nλ/2 = 1. We conclude λ = −2/n, from which it follows that xi = 1/n for 1 ≤ i ≤ n.
For xi = 1/n, f(x) = n/n2 = 1/n. One can check that this is a minimum as opposed to a maximum or saddle point by noting that f(x) = 1 if x1 = 1, xi = 0 for 2 ≤ i ≤ n.
(2) A System with Two Constraints: There are p = 2 constraints in (1.2b), which is to find
5 ½ x1 + 2x2 + x3 = 1 and
subject to (2.1)
x3 − 2x4 + x5 = 6
The method of Lagrange multipliers says to look for solutions of
= 0 (2.2)
where we write λ,µ for the two Lagrange multipliers λ1,λ2.
The equations (2.2) imply 2x1 + λ = 0, 2x2 + 2λ = 0, 2x3 + λ + µ = 0, 2x4 − 2µ = 0, and 2x5 + µ = 0. Combining the first three equations with the first constraint in (2.1) implies 2+6λ+µ = 0. Combining the last three equations in (2.2) with the second constraint in (2.1) implies 12+λ+6µ = 0. Thus
6λ + µ = −2 λ + 6µ = −12
Adding these two equations implies 7(λ + µ) = −14 or λ + µ = −2. Subtracting the equations implies 5(λ − µ) = 10 or λ − µ = 2. Thus (λ + µ) + (λ − µ) = 2λ = 0 and λ = 0,µ = −2. This implies x1 = x2 = 0, x3 = x5 = 1, and x4 = −2. The minimum value in (2.1) is 6.
(3) A BLUE problem: Let X1,...,Xn be independent random variables
with E(Xi) = µ and Var(Xi) = σi2. Find the coefficients ai that minimize
!
subject to(2.3)
This asks us to find the Best Linear Unbiased Estimator (abbreviated BLUE) for µ for given values of σi2.
Since Var(aX) = a2 Var(X) and Var(X + Y ) = Var(X) + Var(Y ) for independent random variables X and Y , we have Var( . Thus (2.3) is equivalent to finding
subject to
Using one Lagrange multiplier λ for the constraint leads to the equations 2aiσi2 + λ = 0 or ai = −λ/(2σi2). The constraint = 1 then implies that the BLUE for µ is
where ai = c/σi2 for ) (2.4)
If σi2 = σ2 for all i, then ai = 1/n and is the BLUE for µ.
Conversely, if Var(Xi) = σi2 is variable, then the BLUE for µ puts relatively less weight on the noisier (higher-variance) observations (that is, the weight ai is smaller), but still uses the information in the noiser observations. Formulas like (2.4) are often used in survey sampling.
3. A Short Proof of Lagrange’s Theorem. The extremal condition (1.3) (without any constraints) can be written in vector form as
= 0 (3.1)
By Taylor’s Theorem
f(x + hy) = f(x) + hy • ∇f(x) + O(h2) (3.2)
where h is a scalar, O(h2) denotes terms that are bounded by h2, and x•y is the dot product. Thus (3.1) gives the vector direction in which f(x) changes the most per unit change in x, where unit change in measured in terms of the length of the vector x.
In particular, if y = ∇f(x0) = 06 , then f(x0 − hy) < f(x0) < f(x0 + hy)
for sufficiently small values of h, and the only way that x0 can be a local minimum or maximum would be if x0 were on the boundary of the set of points where f(x) is defined. This implies that ∇f(x0) = 0 at non-boundary minimum and maximum values of f(x).
Now consider the problem of finding
maxf(x) subject to g(x) = c (3.3)
for one constraint. If x = x1(t) is a path in the surface defined by g(x) = c, then by the chain rule
= 0 (3.4)
¡ ¢
This implies that ∇g x1(0) is orthogonal to the tangent vector (d/dt)x1(0) for any path x1(t) in the surface defined by g(x) = c.
Conversely, if x0 is any point in the surface g(x) = c and y is any vector such that y•∇g(x0) = 0, then it follows from the Implicit Function Theorem there exists a path x1(t) in the surface g(x) = c such that x1(0) = x0 and (d/dt)x1(0) = y. This result and (3.4) imply that the gradient vector ∇g(x0) is always orthogonal to the surface defined by g(x) = c at x0.
Now let x0 be a solution of (3.3). I claim that ∇f(x0) = λ∇g(x0) for some scalar λ. First, we can always write ∇f(x0) = c∇g(x0) + y where y•∇g(x0) = 0. If x(t) is a path in the surface with x(0) = x0 and (d/dt)x(0)• ∇f(x0) = 06 , it follows from (3.2) with y = (d/dt)x(0) that there are values for f(x) for x = x(t) in the surface that both larger and smaller than f(x0).
Thus, if x0 is a maximum of minimum of f(x) in the surface and ∇f(x0) = c∇g(x0)+y for y•∇g(x0) = 0, then y•∇f(x0) = y•∇g(x0)+y•y = y • y = 0 and y = 0. This means that ∇f(x0) = c∇g(x0), which completes the proof of Lagrange’s Theorem for one constraint (p = 1).
Next, suppose that we want to solve maxf(x) subject to g1(x) = c1, ..., gp(x) = cp (3.5)
for p constraints. Let x0 be a solution of (3.5). Recall that the each vector ∇gj(x0) is orthogonal to the surface gj(x) = cj at x0. Let L be the linear space
L = span{∇gj(x0) : 1 ≤ j ≤ p}
I claim that ∇f(x0) ∈ L. This would imply
Xp
∇f(x0) = λj∇gj(x0)
j=1
for some choice of scalar values λj, which would prove Lagrange’s Theorem.
To prove that ∇f(x0) ∈ L, first note that, in general, we can write ∇f(x0) = w+y where w ∈ L and y is perpendicular to L, which means that y•z = 0 for any z ∈ L. In particular, y•∇gj(x0) = 0 for 1 ≤ j ≤ p. Now find a path x1(t) through x0 in the intersection of the surfaces gj(x) = cj such that x1(0) = x0 and (d/dt)x1(0) = y. (The existence of such a path for sufficiently small t follows from a stronger form of the Implicit Function Theorem.) It then follows from (3.2) and (3.5) that y •∇f(x0) = 0. Since ∇f(x0) = w +y where y•w = 0, it follows that y•∇f(x0) = y•w+y•y = y•y = 0 and y = 0, This implies that ∇f(x0) = w ∈ L, which completes the proof of Lagrange’s Theorem.
4. Warnings. The same warnings apply here as for most methods for finding a maximum or minimum:
The system (1.4) does not look for a maximum (or minimum) of f(x) subject to constraints gj(x) = cj, but only a point x on the set of values determined by gj(x) = cj whose first-order changes in x are zero. This is satisfied by a value x = x0 that provides a minimum or maximum typical for f(x) in a neighborhood of x0, but may only be a local minimum or maximum. There may be several local minima or maxima, each yielding a solution of (1.4). The criterion (1.4) also holds for “saddle points” of f(x) that are local maxima in some directions or coordinates and local minima in others. In these cases, the different values f(x) at the solutions of (1.4) have to be evaluated individually to find the global maximum.
A particular situation to avoid is to look for a maximum value of f(x) by solving (1.4) or (1.3) when f(x) takes arbitrarily large values when any of the components of x are large (as is the case for f(x) in (1.2)) and (1.4) has a unique solution x0. In that case, x0 is probably the global minimum of f(x) subject to the constraints, and not a maximum. In that case, rather than find the best possible value of f(x), one may end up with the worst possible value. After solving (1.3) or (1.4), one often has to look at the problem more carefully to see if it is a global maximum, a global minimum, or neither.
Another situation to avoid is when the maximum or minimum is on the boundary of the values for which f(x) is defined. In that case, the maximum or minimum is not an interior value, and the first-order changes in f(x) (that is, the partial derivatives of f(x)) may not be zero at that point. An example is f(x) = x on the unit interval 0 ≤ x ≤ 1. The minimum value of f(x) = x on the interval is x = 0 and the maximum is x = 1, but neither are solutions of f0(x) = 0.
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
Phương pháp nhân đấu LagrangeS. Sawyer-23 tháng 7 năm 20041. định lý Lagrange. Giả sử rằng chúng tôi muốn tối đa hóa (hoặc giảm thiểu) một chức năng của n biến sốf (x) = f(x1,x2,...,xn) tùy thuộc vào ràng buộc p đối với x = (x 1, x 2,..., xn) (1.1A) G1(x) = c1, g2(x) = c2,Như là một ví dụ cho p = 1, tìm..., và gp(x) = cp (1.1b)(XN Min x2ix 1,..., xntôi = 1hoặc n = 2) Xn: xi = 1tôi = 1((1.2A) x 1 + 2 x 2 + x 3 = 1 và tùy thuộc vào (1.2B)x 3 − 2 x 4 + x 5 = 6Đầu tiên đoán cho (1.1) (với trong (1,2)) có thể là để tìm kiếm các giải pháp của các phương trình n , 1 ≤ tôi ≤ n (1.3)Tuy nhiên, điều này dẫn đến xi = 0 trong (1,2), mà không đáp ứng bất kỳ của những hạn chế.Lagrange giải pháp là để giới thiệu p tham số mới (được gọi là hệ số Lagrange) và sau đó giải quyết một vấn đề phức tạp hơn:Định lý (Lagrange) giả sử điều kiện thích hợp êm ái, tối thiểu hoặc tối đa của f (x) tùy thuộc vào các khó khăn (1.1b) mà không ranh giới của khu vực nơi f (x) và gj(x) được định nghĩa có thể được tìm thấy bằng cách giới thiệu p mới tham số λ1, λ2,..., λp và giải quyết hệ thống , 1 ≤ tôi ≤ n (1.4a)(1.4b)Số tiền này để giải quyết n + p phương trình cho các n + p bất biến trong x và λ. Ngược lại, (1.3) có n phương trình cho các ẩn số n trong x. may mắn thay, Hệ thống (1.4) thường là dễ dàng để giải quyết, và thường dễ dàng hơn nhiều so với sử dụng các khó khăn để thay thế cho một số xi.2. ví dụ. (1) có là p = 1 khó khăn ở (1.2A), do đó, sẽ trở thành (1.4a) , 1 ≤ tôi ≤ n = 1. Do đó xi = −λ/2 với 1 ≤ tôi ≤ n và do đó −nλ/2 = 1. Chúng tôi kết luận λ = −2/n, từ đó nó sau đó xi = 1/n với 1 ≤ tôi ≤ n.Nhất xi = 1/n, f (x) = n/n2 = 1/n. Một có thể kiểm tra rằng điều này là tối thiểu như trái ngược với nhiệt độ tối đa hoặc yên bằng cách ghi nhận rằng f (x) = 1 nếu x 1 = 1, xi = 0 cho 2 ≤ tôi ≤ n.(2) một hệ thống với hai hạn chế: có là p = 2 khó khăn ở (1.2B), mà là để tìm 5 ½ x 1 + 2 x 2 + x 3 = 1 và tùy thuộc vào (2,1)x 3 − 2 x 4 + x 5 = 6Phương pháp Lagrange nhân nói để tìm kiếm các giải pháp của = 0 (2,2)nơi mà chúng tôi viết λ, μ cho hai Lagrange hệ số λ1, λ2.Phương trình (2,2) ngụ ý 2 x 1 + λ = 0, 2 x 2 + 2λ = 0, 2 x 3 + λ + μ = 0, 2 x 4 − 2µ = 0, và 2 x 5 + μ = 0. Kết hợp các phương trình đầu tiên ba với các hạn chế đầu tiên trong (2,1) ngụ ý 2 + 6λ + μ = 0. Kết hợp các phương trình cuối ba trong (2,2) với các hạn chế thứ hai ở (2,1) ngụ ý 12 + λ + 6µ = 0. Do đó6Λ + Μ = −2 Λ + 6Μ = −12Thêm các phương trình hai ngụ ý 7 (λ + µ) = −14 hoặc λ + μ = −2. Trừ đi các phương trình ngụ ý 5 (λ − µ) = 10 hoặc λ − µ = 2. Do đó (λ + µ) + (λ − µ) = 2λ = 0 và λ = 0, μ = −2. Điều này ngụ ý x 1 = x 2 = 0, x 3 = x 5 = 1, và x 4 = −2. Giá trị tối thiểu trong (2,1) là 6.(3) một vấn đề màu xanh: giả sử X 1,..., Xn là biến ngẫu nhiên độc lậpvới E(Xi) = μ và Var(Xi) = σi2. Tìm ai hệ số giảm thiểu!chủ đề to(2.3)Điều này đòi hỏi chúng ta để tìm các ước tính không thiên vị tuyến tính tốt nhất (viết tắt là BLUE) cho µ cho đưa ra giá trị của σi2.Kể từ khi Var(aX) = a2 Var(X) và Var (X + Y) = Var(X) + Var (Y) cho độc lập các biến ngẫu nhiên X và Y, chúng tôi có Var (. Do đó (2,3) là tương đương với việc tìm kiếm tùy thuộc vào Bằng cách sử dụng một Lagrange nhân λ cho các hạn chế dẫn đến phương trình 2aiσi2 + λ = 0 hoặc ai = −λ/(2σi2). Các hạn chế = 1 sau đó ngụ ý rằng màu xanh cho µ là nơi ai = c/σi2 cho) (2,4)Nếu σi2 = σ2 cho tất cả các i, thì ai = 1/n và là màu xanh cho µ.Ngược lại, nếu Var(Xi) = σi2 là biến, sau đó màu xanh cho µ đặt trọng lượng tương đối ít hơn trên các quan sát (cao phương sai) noisier (có nghĩa là, ai trọng lượng nhỏ hơn), nhưng vẫn còn sử dụng các thông tin trong các quan sát noiser. Công thức như (2,4) thường được sử dụng trong cuộc khảo sát lấy mẫu.3. một chứng minh định lý Lagrange ngắn. Điều kiện game (1.3) (mà không có bất kỳ khó khăn) có thể được viết bằng véc tơ hình thức như = 0 (3.1)Theo định lý của Taylor f (x + hy) = f (x) + hy • ∇f(x) + O(h2) (3.2)Nếu h là một vô hướng, O(h2) biểu thị điều khoản đó được bao bọc bởi h2, và x•y là sản phẩm dot. Do đó (3.1) cho sự hướng dẫn véc tơ trong đó f (x) thay đổi nhiều nhất cho mỗi đơn vị thay đổi trong x, mà thay đổi đơn vị đo về chiều dài của vector x.Trong cụ thể, keå caû y = ∇f(x0) = 06, sau đó f (x 0 − hy) < f(x0) < f (x 0 + hy)Đối với các giá trị đủ nhỏ của h, và cách duy nhất mà x 0 có thể là một địa phương tối thiểu hoặc tối đa sẽ là nếu x 0 trên ranh giới của các thiết lập của điểm nơi f (x) được định nghĩa. Điều này ngụ ý rằng ∇f(x0) = 0 tại Phòng Không ranh giới tối thiểu và tối đa giá trị của f (x).Bây giờ hãy xem xét vấn đề của việc tìm kiếm maxf(x) tùy thuộc vào g(x) = c (3,3)cho một hạn chế. Nếu x = x1(t) là một con đường ở bề mặt được xác định bởi g(x) = c, sau đó theo quy tắc Chuỗi = 0 (3,4) ¡ ¢Điều này ngụ ý rằng x1(0) ∇g là vuông góc để véc tơ ốp (d/dt)x1(0) cho bất kỳ con đường x1(t) ở bề mặt được xác định bởi g(x) = c.Ngược lại, nếu x 0 là bất kỳ điểm nào trong bề mặt g(x) = c và y là bất kỳ vector như vậy đó y•∇g(x0) = 0, thì nó theo định lý chức năng Implicit có tồn tại một đường dẫn x1(t) trong g(x) bề mặt = c như vậy đó x1(0) = x 0 và (d/dt)x1(0) = y. Kết quả này và (3,4) ngụ ý rằng ∇g(x0) gradient vector là luôn luôn trực giao với bề mặt được xác định bởi g(x) = c tại x 0.Bây giờ để x 0 là một giải pháp (3,3). Tôi yêu cầu bồi thường đó ∇f(x0) = λ∇g(x0) cho một số λ vô hướng. Trước tiên, chúng tôi luôn luôn có thể viết ∇f(x0) = c∇g(x0) + y nơi y•∇g(x0) = 0. Nếu x(t) là một con đường ở bề mặt với x(0) = x 0 và (d/dt) x (0) • ∇f(x0) = 06, nó sau từ (3.2) với y = (d/dt)x(0) rằng có giá trị cho f (x) cho x = x(t) ở bề mặt mà cả lớn hơn và nhỏ hơn f(x0).Vì vậy, nếu x 0 là một tối đa là tối thiểu của f (x) bề mặt và ∇f(x0) = c∇g (x 0) + y cho y•∇g(x0) = 0, sau đó y•∇f(x0) = y•∇g (x 0) + y•y = y • y = 0 và y = 0. Điều này có nghĩa rằng ∇f(x0) = c∇g(x0), hoàn tất chứng minh định lý Lagrange cho một hạn chế (p = 1).Tiếp theo, giả sử rằng chúng tôi muốn giải quyết maxf(x) tùy thuộc vào g1(x) = c1,..., gp(x) = cp (3.5)cho p ràng buộc. Cho x 0 là một giải pháp (3,5). Nhớ lại rằng ∇gj(x0) vector mỗi là vuông góc để bề mặt gj(x) = cj tại x 0. Giả sử L là không gian tuyến tínhL = span{∇gj(x0): 1 ≤ p ≤ j}Tôi yêu cầu bồi thường đó ∈ ∇f(x0) L. Điều này sẽ ngụ ýXP ∇f(x0) = λj∇gj(x0)j = 1Đối với một số sự lựa chọn của các giá trị vô hướng λj, mà sẽ chứng minh định lý Lagrange.Để chứng minh rằng ∈ ∇f(x0) L, lần đầu tiên lưu ý rằng, nói chung, chúng tôi có thể viết ∇f(x0) = w + y nơi w ∈ L và y là vuông góc với L, có nghĩa là rằng y•z = 0 cho bất kỳ ∈ z L. Trong cụ thể, y•∇gj(x0) = 0 cho 1 ≤ j ≤ p. Bây giờ tìm thấy một đường dẫn x1(t) thông qua x 0 ở giao điểm của bề mặt gj(x) = cj như vậy đó x1(0) = x 0 và (d/dt)x1(0) = y. (sự tồn tại của một con đường cho đủ nhỏ t sau một dạng mạnh hơn của định lý chức năng Implicit.) Nó sau đó sau từ (3.2) và (3.5) rằng •∇f(x0) y = 0. Kể từ khi ∇f(x0) = w + y nơi y•w = 0, nó sau đó y•∇f(x0) = y•w + y•y = y•y = 0 và y = 0, điều này ngụ ý rằng ∇f(x0) = w ∈ L, các chứng minh định lý Lagrange đã hoàn tất.4. Warnings. The same warnings apply here as for most methods for finding a maximum or minimum:The system (1.4) does not look for a maximum (or minimum) of f(x) subject to constraints gj(x) = cj, but only a point x on the set of values determined by gj(x) = cj whose first-order changes in x are zero. This is satisfied by a value x = x0 that provides a minimum or maximum typical for f(x) in a neighborhood of x0, but may only be a local minimum or maximum. There may be several local minima or maxima, each yielding a solution of (1.4). The criterion (1.4) also holds for “saddle points” of f(x) that are local maxima in some directions or coordinates and local minima in others. In these cases, the different values f(x) at the solutions of (1.4) have to be evaluated individually to find the global maximum.A particular situation to avoid is to look for a maximum value of f(x) by solving (1.4) or (1.3) when f(x) takes arbitrarily large values when any of the components of x are large (as is the case for f(x) in (1.2)) and (1.4) has a unique solution x0. In that case, x0 is probably the global minimum of f(x) subject to the constraints, and not a maximum. In that case, rather than find the best possible value of f(x), one may end up with the worst possible value. After solving (1.3) or (1.4), one often has to look at the problem more carefully to see if it is a global maximum, a global minimum, or neither.Another situation to avoid is when the maximum or minimum is on the boundary of the values for which f(x) is defined. In that case, the maximum or minimum is not an interior value, and the first-order changes in f(x) (that is, the partial derivatives of f(x)) may not be zero at that point. An example is f(x) = x on the unit interval 0 ≤ x ≤ 1. The minimum value of f(x) = x on the interval is x = 0 and the maximum is x = 1, but neither are solutions of f0(x) = 0.
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
The Method of Lagrange Multipliers
S. Sawyer — July 23, 2004
1. Lagrange’s Theorem. Suppose that we want to maximize (or minimize) a function of n variables
f(x) = f(x1,x2,...,xn) subject to p constraints for x = (x1,x2,...,xn) (1.1a)
g1(x) = c1, g2(x) = c2,
As an example for p = 1, find ..., and gp(x) = cp (1.1b)
(
Xn
min x2i
x1,...,xn
i=1
or for p = 2 ) Xn
: xi = 1
i=1
( (1.2a)
x1 + 2x2 + x3 = 1 and
subject to (1.2b)
x3 − 2x4 + x5 = 6
A first guess for (1.1) (with in (1.2)) might be to look for solutions of the n equations
, 1 ≤ i ≤ n (1.3)
However, this leads to xi = 0 in (1.2), which does not satisfy any of the constraints.
Lagrange’s solution is to introduce p new parameters (called Lagrange Multipliers) and then solve a more complicated problem:
Theorem (Lagrange) Assuming appropriate smoothness conditions, minimum or maximum of f(x) subject to the constraints (1.1b) that is not on the boundary of the region where f(x) and gj(x) are defined can be found by introducing p new parameters λ1,λ2,...,λp and solving the system
, 1 ≤ i ≤ n (1.4a)
(1.4b)
This amounts to solving n+p equations for the n+p real variables in x and λ. In contrast, (1.3) has n equations for the n unknowns in x. Fortunately, the system (1.4) is often easy to solve, and is usually much easier than using the constraints to substitute for some of the xi.
2. Examples. (1) There are p = 1 constraints in (1.2a), so that (1.4a) becomes
, 1 ≤ i ≤ n
= 1. Thus xi = −λ/2 for 1 ≤ i ≤ n and hence −nλ/2 = 1. We conclude λ = −2/n, from which it follows that xi = 1/n for 1 ≤ i ≤ n.
For xi = 1/n, f(x) = n/n2 = 1/n. One can check that this is a minimum as opposed to a maximum or saddle point by noting that f(x) = 1 if x1 = 1, xi = 0 for 2 ≤ i ≤ n.
(2) A System with Two Constraints: There are p = 2 constraints in (1.2b), which is to find
5 ½ x1 + 2x2 + x3 = 1 and
subject to (2.1)
x3 − 2x4 + x5 = 6
The method of Lagrange multipliers says to look for solutions of
= 0 (2.2)
where we write λ,µ for the two Lagrange multipliers λ1,λ2.
The equations (2.2) imply 2x1 + λ = 0, 2x2 + 2λ = 0, 2x3 + λ + µ = 0, 2x4 − 2µ = 0, and 2x5 + µ = 0. Combining the first three equations with the first constraint in (2.1) implies 2+6λ+µ = 0. Combining the last three equations in (2.2) with the second constraint in (2.1) implies 12+λ+6µ = 0. Thus
6λ + µ = −2 λ + 6µ = −12
Adding these two equations implies 7(λ + µ) = −14 or λ + µ = −2. Subtracting the equations implies 5(λ − µ) = 10 or λ − µ = 2. Thus (λ + µ) + (λ − µ) = 2λ = 0 and λ = 0,µ = −2. This implies x1 = x2 = 0, x3 = x5 = 1, and x4 = −2. The minimum value in (2.1) is 6.
(3) A BLUE problem: Let X1,...,Xn be independent random variables
with E(Xi) = µ and Var(Xi) = σi2. Find the coefficients ai that minimize
!
subject to(2.3)
This asks us to find the Best Linear Unbiased Estimator (abbreviated BLUE) for µ for given values of σi2.
Since Var(aX) = a2 Var(X) and Var(X + Y ) = Var(X) + Var(Y ) for independent random variables X and Y , we have Var( . Thus (2.3) is equivalent to finding
subject to
Using one Lagrange multiplier λ for the constraint leads to the equations 2aiσi2 + λ = 0 or ai = −λ/(2σi2). The constraint = 1 then implies that the BLUE for µ is
where ai = c/σi2 for ) (2.4)
If σi2 = σ2 for all i, then ai = 1/n and is the BLUE for µ.
Conversely, if Var(Xi) = σi2 is variable, then the BLUE for µ puts relatively less weight on the noisier (higher-variance) observations (that is, the weight ai is smaller), but still uses the information in the noiser observations. Formulas like (2.4) are often used in survey sampling.
3. A Short Proof of Lagrange’s Theorem. The extremal condition (1.3) (without any constraints) can be written in vector form as
= 0 (3.1)
By Taylor’s Theorem
f(x + hy) = f(x) + hy • ∇f(x) + O(h2) (3.2)
where h is a scalar, O(h2) denotes terms that are bounded by h2, and x•y is the dot product. Thus (3.1) gives the vector direction in which f(x) changes the most per unit change in x, where unit change in measured in terms of the length of the vector x.
In particular, if y = ∇f(x0) = 06 , then f(x0 − hy) < f(x0) < f(x0 + hy)
for sufficiently small values of h, and the only way that x0 can be a local minimum or maximum would be if x0 were on the boundary of the set of points where f(x) is defined. This implies that ∇f(x0) = 0 at non-boundary minimum and maximum values of f(x).
Now consider the problem of finding
maxf(x) subject to g(x) = c (3.3)
for one constraint. If x = x1(t) is a path in the surface defined by g(x) = c, then by the chain rule
= 0 (3.4)
¡ ¢
This implies that ∇g x1(0) is orthogonal to the tangent vector (d/dt)x1(0) for any path x1(t) in the surface defined by g(x) = c.
Conversely, if x0 is any point in the surface g(x) = c and y is any vector such that y•∇g(x0) = 0, then it follows from the Implicit Function Theorem there exists a path x1(t) in the surface g(x) = c such that x1(0) = x0 and (d/dt)x1(0) = y. This result and (3.4) imply that the gradient vector ∇g(x0) is always orthogonal to the surface defined by g(x) = c at x0.
Now let x0 be a solution of (3.3). I claim that ∇f(x0) = λ∇g(x0) for some scalar λ. First, we can always write ∇f(x0) = c∇g(x0) + y where y•∇g(x0) = 0. If x(t) is a path in the surface with x(0) = x0 and (d/dt)x(0)• ∇f(x0) = 06 , it follows from (3.2) with y = (d/dt)x(0) that there are values for f(x) for x = x(t) in the surface that both larger and smaller than f(x0).
Thus, if x0 is a maximum of minimum of f(x) in the surface and ∇f(x0) = c∇g(x0)+y for y•∇g(x0) = 0, then y•∇f(x0) = y•∇g(x0)+y•y = y • y = 0 and y = 0. This means that ∇f(x0) = c∇g(x0), which completes the proof of Lagrange’s Theorem for one constraint (p = 1).
Next, suppose that we want to solve maxf(x) subject to g1(x) = c1, ..., gp(x) = cp (3.5)
for p constraints. Let x0 be a solution of (3.5). Recall that the each vector ∇gj(x0) is orthogonal to the surface gj(x) = cj at x0. Let L be the linear space
L = span{∇gj(x0) : 1 ≤ j ≤ p}
I claim that ∇f(x0) ∈ L. This would imply
Xp
∇f(x0) = λj∇gj(x0)
j=1
for some choice of scalar values λj, which would prove Lagrange’s Theorem.
To prove that ∇f(x0) ∈ L, first note that, in general, we can write ∇f(x0) = w+y where w ∈ L and y is perpendicular to L, which means that y•z = 0 for any z ∈ L. In particular, y•∇gj(x0) = 0 for 1 ≤ j ≤ p. Now find a path x1(t) through x0 in the intersection of the surfaces gj(x) = cj such that x1(0) = x0 and (d/dt)x1(0) = y. (The existence of such a path for sufficiently small t follows from a stronger form of the Implicit Function Theorem.) It then follows from (3.2) and (3.5) that y •∇f(x0) = 0. Since ∇f(x0) = w +y where y•w = 0, it follows that y•∇f(x0) = y•w+y•y = y•y = 0 and y = 0, This implies that ∇f(x0) = w ∈ L, which completes the proof of Lagrange’s Theorem.
4. Warnings. The same warnings apply here as for most methods for finding a maximum or minimum:
The system (1.4) does not look for a maximum (or minimum) of f(x) subject to constraints gj(x) = cj, but only a point x on the set of values determined by gj(x) = cj whose first-order changes in x are zero. This is satisfied by a value x = x0 that provides a minimum or maximum typical for f(x) in a neighborhood of x0, but may only be a local minimum or maximum. There may be several local minima or maxima, each yielding a solution of (1.4). The criterion (1.4) also holds for “saddle points” of f(x) that are local maxima in some directions or coordinates and local minima in others. In these cases, the different values f(x) at the solutions of (1.4) have to be evaluated individually to find the global maximum.
A particular situation to avoid is to look for a maximum value of f(x) by solving (1.4) or (1.3) when f(x) takes arbitrarily large values when any of the components of x are large (as is the case for f(x) in (1.2)) and (1.4) has a unique solution x0. In that case, x0 is probably the global minimum of f(x) subject to the constraints, and not a maximum. In that case, rather than find the best possible value of f(x), one may end up with the worst possible value. After solving (1.3) or (1.4), one often has to look at the problem more carefully to see if it is a global maximum, a global minimum, or neither.
Another situation to avoid is when the maximum or minimum is on the boundary of the values for which f(x) is defined. In that case, the maximum or minimum is not an interior value, and the first-order changes in f(x) (that is, the partial derivatives of f(x)) may not be zero at that point. An example is f(x) = x on the unit interval 0 ≤ x ≤ 1. The minimum value of f(x) = x on the interval is x = 0 and the maximum is x = 1, but neither are solutions of f0(x) = 0.
đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2025 I Love Translation. All reserved.

E-mail: