Regression Click vào đây để bắt đầu một thuyết trình Visual Interactive (Plugin buộc) Bấm vào đây để đến Plugin tải về và cắm trang hướng dẫn của chúng tôi hồi quy thống kê mở rộng về mối tương quan để cho phép chúng ta sử dụng các mối quan hệ giữa các biến để đưa ra dự đoán. Họ cung cấp cho chúng tôi với các công cụ để viết phương trình tuyến tính mà có thể được sử dụng để dự đoán giá trị của một biến phụ thuộc hoặc có chỉ tiêu từ giá trị của một hoặc một tập hợp các biến dự báo. Chức năng tuyến tính Trước khi chúng tôi bắt đầu nói về hồi quy chúng ta đầu tiên sẽ nói về chủ đề chung của các hàm tuyến tính mà một số bạn có thể nhớ từ lớp toán trước đó. Chức năng tuyến Mẫu Hình thức tổng quát của một hàm tuyến tính đơn giản là phương trình này (Y = a + bX). Phương trình này mô tả bất kỳ đường thẳng. Độ dốc của đường được đại diện bởi chữ b. Các đánh chặn được đại diện trong phương trình bằng chữ một. Giá trị của các đánh chặn, một, là nơi dòng đi qua các trục Y. By tùy tiện chọn một giá trị cho X và sử dụng công thức này, chúng ta có thể xác định các giá trị của Y và do đó vẽ đường. Tuyến tính Chức năng Ví dụ 1 Trong hộp màu xanh ở dưới cùng của hình minh họa là phương trình của chúng tôi cho một dòng cụ thể, Y = 2X + 1. Từ phương trình này chúng ta có thể xác định cách dòng sẽ xuất hiện trên đồ thị. Tôi sẽ gọi đồ thị này là một "phân tán" vì những lý do mà chúng ta đã thảo luận trong bài thuyết trình về tương quan. Lưu ý: Trong ví dụ này, tôi đã đảo ngược thứ tự của các tham số ở phía bên phải của phương trình, nhưng nó là cơ bản giống nhau. Đó là, (Y = a + bX) là giống như toán học (Y = bX + a). Trong ví dụ này, độ dốc b = 2 và trên trục a = 1. Bước tiếp theo là tùy tiện chọn ít nhất ba X giá trị. Đối với ví dụ này tôi chọn giá trị X = 0, 1, và 2. Sử dụng phương trình (Y = 2x +1) tôi có thể xác định rằng khi X = 0 thì Y = 1. Khi X = 1 thì Y = 3 và khi X = 2 thì Y = 5. Hãy thử những hiểu cho chính mình và có thể thử một số giá trị khác cho X là tốt. Chú ý rằng khi bạn vẽ một đường thẳng đi qua các điểm đường đi qua các trục Y đúng với giá trị 1. Các giá trị "1" là đánh chặn. Chú ý rằng giá trị cao của X cung cấp cho bạn những giá trị cao của Y. Sau đó, chúng tôi sẽ thấy rằng một độ dốc dương tương ứng với các ý tưởng của một mối quan hệ tích cực trong mối tương quan. Chức năng tuyến tính Ví dụ 2 Dưới đây là một ví dụ khác. Đối với dòng này là các phương trình Y = .5x - 1. Phương trình này hơi khác một chút bởi vì giá trị của Y-đánh chặn là -1. Điều đó có nghĩa là các dòng sẽ qua trục Y ở -1. Các hình thức của phương trình của chúng tôi vẫn giữ nguyên (Y = bX + a) nhưng nếu bạn nhớ đại số trường trung học phương trình Y = .5x + (-1) là giống như Y = .5x -1. Hình thức thứ hai này chỉ là một cách đơn giản của việc viết phương trình nếu giá trị của a nhỏ hơn 0. Ở đây tôi tự ý chọn các giá trị X = 0, 1, 2, và 3. Sau đó, sử dụng các phương trình Y = .5x -1, Tôi xác định rằng các giá trị Y kết hợp sẽ là -1. -.5, 0, và 0,5. Tại sao bạn không thử này và kiểm tra tính toán của tôi. Hãy so sánh Ví dụ 1 và Ví dụ 2. ảnh hưởng của việc thay đổi độ dốc từ 2 (trong ví dụ 1-0,5 trong ví dụ 2) là gì? Dòng với giá trị thấp hơn của dốc (0,5) là ít dốc hơn so với dòng với độ dốc cao hơn. Ảnh hưởng của việc thay đổi đánh chặn, một, từ 1 đến -1 là gì? Chú ý rằng các đường cắt trục Y trong mỗi trường hợp chính xác theo giá trị của "một." Tuyến tính Chức năng Ví dụ 3 Đối với dòng này là phương trình Y = -1.5x + 2. Ở đây chúng ta có một giá trị âm (-1.5) cho độ dốc và đánh chặn có giá trị là 2. Tôi chọn các giá trị X = 0, 1, 2 và một lần nữa và sau đó sử dụng các phương trình để xác định các giá trị Y. Hãy so sánh: tác dụng làm cho độ dốc âm là gì? Các đường thẳng dốc theo cách khác. Chú ý rằng giá trị cao của X bây giờ cung cấp cho bạn những giá trị thấp của Y. Điều này đúng khi độ dốc là tiêu cực. Chúng ta sẽ thấy sau đó một dốc âm tương ứng với các ý tưởng của một mối quan hệ tiêu cực trong mối tương quan. Khi Slope (b) = 0 - Không có quan hệ gì dòng như thế nào nếu độ dốc là 0? Nó sẽ luôn luôn trông giống như một đường ngang phẳng. Trong ví dụ này, bất kể giá trị những gì bạn đưa vào cho X, Y sẽ luôn luôn bằng 3. Sau đó, chúng ta sẽ thấy một độ dốc từ 0 tương ứng với ý tưởng không có mối quan hệ trong tương quan. Y = X Y = 0 + 1x hoặc chỉ đơn giản là Y = X là dòng bắt đầu tại xứ (0, 0) và đi lên ở một góc 45 độ. Bằng cách chọn các giá trị X = 0, 1, 2 và sử dụng các công thức bạn có thể xác định rằng các giá trị Y cũng là 0, 1, và 2 tương ứng. Regression Dòng Trong thống kê, khi chúng ta muốn dự đoán hoặc ước tính một biến, Y , từ một biến thứ hai, X, chúng tôi sử dụng một thủ tục gọi là "hồi quy." "Đường hồi quy" là hàm tuyến tính, chúng tôi sử dụng để làm cho dự đoán này. Nếu điều đó không làm cho nhiều ý nghĩa với bạn vào thời điểm này, nó là OK. Chúng tôi sẽ dành nhiều thời gian học tập khái niệm này. Ký hiệu: Khi chúng ta nói về các giá trị dự đoán hoặc ước lượng của biến Y, chúng ta thường sử dụng một số biểu tượng như một Y với một dấu mũ nhỏ hoặc một chiếc mũ nhỏ trên đầu trang của nó (^) , hoặc chúng tôi sử dụng Y Thủ (Y '). Trong lớp học này, chúng ta sẽ sử dụng Y 'bởi vì nó dễ dàng hơn rất nhiều để gõ một dấu nháy đơn cho thủ hơn là để vẽ một trong những chiếc mũ nhỏ trong HTML vào thời điểm này. Nhưng trong thống kê sách bạn sẽ thấy các ký hiệu khác nhau. Nói cách chúng tôi sẽ nói "Y thủ bằng một bX cộng." Trong các biểu tượng, chúng ta sẽ viết Y '= a + bX. Rõ ràng (trừ các nguyên tố) Y' = a + bX là rất tương tự như chức năng tuyến tính mà chúng ta chỉ xem xét. Khi bạn đang dự đoán hoặc ước tính giá trị của Y từ X , Y được gọi là biến tiêu chuẩn, và X được gọi là biến dự đoán. Biến tiêu chí thường được gọi là biến phụ thuộc. Thuốc lá và sức khỏe Ví dụ Với mục đích của bài giảng của chúng tôi hôm nay chúng tôi sẽ sử dụng một ví dụ thực hiện lên trong đó xem xét mối quan hệ giữa thuốc lá và sức khỏe. Vì vậy, Y có thể là số của các vấn đề sức khỏe kinh nghiệm của một cá nhân trong độ tuổi từ 65 và 70; và X có thể là số thuốc lá anh ta hoặc cô hút mỗi ngày từ 20 tuổi cho đến tuổi 50. Chúng tôi muốn dự đoán Y từ X, đó là chúng ta muốn ước tính số lượng của các vấn đề sức khỏe sau này trong cuộc sống từ những số điếu thuốc hút trước đó trong cuộc sống. Trong thuật ngữ thống kê, chúng ta sẽ tìm thấy những dòng hồi quy, Y '= a + bX vấn đề sức khỏe và hút thuốc Operations Đo lường: Dịch một cuộc sống vào số điếu thuốc hút mỗi ngày. Có hai phương pháp chung được sử dụng trong nghiên cứu này. Trong một nghiên cứu hồi cứu, chúng tôi sẽ yêu cầu những người tham gia nghiên cứu để xem xét lại cuộc sống của họ và báo cáo bao nhiêu thuốc lá họ hút mỗi ngày trong độ tuổi từ 20 và 50. Trong một nghiên cứu tương lai, chúng tôi sẽ theo dõi mọi người trên cuộc đời của họ, yêu cầu họ ghi lại các số thuốc lá họ hút thuốc mỗi ngày. Các nghiên cứu hồi cứu có thể được thực hiện trong một vài tháng. Các nghiên cứu tương lai sẽ mất nhiều năm. Các dữ liệu từ một nghiên cứu tiền cứu là chất lượng cao hơn nhiều vì nó không dựa trên bộ nhớ của các đối tượng. Dù bằng cách nào, số lượng điếu thuốc hút mỗi ngày là X; nó sẽ biến dự đoán của chúng tôi. Sau đó, chúng ta sẽ dự đoán số vấn đề sức khỏe một người tham gia có độ tuổi từ 65 và 70 từ họ hút bao nhiêu. Hãy nói rằng chúng tôi làm một nghiên cứu hồi cứu. Chúng tôi xem xét các hồ sơ y tế của người tham gia khi họ là giữa 65 và 70 tuổi, đếm số lượng các vấn đề sức khỏe mà họ đã có. Sau đó, chúng tôi cung cấp cho họ một câu hỏi về bao nhiêu họ đã hút thuốc ở thời điểm khác nhau trong cuộc sống của họ. Chúng tôi muốn dự đoán vấn đề sức khỏe từ tỷ lệ hút thuốc. Regression Dòng Hãy nói rằng chúng ta sẽ có một mẫu nhỏ nhỏ, thường có hàng ngàn người trong các nghiên cứu như vậy, nhưng chúng tôi chỉ cần đi để có một vài tính toán của chúng tôi để sẽ được đơn giản. Các dữ liệu được tạo ra. Trên hình minh họa dữ liệu được đặt hàng trong bảng bên trái từ các giá trị X thấp nhất đến cao nhất; nghĩa là, nó đi từ số lượng ít nhất là điếu thuốc hút nước cao nhất. Vì vậy, những người hút một mỗi ngày có ba vấn đề sức khỏe; người hút hai gói có mười vấn đề sức khỏe, và như vậy. Bảng này chứa các dữ liệu cá nhân tham gia và chúng tôi đã đo hai điều về mỗi người trong số họ. Trong đề án chung về phương pháp luận, một nghiên cứu hồi quy vẫn là một nghiên cứu tương quan. Tiếp theo chúng ta sẽ vẽ một phân tán. Mỗi dấu chấm trên thị phân tán đại diện cho dữ liệu của một người. Có lẽ bây giờ bạn đã có đủ kinh nghiệm với tán xạ từ việc nghiên cứu mối tương quan để biết rằng phân tán này cho thấy một mối quan hệ tích cực. Việc hút thuốc nhiều hơn các vấn đề sức khỏe nhiều hơn. . Các phân tán cho thấy một mối tương quan khá cao Chúng tôi có một thị phân tán; nhưng câu hỏi là làm thế nào để chúng tôi tìm đường hồi quy tuyến tính? Làm thế nào chúng ta có thể vẽ một đường mà đi càng gần càng tốt để tất cả các điểm trên đồ thị? Regression Dòng mô tả mối quan hệ giữa X và Y. nhỏ r là một số liệu thống kê miêu tả nào có thể tóm tắt các mối quan hệ giữa thuốc lá và các vấn đề sức khỏe trong các dữ liệu này. Bạn đã nghiên cứu mối tương quan và biết làm thế nào để tính toán r. Có một thống kê mô tả được gọi là đường hồi quy. Đường hồi quy là đường thẳng tốt nhất mà chúng ta có thể rút ra thông qua hoặc giữa các điểm trên thị phân tán. Rõ ràng là một đường thẳng không thể kết nối tất cả các dấu chấm bởi vì sau đó bạn sẽ phải trả lên và xuống, lên xuống từ một chấm nhỏ phía sau, và nó sẽ không phải là một đường thẳng. Vì vậy, chúng tôi muốn để có thể vẽ một đường duy nhất mà đến như là gần với tất cả các dấu chấm càng tốt. Least squares tắc. Chúng tôi sẽ phải có một tiêu chí cho những gì chúng tôi có nghĩa là do "gần gũi". Các tiêu chí được gọi là nguyên tắc bình phương tối thiểu. Nhớ lại trở lại discusssion của phương sai. Chúng tôi đã cho thấy cách các ô vuông đúng độ lệch xung quanh giá trị trung bình. Trong hồi quy, chúng tôi sẽ vuông lệch xung quanh đường hồi quy thay vì xung quanh giá trị trung bình. Đường hồi quy phù hợp nhất là các dòng có giá trị nhỏ nhất cho các độ lệch bình phương xung quanh nó, các độ lệch bình phương tối thiểu. Đó là về cơ bản toàn bộ ý tưởng của phương tối thiểu. Nhưng chúng ta sẽ nói về nó sau này nhiều hơn sau khi bạn đã quen thuộc hơn với t
đang được dịch, vui lòng đợi..
