Âm mưu dữ liệuTỪ khóa hộp âm mưu, hộp và thác âm mưu, chartjunk, digidot âm mưu, quán bar lỗi, Ma trận scatterplot,âm mưu percentile, dư lô, scatterplot, theo mùa subseries âm mưu, thời gian loạt âm mưu."Các kỹ thuật thống kê hiệu quả nhất cho việc phân tích môi trường dữ liệu là phương pháp đồ họa. Họrất hữu ích trong giai đoạn ban đầu cho việc kiểm tra chất lượng của dữ liệu, làm nổi bật các tính năng thú vị của cácdữ liệu, và nói chung cho thấy những gì phân tích thống kê nên được thực hiện. Thú vị đủ, đồ họaphương pháp là hữu ích một lần nữa sau khi phân tích định lượng trung gian đã được hoàn thành, và một lần nữa trong cácCác giai đoạn cuối cùng để cung cấp đầy đủ và dễ dàng hiểu tóm tắt của những phát hiện chính của điều tra(Hunter, 1988)."Bước đầu tiên trong phân tích dữ liệu nên là lô dữ liệu. Vẽ đồ dữ liệu nên là một tương tác thử nghiệmquá trình (Chatfield, 1988, 1991; Tukey, 1977). Tôi không mong đợi của bạn biểu đồ đầu tiên để tiết lộ tất cả các khía cạnh thú vịdữ liệu. Thực hiện một loạt các đồ thị để xem dữ liệu theo cách khác nhau. Làm điều này có thể:1. tiết lộ câu trả lời như vậy rõ ràng rằng ít hơn phân tích là cần thiết2. chỉ ra các thuộc tính của các dữ liệu mà sẽ làm mất hiệu lực phân tích thống kê cụ thể3. tiết lộ rằng mẫu có chứa không bình thường quan sát4. tiết kiệm thời gian trong các phân tích tiếp theo5. đề nghị một câu trả lời mà bạn đã không mong đợi6. giữ cho bạn khỏi làm điều gì đó ngu siThời gian đã qua sử dụng làm cho một số khác nhau lô hầu như luôn luôn khen thưởng những nỗ lực. Thống kê top-notch nhiềuthích lô dữ liệu bằng tay, tin tưởng rằng việc thể chất của bàn tay kích thích mắt của tâm trí.Cho dù bạn áp dụng phương pháp làm việc này hoặc sử dụng một trong nhiều chương trình máy tính có sẵn, mục tiêu làđể giải trí tưởng tượng của bạn bằng cách thử nhiều hình thức đồ họa. Hãy nhớ rằng một số máy tínhchương trình cung cấp một bộ hạn chế của lô và do đó có thể hạn chế hơn là mở rộng trí tưởng tượng.Làm cho các bản ghi dữ liệu ban đầu một âm mưuBởi vì cách tốt nhất để hiển thị dữ liệu trong một cốt truyện, nó làm cho cảm giác ít để làm cho các bản ghi dữ liệu chínhmột bảng của các giá trị. Thay vào đó, nội dung dữ liệu trực tiếp trên một lô digidot, mà là của Hunter (1988) sáng tạosự kết hợp của một trình tự thời gian âm mưu với một cốt truyện gốc lá (Tukey, 1977) và là cực kỳ hữu íchcho một khiêm tốn có kích thước bộ sưu tập dữ liệu.Biểu đồ được minh họa trong hình 3.1 cho một chuỗi thời gian quan sát 36 giờ (thời gian, trong giờ, làđo từ trái sang phải).30 27 41 38 44 29 43 21 1533 33 28 49 16 22 17 17 2327 32 47 71 46 42 34 34 3444 27 32 28 25 36 22 29 24L1592_frame_C03 trang 25 thứ ba 18 tháng 12, năm 2001 1:41 PM© 2002 bởi báo chí CRC LLCNhư quan sát mỗi đến, nó được đặt như là một dấu chấm trên lô trình tự thời gian và đồng thời ghi lạivới chữ số cuối cùng trên một thân cây và lá. Ví dụ, các quan sát đầu tiên là 30. Các chữ số cuối, mộtbằng 0, được viết trong "rác" giữa các dấu hiệu đánh dấu cho 30 và 35. Như thời gian đi, bin này cũng tích lũycác chữ số cuối của các quan sát có giá trị của 30, 33, 33, 32, 34, 34, 34, và 32. Các nhà phân tíchdo đó tạo ra một bản ghi đầy đủ trực quan của dữ liệu: một màn hình phân phối dữ liệu, một màn hình của cácdữ liệu thời gian lịch sử và một kỷ lục số hoàn chỉnh cho phân tích số học chi tiết sau này.ScatterplotsƯớc tính rằng 75% của đồ thị được sử dụng trong khoa học là scatterplots (Tufte, 1983). Đơn giảnscatterplots thường được thực hiện trước khi bất kỳ phân tích dữ liệu khác được coi là. Những hiểu biết đã đạt được có thể dẫnđể đồ thị thanh lịch và nhiều thông tin hơn, hoặc đề nghị một mô hình đầy hứa hẹn. Mối quan hệ tuyến tính hoặc phi tuyến làdễ dàng nhìn thấy, và vì vậy là outliers hay khác quang sai trong dữ liệu.Việc sử dụng của scatterplots được minh họa với dữ liệu từ một nghiên cứu về cách phốt pho loại bỏ bởi một xử lý nước thảinhà máy xử lý liên quan đến các cấp độ influent của phốt pho, dòng chảy, và các đặc tính khác của nước thải.Các ma trận scatterplots (đôi khi được gọi là của draftsman lô), Hiển thị trong hình 3.2, đã được thực hiện như là một hướng dẫnđể xây dựng các mô hình dự kiến đầu tiên. Không có không có vảy Hiển thị trên các lô bởi vì chúng tôiCon số 3.1 Digidot cốt truyện cho thấy trình tự và phân phối dữ liệu.3.2 con số nhiều hai biến scatterplots của thải trồng dữ liệu.0 10 20 30 4070806050403020100244423301679423416895877897 423217765Thời gianTập trungJones đảo dữ liệu(đăng nhập-chuyển đổi)Quản trị trong quản trị-out SS ở SS-out TP ở TP-outDòng chảy quản trị trong quản trị-out SS-in SS-out TP trongSP-inTP-out SP-inSP-outL1592_frame_C03 trang 26 thứ ba 18 tháng 12, năm 2001 1:41 PM© 2002 bởi báo chí CRC LLCTìm kiếm mô hình; cấp số là không quan trọng ở giai đoạn này của công việc. Máy tính tự độngquy mô mỗi scatterplot hai biến để tốt nhất điền vào khu vực có sẵn của đồ thị. Mỗi tổ hợp ghép nốicủa các biến âm mưu để lộ mối tương quan có thể. Ví dụ, nó được phát hiện ra rằng tổng số thảiphốt pho (TP-out) tương quan khá mạnh mẽ với các chất rắn bị đình chỉ thải (SS-out) và nước thải BOD(Quản trị-out), vừa phải tương quan với dòng chảy, quản trị trong, và không tương quan với SS-in và phun ra TP-inhòa tan phốtpho (SP-out) tương quan chỉ với SP-in và TP-out. Những quan sát này cung cấp một bắt đầuchỉ cho xây dựng mô hình.Các giá trị âm mưu trong hình 3.2 là logarit của các biến ban đầu. Thực hiện chuyển đổi nàyđược thuận lợi trong Hiển thị giá trị cực, và nó đơn giản hóa giải thích bằng cách cho mối quan hệ tuyến tínhgiữa các biến. Nó thường là hữu ích để sử dụng các biến đổi trong việc phân tích môi trường dữ liệu. Các hàm lôgaritvà biến đổi khác được thảo luận trong chương 7.Trong tìm kiếm của xu hướngCon số 3.3 là một âm mưu loạt thời gian 558 pH quan sát trên một con suối nhỏ trong dãy núi Smokey.Các dữ liệu bao gồm giai đoạn từ giữa năm 1971 đến giữa năm 1981, như được hiển thị trên đầu trang của cốt truyện. Thời gian làđo trong tuần trên dưới cùng abcissa.Dữ liệu được gửi (trên máy tính băng) đến một cơ quan mà có ý định làm một phân tích xu hướng để đánh giácó thể thay đổi trong chất lượng nước liên quan đến axit mưa. Các dữ liệu đã được vẽ trước khi bất kỳ hồi quiphân tích hoặc thời gian loạt các mô hình được bắt đầu. Âm mưu này không mong đợi để được hữu ích trong Hiển thị một xu hướngbởi vì bất kỳ xu hướng nào được nhỏ (sau đó phân tích chỉ ra rằng đã có xu hướng không có). Mục đíchtrong âm mưu dữ liệu là để tiết lộ bất kỳ đặc thù trong nó.Hai tính năng nổi bật: (1) các pH thấp nhất giá trị được tiến hành năm 1971 – 1974 và (2) các biến thể,đó là lớn sớm trong loạt, giảm khoảng 150 tuần và dường như để làm giảm một lần nữa tạikhoảng 300 tuần. Các quan sát thứ hai nhắc nhở các nhà phân tích dữ liệu để đặt hai câu hỏi. Đã cóbất kỳ hiện tượng tự nhiên để giải thích này mô hình của sự biến đổi? Là có bất cứ điều gì về đo lườngquá trình có thể giải thích nó? Từ này đặt câu hỏi, nó phát hiện ra rằng công cụ khác nhau cóđược sử dụng để đo độ pH. Mét pH ban đầu được thay thế vào đầu năm 1974 với một chi tiếtdụng cụ chính xác, mà là chính nó bị thay thế bởi một mô hình cải tiến vào năm 1976.Sự thay đổi trong phương sai theo thời gian chịu ảnh hưởng phân tích dữ liệu tiếp theo. Ví dụ, nếu bình thườnghồi qui tuyến tính được sử dụng để đánh giá sự tồn tại của một xu hướng, phương sai lớn năm 1971-1973 nàođã đưa ra các dữ liệu đầu nhiều hơn "trọng lượng" hoặc "sức mạnh" trong việc xác định vị trí và độ dốc của xu hướngdòng. Đây không phải là hấp dẫn bởi vì các dữ liệu sau này là chính xác nhất.Sự thất bại để vẽ các dữ liệu ban đầu có thể không có được gây tử vong. Phương sai nonconstant có thể đãphát hiện sau này trong các phân tích, có lẽ do âm mưu lỗi dư (đối với mức trung bình hoặcvới một mô hình được trang bị), nhưng đáng kể sau đó tác phẩm nào đã được đầu tư. Tuy nhiên, tính năng này của cácdữ liệu có thể được bỏ qua bởi vì một nhà phân tích người không bắt đầu bằng cách vẽ các dữ liệu không phải là khả năngcòn lại làm cho lô một trong hai. Nếu vấn đề bỏ qua, một kết luận không đúng được báo cáo.Con số 3.3 thời gian loạt cốt lõi của dữ liệu độ pH được đo trên một dòng suối núi nhỏ.NămTuầnpH8,07,06,05,00 100 200 300 400 50071 72 73 74 75 76 77 78 79 80 81L1592_frame_C03 trang 27 thứ ba 18 tháng 12, năm 2001 1:41 PM© 2002 bởi báo chí CRC LLCCon số 3.4 là một thời gian loạt cốt lõi của một kỷ lục 16 năm hàng tháng trung bình BOD5 nồng độ đo tạimột trong nhiều trạm giám sát ở Fox River, Wisconsin. Đây là một phần của hồ sơ dữ liệu được phân tíchđể đánh giá những cải tiến trong sông do một đầu tư lớn tại các cơ sở kiểm soát ô nhiễm dọc theo điều nàyrất nhiều công nghiệp sông. Các ngư dân trong khu vực biết rằng chất lượng nước có cải thiện, nhưng cải tiếnđã không rõ ràng trong các dữ liệu quản trị hoặc trong thời gian loạt các lô của dữ liệu chất lượng nước khác.Con số 3.5 cho thấy một cách khác để xem xét các dữ liệu tương tự. Đây là một âm mưu subseries theo mùa (Cleveland,1994). The original times series is divided into a time series for each month. (These have unequal numbersof data values because the monitoring was not complete in all years.) The annual time sequence is preservedwithin each subseries. It does appear that BOD5 in the summer months may be decreasing after about themid-1980s.Figure 3.6 is a percentile plot of Fox River BOD5 data. The values plotted at 1977 are percentiles ofmonthly averages of BOD5 concentrations for the 5-year period of 1975–1979. The reason for aggregatingdata over 5-year periods is that a reliable estimate of the 90th percentile cannot be made from just the12 monthly averages from 1975. This plot shows that the median (50th percentile) BOD5 concentrationhas not changed over the period of record, but there has been improvement at the extremes. The highestFIGURE 3.4 Time series plot of BOD5 concentration in the Fox River, Wisconsin.FIGURE 3.5 Seasonal subseries plot of BOD5 concentration in the Fox River, Wisconsin.FIGURE 3.6 Percentile plot of the Fox River BOD5 data.77 78 79 80 81 82 83 84 85 86 92 87 88 89 90 91 0510BOD5 (mg/l)Year0510BOD5 (mg/l)J F M A M J J A S O N DMonthBOD5 (mg/l)12345678Starting Year of 5-year Interval75 80 85 90
đang được dịch, vui lòng đợi..