Plotting DataKEY WORDS box plot, box-and-whisker plot, chartjunk, digidot plot, error bars, matrix scatterplot,percentile plot, residual plots, scatterplot, seasonal subseries plot, time series plot.“The most effective statistical techniques for analyzing environmental data are graphical methods. Theyare useful in the initial stage for checking the quality of the data, highlighting interesting features of thedata, and generally suggesting what statistical analyses should be done. Interesting enough, graphicalmethods are useful again after intermediate quantitative analyses have been completed, and again in thefinal stage for providing complete and readily understood summaries of the main findings of investigations(Hunter, 1988).”The first step in data analysis should be to plot the data. Graphing data should be an interactive experimentalprocess (Chatfield, 1988, 1991; Tukey, 1977). Do not expect your first graph to reveal all interesting aspectsof the data. Make a variety of graphs to view the data in different ways. Doing this may:1. reveal the answer so clearly that little more analysis is needed2. point out properties of the data that would invalidate a particular statistical analysis3. reveal that the sample contains unusual observations4. save time in subsequent analyses5. suggest an answer that you had not expected6. keep you from doing something foolishThe time spent making some different plots almost always rewards the effort. Many top-notch statisticiansthích lô dữ liệu bằng tay, tin tưởng rằng việc thể chất của bàn tay kích thích mắt của tâm trí.Cho dù bạn áp dụng phương pháp làm việc này hoặc sử dụng một trong nhiều chương trình máy tính có sẵn, mục tiêu làđể giải trí tưởng tượng của bạn bằng cách thử nhiều hình thức đồ họa. Hãy nhớ rằng một số máy tínhchương trình cung cấp một bộ hạn chế của lô và do đó có thể hạn chế hơn là mở rộng trí tưởng tượng.Làm cho các bản ghi dữ liệu ban đầu một âm mưuBởi vì cách tốt nhất để hiển thị dữ liệu trong một cốt truyện, nó làm cho cảm giác ít để làm cho các bản ghi dữ liệu chínhmột bảng của các giá trị. Thay vào đó, nội dung dữ liệu trực tiếp trên một lô digidot, mà là của Hunter (1988) sáng tạosự kết hợp của một trình tự thời gian âm mưu với một cốt truyện gốc lá (Tukey, 1977) và là cực kỳ hữu íchcho một khiêm tốn có kích thước bộ sưu tập dữ liệu.Biểu đồ được minh họa trong hình 3.1 cho một chuỗi thời gian quan sát 36 giờ (thời gian, trong giờ, làđo từ trái sang phải).30 27 41 38 44 29 43 21 1533 33 28 49 16 22 17 17 2327 32 47 71 46 42 34 34 3444 27 32 28 25 36 22 29 24L1592_frame_C03 trang 25 thứ ba 18 tháng 12, năm 2001 1:41 PM© 2002 bởi báo chí CRC LLCNhư quan sát mỗi đến, nó được đặt như là một dấu chấm trên lô trình tự thời gian và đồng thời ghi lạivới chữ số cuối cùng trên một thân cây và lá. Ví dụ, các quan sát đầu tiên là 30. Các chữ số cuối, mộtbằng 0, được viết trong "rác" giữa các dấu hiệu đánh dấu cho 30 và 35. Như thời gian đi, bin này cũng tích lũycác chữ số cuối của các quan sát có giá trị của 30, 33, 33, 32, 34, 34, 34, và 32. Các nhà phân tíchdo đó tạo ra một bản ghi đầy đủ trực quan của dữ liệu: một màn hình phân phối dữ liệu, một màn hình của cácdữ liệu thời gian lịch sử và một kỷ lục số hoàn chỉnh cho phân tích số học chi tiết sau này.ScatterplotsƯớc tính rằng 75% của đồ thị được sử dụng trong khoa học là scatterplots (Tufte, 1983). Đơn giảnscatterplots thường được thực hiện trước khi bất kỳ phân tích dữ liệu khác được coi là. Những hiểu biết đã đạt được có thể dẫnđể đồ thị thanh lịch và nhiều thông tin hơn, hoặc đề nghị một mô hình đầy hứa hẹn. Mối quan hệ tuyến tính hoặc phi tuyến làdễ dàng nhìn thấy, và vì vậy là outliers hay khác quang sai trong dữ liệu.Việc sử dụng của scatterplots được minh họa với dữ liệu từ một nghiên cứu về cách phốt pho loại bỏ bởi một xử lý nước thảinhà máy xử lý liên quan đến các cấp độ influent của phốt pho, dòng chảy, và các đặc tính khác của nước thải.Các ma trận scatterplots (đôi khi được gọi là của draftsman lô), Hiển thị trong hình 3.2, đã được thực hiện như là một hướng dẫnđể xây dựng các mô hình dự kiến đầu tiên. Không có không có vảy Hiển thị trên các lô bởi vì chúng tôiCon số 3.1 Digidot cốt truyện cho thấy trình tự và phân phối dữ liệu.3.2 con số nhiều hai biến scatterplots của thải trồng dữ liệu.0 10 20 30 4070806050403020100244423301679423416895877897 423217765Thời gianTập trungJones đảo dữ liệu(đăng nhập-chuyển đổi)Quản trị trong quản trị-out SS ở SS-out TP ở TP-outFlow BOD-in BOD-out SS-in SS-out TP-inSP-inTP-out SP-inSP-outL1592_frame_C03 Page 26 Tuesday, December 18, 2001 1:41 PM© 2002 By CRC Press LLClooking for patterns; the numerical levels are unimportant at this stage of work. The computer automaticallyscales each two-variable scatterplot to best fill the available area of the graph. Each paired combinationof the variables is plotted to reveal possible correlations. For example, it is discovered that effluent totalphosphorus (TP-out) is correlated rather strongly with effluent suspended solids (SS-out) and effluent BOD(BOD-out), moderately correlated with flow, BOD-in, and not correlated with SS-in and TP-in. Effluentsoluble phosphorus (SP-out) is correlated only with SP-in and TP-out. These observations provide a startingpoint for model building.The values plotted in Figure 3.2 are logarithms of the original variables. Making this transformationwas advantageous in showing extreme values, and it simplified interpretation by giving linear relationsbetween variables. It is often helpful to use transformations in analyzing environmental data. The logarithmicand other transformations are discussed in Chapter 7.In Search of TrendsFigure 3.3 is a time series plot of 558 pH observations on a small stream in the Smokey Mountains.The data cover the period from mid-1971 to mid-1981, as shown across the top of the plot. Time ismeasured in weeks on the bottom abcissa.Dữ liệu được gửi (trên máy tính băng) đến một cơ quan mà có ý định làm một phân tích xu hướng để đánh giácó thể thay đổi trong chất lượng nước liên quan đến axit mưa. Các dữ liệu đã được vẽ trước khi bất kỳ hồi quiphân tích hoặc thời gian loạt các mô hình được bắt đầu. Âm mưu này không mong đợi để được hữu ích trong Hiển thị một xu hướngbởi vì bất kỳ xu hướng nào được nhỏ (sau đó phân tích chỉ ra rằng đã có xu hướng không có). Mục đíchtrong âm mưu dữ liệu là để tiết lộ bất kỳ đặc thù trong nó.Hai tính năng nổi bật: (1) các pH thấp nhất giá trị được tiến hành năm 1971 – 1974 và (2) các biến thể,đó là lớn sớm trong loạt, giảm khoảng 150 tuần và dường như để làm giảm một lần nữa tạikhoảng 300 tuần. Các quan sát thứ hai nhắc nhở các nhà phân tích dữ liệu để đặt hai câu hỏi. Đã cóbất kỳ hiện tượng tự nhiên để giải thích này mô hình của sự biến đổi? Là có bất cứ điều gì về đo lườngquá trình có thể giải thích nó? Từ này đặt câu hỏi, nó phát hiện ra rằng công cụ khác nhau cóđược sử dụng để đo độ pH. Mét pH ban đầu được thay thế vào đầu năm 1974 với một chi tiếtdụng cụ chính xác, mà là chính nó bị thay thế bởi một mô hình cải tiến vào năm 1976.Sự thay đổi trong phương sai theo thời gian chịu ảnh hưởng phân tích dữ liệu tiếp theo. Ví dụ, nếu bình thườnghồi qui tuyến tính được sử dụng để đánh giá sự tồn tại của một xu hướng, phương sai lớn năm 1971-1973 nàođã đưa ra các dữ liệu đầu nhiều hơn "trọng lượng" hoặc "sức mạnh" trong việc xác định vị trí và độ dốc của xu hướngdòng. Đây không phải là hấp dẫn bởi vì các dữ liệu sau này là chính xác nhất.Sự thất bại để vẽ các dữ liệu ban đầu có thể không có được gây tử vong. Phương sai nonconstant có thể đãphát hiện sau này trong các phân tích, có lẽ do âm mưu lỗi dư (đối với mức trung bình hoặcvới một mô hình được trang bị), nhưng đáng kể sau đó tác phẩm nào đã được đầu tư. Tuy nhiên, tính năng này của cácdữ liệu có thể được bỏ qua bởi vì một nhà phân tích người không bắt đầu bằng cách vẽ các dữ liệu không phải là khả năngcòn lại làm cho lô một trong hai. Nếu vấn đề bỏ qua, một kết luận không đúng được báo cáo.Con số 3.3 thời gian loạt cốt lõi của dữ liệu độ pH được đo trên một dòng suối núi nhỏ.NămTuầnpH8,07,06,05,00 100 200 300 400 50071 72 73 74 75 76 77 78 79 80 81L1592_frame_C03 trang 27 thứ ba 18 tháng 12, năm 2001 1:41 PM© 2002 bởi báo chí CRC LLCCon số 3.4 là một thời gian loạt cốt lõi của một kỷ lục 16 năm hàng tháng trung bình BOD5 nồng độ đo tạimột trong nhiều trạm giám sát ở Fox River, Wisconsin. Đây là một phần của hồ sơ dữ liệu được phân tíchđể đánh giá những cải tiến trong sông do một đầu tư lớn tại các cơ sở kiểm soát ô nhiễm dọc theo điều nàyrất nhiều công nghiệp sông. Các ngư dân trong khu vực biết rằng chất lượng nước có cải thiện, nhưng cải tiếnđã không rõ ràng trong các dữ liệu quản trị hoặc trong thời gian loạt các lô của dữ liệu chất lượng nước khác.Con số 3.5 cho thấy một cách khác để xem xét các dữ liệu tương tự. Đây là một âm mưu subseries theo mùa (Cleveland,1994). The original times series is divided into a time series for each month. (These have unequal numbersof data values because the monitoring was not complete in all years.) The annual time sequence is preservedwithin each subseries. It does appear that BOD5 in the summer months may be decreasing after about themid-1980s.Figure 3.6 is a percentile plot of Fox River BOD5 data. The values plotted at 1977 are percentiles ofmonthly averages of BOD5 concentrations for the 5-year period of 1975–1979. The reason for aggregatingdata over 5-year periods is that a reliable estimate of the 90th percentile cannot be made from just the12 monthly averages from 1975. This plot shows that the median (50th percentile) BOD5 concentrationhas not changed over the period of record, but there has been improvement at the extremes. The highestFIGURE 3.4 Time series plot of BOD5 concentration in the Fox River, Wisconsin.FIGURE 3.5 Seasonal subseries plot of BOD5 concentration in the Fox River, Wisconsin.FIGURE 3.6 Percentile plot of the Fox River BOD5 data.77 78 79 80 81 82 83 84 85 86 92 87 88 89 90 91 0510BOD5 (mg/l)Year0510BOD5 (mg/l)J F M A M J J A S O N DMonthBOD5 (mg/l)12345678Starting Year of 5-year Interval75 80 85 90
đang được dịch, vui lòng đợi..
