Âm mưu dữ liệuTỪ khóa hộp âm mưu, hộp và thác âm mưu, chartjunk, digidot âm mưu, quán bar lỗi, Ma trận scatterplot,âm mưu percentile, dư lô, scatterplot, theo mùa subseries âm mưu, thời gian loạt âm mưu."Các kỹ thuật thống kê hiệu quả nhất cho việc phân tích môi trường dữ liệu là phương pháp đồ họa. Họrất hữu ích trong giai đoạn ban đầu cho việc kiểm tra chất lượng của dữ liệu, làm nổi bật các tính năng thú vị của cácdữ liệu, và nói chung cho thấy những gì phân tích thống kê nên được thực hiện. Thú vị đủ, đồ họaphương pháp là hữu ích một lần nữa sau khi phân tích định lượng trung gian đã được hoàn thành, và một lần nữa trong cácCác giai đoạn cuối cùng để cung cấp đầy đủ và dễ dàng hiểu tóm tắt của những phát hiện chính của điều tra(Hunter, 1988)."Bước đầu tiên trong phân tích dữ liệu nên là lô dữ liệu. Vẽ đồ dữ liệu nên là một tương tác thử nghiệmquá trình (Chatfield, 1988, 1991; Tukey, 1977). Tôi không mong đợi của bạn biểu đồ đầu tiên để tiết lộ tất cả các khía cạnh thú vịdữ liệu. Thực hiện một loạt các đồ thị để xem dữ liệu theo cách khác nhau. Làm điều này có thể:1. tiết lộ câu trả lời như vậy rõ ràng rằng ít hơn phân tích là cần thiết2. chỉ ra các thuộc tính của các dữ liệu mà sẽ làm mất hiệu lực phân tích thống kê cụ thể3. tiết lộ rằng mẫu có chứa không bình thường quan sát4. tiết kiệm thời gian trong các phân tích tiếp theo5. đề nghị một câu trả lời mà bạn đã không mong đợi6. giữ cho bạn khỏi làm điều gì đó ngu siThời gian đã qua sử dụng làm cho một số khác nhau lô hầu như luôn luôn khen thưởng những nỗ lực. Thống kê top-notch nhiềuthích lô dữ liệu bằng tay, tin tưởng rằng việc thể chất của bàn tay kích thích mắt của tâm trí.Cho dù bạn áp dụng phương pháp làm việc này hoặc sử dụng một trong nhiều chương trình máy tính có sẵn, mục tiêu làđể giải trí tưởng tượng của bạn bằng cách thử nhiều hình thức đồ họa. Hãy nhớ rằng một số máy tínhchương trình cung cấp một bộ hạn chế của lô và do đó có thể hạn chế hơn là mở rộng trí tưởng tượng.Làm cho các bản ghi dữ liệu ban đầu một âm mưuBởi vì cách tốt nhất để hiển thị dữ liệu trong một cốt truyện, nó làm cho cảm giác ít để làm cho các bản ghi dữ liệu chínhmột bảng của các giá trị. Thay vào đó, nội dung dữ liệu trực tiếp trên một lô digidot, mà là của Hunter (1988) sáng tạosự kết hợp của một trình tự thời gian âm mưu với một cốt truyện gốc lá (Tukey, 1977) và là cực kỳ hữu íchcho một khiêm tốn có kích thước bộ sưu tập dữ liệu.Biểu đồ được minh họa trong hình 3.1 cho một chuỗi thời gian quan sát 36 giờ (thời gian, trong giờ, làđo từ trái sang phải).30 27 41 38 44 29 43 21 1533 33 28 49 16 22 17 17 2327 32 47 71 46 42 34 34 3444 27 32 28 25 36 22 29 24L1592_frame_C03 trang 25 thứ ba 18 tháng 12, năm 2001 1:41 PM© 2002 bởi báo chí CRC LLCNhư quan sát mỗi đến, nó được đặt như là một dấu chấm trên lô trình tự thời gian và đồng thời ghi lạivới chữ số cuối cùng trên một thân cây và lá. Ví dụ, các quan sát đầu tiên là 30. Các chữ số cuối, mộtbằng 0, được viết trong "rác" giữa các dấu hiệu đánh dấu cho 30 và 35. Như thời gian đi, bin này cũng tích lũythe last digits of observations having the values of 30, 33, 33, 32, 34, 34, 34, and 32. The analystthus generates a complete visual record of the data: a display of the data distribution, a display of thedata time history, and a complete numerical record for later detailed arithmetic analysis.ScatterplotsIt has been estimated that 75% of the graphs used in science are scatterplots (Tufte, 1983). Simplescatterplots are often made before any other data analysis is considered. The insights gained may leadto more elegant and informative graphs, or suggest a promising model. Linear or nonlinear relations areeasily seen, and so are outliers or other aberrations in the data.The use of scatterplots is illustrated with data from a study of how phosphorus removal by a wastewatertreatment plant was related to influent levels of phosphorus, flow, and other characteristics of wastewater.The matrix scatterplots (sometimes called draftsman’s plots), shown in Figure 3.2, were made as a guideto constructing the first tentative models. There are no scales shown on these plots because we areFIGURE 3.1 Digidot plot shows the sequence and distribution of the data.FIGURE 3.2 Multiple two-variable scatterplots of wastewater treatment plant data.0 10 20 30 4070806050403020100244423301679423416895877897 423217765TimeConcentrationJones Island Data(log-transformation)BOD-in BOD-out SS-in SS-out TP-in TP-outFlow BOD-in BOD-out SS-in SS-out TP-inSP-inTP-out SP-inSP-outL1592_frame_C03 Page 26 Tuesday, December 18, 2001 1:41 PM© 2002 By CRC Press LLClooking for patterns; the numerical levels are unimportant at this stage of work. The computer automaticallyscales each two-variable scatterplot to best fill the available area of the graph. Each paired combinationof the variables is plotted to reveal possible correlations. For example, it is discovered that effluent totalphosphorus (TP-out) is correlated rather strongly with effluent suspended solids (SS-out) and effluent BOD(BOD-out), moderately correlated with flow, BOD-in, and not correlated with SS-in and TP-in. Effluentsoluble phosphorus (SP-out) is correlated only with SP-in and TP-out. These observations provide a startingpoint for model building.The values plotted in Figure 3.2 are logarithms of the original variables. Making this transformationwas advantageous in showing extreme values, and it simplified interpretation by giving linear relationsbetween variables. It is often helpful to use transformations in analyzing environmental data. The logarithmicand other transformations are discussed in Chapter 7.In Search of TrendsFigure 3.3 is a time series plot of 558 pH observations on a small stream in the Smokey Mountains.The data cover the period from mid-1971 to mid-1981, as shown across the top of the plot. Time ismeasured in weeks on the bottom abcissa.The data were submitted (on computer tape) to an agency that intended to do a trend analysis to assesspossible changes in water quality related to acid precipitation. The data were plotted before any regressionanalysis or time series modeling was begun. This plot was not expected to be useful in showing a trendbecause any trend would be small (subsequent analysis indicated that there was no trend). The purposeof plotting the data was to reveal any peculiarities in it.Two features stand out: (1) the lowest pH values were observed in 1971–1974 and (2) the variation,which was large early in the series, decreased at about 150 weeks and seemed to decrease again atabout 300 weeks. The second observation prompted the data analyst to ask two questions. Was thereany natural phenomenon to explain this pattern of variability? Is there anything about the measurementprocess that could explain it? From this questioning, it was discovered that different instruments hadbeen used to measure pH. The original pH meter was replaced at the beginning of 1974 with a moreprecise instrument, which was itself replaced by an improved model in 1976.The change in variance over time influenced the subsequent data analysis. For example, if ordinarylinear regression were used to assess the existence of a trend, the large variance in 1971–1973 wouldhave given the early data more “weight” or “strength” in determining the position and slope of the trendline. This is not desirable because the latter data are the most precise.Failure to plot the data initially might not have been fatal. The nonconstant variance might have beendiscovered later in the analysis, perhaps by plotting the residual errors (with respect to the average orto a fitted model), but by then considerable work would have been invested. However, this feature of thedata might be overlooked because an analyst who does not start by plotting the data is not likely tomake residual plots either. If the problem is overlooked, an improper conclusion is reported.FIGURE 3.3 Time series plot of pH data measured on a small mountain stream.YearWeekspH8.07.06.05.00 100 200 300 400 50071 72 73 74 75 76 77 78 79 80 81L1592_frame_C03 Page 27 Tuesday, December 18, 2001 1:41 PM© 2002 By CRC Press LLCFigure 3.4 is a time series plot of a 16-year record of monthly average BOD5 concentrations measured atone of many monitoring stations in the Fox River, Wisconsin. This is part of the data record that was analyzedto assess improvements in the river due to a massive investment in pollution control facilities along thisheavily industrialized river. The fishermen in the area knew that water quality had improved, but improvementwas not apparent in these BOD data or in time series plots of other water quality data.Figure 3.5 shows another way of looking at the same data. This is a seasonal subseries plot (Cleveland,1994). The original times series is divided into a time series for each month. (These have unequal numbers
of data values because the monitoring was not complete in all years.) The annual time sequence is preserved
within each subseries. It does appear that BOD5 in the summer months may be decreasing after about the
mid-1980s.
Figure 3.6 is a percentile plot of Fox River BOD5 data. The values plotted at 1977 are percentiles of
monthly averages of BOD5 concentrations for the 5-year period of 1975–1979. The reason for aggregating
data over 5-year periods is that a reliable estimate of the 90th percentile cannot be made from just the
12 monthly averages from 1975. This plot shows that the median (50th percentile) BOD5 concentration
has not changed over the period of record, but there has been improvement at the extremes. The highest
FIGURE 3.4 Time series plot of BOD5 concentration in the Fox River, Wisconsin.
FIGURE 3.5 Seasonal subseries plot of BOD5 concentration in the Fox River, Wisconsin.
FIGURE 3.6 Percentile plot of the Fox River BOD5 data.
77 78 79 80 81 82 83 84 85 86 92 87 88 89 90 91 0
5
10
BOD5 (mg/l)
Year
0
5
10
BOD5 (mg/l)
J F M A M J J A S O N D
Month
BOD5 (mg/l)
1
2
3
4
5
6
7
8
Starting Year of 5-year Interval
75 80 85 90
đang được dịch, vui lòng đợi..