Plotting DataKEY WORDS box plot, bo

Plotting Data
KEY WORDS box plot, box-and-whisker plot, chartjunk, digidot plot, error bars, matrix scatterplot,
percentile plot, residual plots, scatterplot, seasonal subseries plot, time series plot.
“The most effective statistical techniques for analyzing environmental data are graphical methods. They
are useful in the initial stage for checking the quality of the data, highlighting interesting features of the
data, and generally suggesting what statistical analyses should be done. Interesting enough, graphical
methods are useful again after intermediate quantitative analyses have been completed, and again in the
final stage for providing complete and readily understood summaries of the main findings of investigations
(Hunter, 1988).”
The first step in data analysis should be to plot the data. Graphing data should be an interactive experimental
process (Chatfield, 1988, 1991; Tukey, 1977). Do not expect your first graph to reveal all interesting aspects
of the data. Make a variety of graphs to view the data in different ways. Doing this may:
1. reveal the answer so clearly that little more analysis is needed
2. point out properties of the data that would invalidate a particular statistical analysis
3. reveal that the sample contains unusual observations
4. save time in subsequent analyses
5. suggest an answer that you had not expected
6. keep you from doing something foolish
The time spent making some different plots almost always rewards the effort. Many top-notch statisticians
like to plot data by hand, believing that the physical work of the hand stimulates the mind’s eye.
Whether you adopt this work method or use one of the many available computer programs, the goal is
to free your imagination by trying a variety of graphical forms. Keep in mind that some computer
programs offer a restricted set of plots and thus could limit rather than expand the imagination.
Make the Original Data Record a Plot
Because the best way to display data is in a plot, it makes little sense to make the primary data record
a table of values. Instead, plot the data directly on a digidot plot, which is Hunter’s (1988) innovative
combination of a time-sequence plot with a stem-and-leaf plot (Tukey, 1977) and is extremely useful
for a modest-sized collection of data.
The graph is illustrated in Figure 3.1 for a time series of 36 hourly observations (time, in hours, is
measured from left to right).
30 27 41 38 44 29 43 21 15
33 33 28 49 16 22 17 17 23
27 32 47 71 46 42 34 34 34
44 27 32 28 25 36 22 29 24
L1592_frame_C03 Page 25 Tuesday, December 18, 2001 1:41 PM
© 2002 By CRC Press LLC
As each observation arrives, it is placed as a dot on the time-sequence plot and simultaneously recorded
with its final digit on a stem-and-leaf plot. For example, the first observation was 30. The last digit, a
zero, is written in the “bin” between the tick marks for 30 and 35. As time goes on, this bin also accumulates
the last digits of observations having the values of 30, 33, 33, 32, 34, 34, 34, and 32. The analyst
thus generates a complete visual record of the data: a display of the data distribution, a display of the
data time history, and a complete numerical record for later detailed arithmetic analysis.
Scatterplots
It has been estimated that 75% of the graphs used in science are scatterplots (Tufte, 1983). Simple
scatterplots are often made before any other data analysis is considered. The insights gained may lead
to more elegant and informative graphs, or suggest a promising model. Linear or nonlinear relations are
easily seen, and so are outliers or other aberrations in the data.
The use of scatterplots is illustrated with data from a study of how phosphorus removal by a wastewater
treatment plant was related to influent levels of phosphorus, flow, and other characteristics of wastewater.
The matrix scatterplots (sometimes called draftsman’s plots), shown in Figure 3.2, were made as a guide
to constructing the first tentative models. There are no scales shown on these plots because we are
FIGURE 3.1 Digidot plot shows the sequence and distribution of the data.
FIGURE 3.2 Multiple two-variable scatterplots of wastewater treatment plant data.
0 10 20 30 40
70
80
60
50
40
30
20
10
0
24442330
1
679
42341
68
95877897 42321
7765
Time
Concentration
Jones Island Data
(log-transformation)
BOD-in BOD-out SS-in SS-out TP-in TP-out
Flow BOD-in BOD-out SS-in SS-out TP-in
SP-in
TP-out SP-in
SP-out
L1592_frame_C03 Page 26 Tuesday, December 18, 2001 1:41 PM
© 2002 By CRC Press LLC
looking for patterns; the numerical levels are unimportant at this stage of work. The computer automatically
scales each two-variable scatterplot to best fill the available area of the graph. Each paired combination
of the variables is plotted to reveal possible correlations. For example, it is discovered that effluent total
phosphorus (TP-out) is correlated rather strongly with effluent suspended solids (SS-out) and effluent BOD
(BOD-out), moderately correlated with flow, BOD-in, and not correlated with SS-in and TP-in. Effluent
soluble phosphorus (SP-out) is correlated only with SP-in and TP-out. These observations provide a starting
point for model building.
The values plotted in Figure 3.2 are logarithms of the original variables. Making this transformation
was advantageous in showing extreme values, and it simplified interpretation by giving linear relations
between variables. It is often helpful to use transformations in analyzing environmental data. The logarithmic
and other transformations are discussed in Chapter 7.
In Search of Trends
Figure 3.3 is a time series plot of 558 pH observations on a small stream in the Smokey Mountains.
The data cover the period from mid-1971 to mid-1981, as shown across the top of the plot. Time is
measured in weeks on the bottom abcissa.
The data were submitted (on computer tape) to an agency that intended to do a trend analysis to assess
possible changes in water quality related to acid precipitation. The data were plotted before any regression
analysis or time series modeling was begun. This plot was not expected to be useful in showing a trend
because any trend would be small (subsequent analysis indicated that there was no trend). The purpose
of plotting the data was to reveal any peculiarities in it.
Two features stand out: (1) the lowest pH values were observed in 1971–1974 and (2) the variation,
which was large early in the series, decreased at about 150 weeks and seemed to decrease again at
about 300 weeks. The second observation prompted the data analyst to ask two questions. Was there
any natural phenomenon to explain this pattern of variability? Is there anything about the measurement
process that could explain it? From this questioning, it was discovered that different instruments had
been used to measure pH. The original pH meter was replaced at the beginning of 1974 with a more
precise instrument, which was itself replaced by an improved model in 1976.
The change in variance over time influenced the subsequent data analysis. For example, if ordinary
linear regression were used to assess the existence of a trend, the large variance in 1971–1973 would
have given the early data more “weight” or “strength” in determining the position and slope of the trend
line. This is not desirable because the latter data are the most precise.
Failure to plot the data initially might not have been fatal. The nonconstant variance might have been
discovered later in the analysis, perhaps by plotting the residual errors (with respect to the average or
to a fitted model), but by then considerable work would have been invested. However, this feature of the
data might be overlooked because an analyst who does not start by plotting the data is not likely to
make residual plots either. If the problem is overlooked, an improper conclusion is reported.
FIGURE 3.3 Time series plot of pH data measured on a small mountain stream.
Year
Weeks
pH
8.0
7.0
6.0
5.0
0 100 200 300 400 500
71 72 73 74 75 76 77 78 79 80 81
L1592_frame_C03 Page 27 Tuesday, December 18, 2001 1:41 PM
© 2002 By CRC Press LLC
Figure 3.4 is a time series plot of a 16-year record of monthly average BOD5 concentrations measured at
one of many monitoring stations in the Fox River, Wisconsin. This is part of the data record that was analyzed
to assess improvements in the river due to a massive investment in pollution control facilities along this
heavily industrialized river. The fishermen in the area knew that water quality had improved, but improvement
was not apparent in these BOD data or in time series plots of other water quality data.
Figure 3.5 shows another way of looking at the same data. This is a seasonal subseries plot (Cleveland,
1994). The original times series is divided into a time series for each month. (These have unequal numbers
of data values because the monitoring was not complete in all years.) The annual time sequence is preserved
within each subseries. It does appear that BOD5 in the summer months may be decreasing after about the
mid-1980s.
Figure 3.6 is a percentile plot of Fox River BOD5 data. The values plotted at 1977 are percentiles of
monthly averages of BOD5 concentrations for the 5-year period of 1975–1979. The reason for aggregating
data over 5-year periods is that a reliable estimate of the 90th percentile cannot be made from just the
12 monthly averages from 1975. This plot shows that the median (50th percentile) BOD5 concentration
has not changed over the period of record, but there has been improvement at the extremes. The highest
FIGURE 3.4 Time series plot of BOD5 concentration in the Fox River, Wisconsin.
FIGURE 3.5 Seasonal subseries plot of BOD5 concentration in the Fox River, Wisconsin.
FIGURE 3.6 Percentile plot of the Fox River BOD5 data.
77 78 79 80 81 82 83 84 85 86 92 87 88 89 90 91 0
5
10
BOD5 (mg/l)
Year
0
5
10
BOD5 (mg/l)
J F M A M J J A S O N D
Month
BOD5 (mg/l)
1
2
3
4
5
6
7
8
Starting Year of 5-year Interval
75 80 85 90

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Âm mưu dữ liệuTỪ khóa hộp âm mưu, hộp và thác âm mưu, chartjunk, digidot âm mưu, quán bar lỗi, Ma trận scatterplot,âm mưu percentile, dư lô, scatterplot, theo mùa subseries âm mưu, thời gian loạt âm mưu."Các kỹ thuật thống kê hiệu quả nhất cho việc phân tích môi trường dữ liệu là phương pháp đồ họa. Họrất hữu ích trong giai đoạn ban đầu cho việc kiểm tra chất lượng của dữ liệu, làm nổi bật các tính năng thú vị của cácdữ liệu, và nói chung cho thấy những gì phân tích thống kê nên được thực hiện. Thú vị đủ, đồ họaphương pháp là hữu ích một lần nữa sau khi phân tích định lượng trung gian đã được hoàn thành, và một lần nữa trong cácCác giai đoạn cuối cùng để cung cấp đầy đủ và dễ dàng hiểu tóm tắt của những phát hiện chính của điều tra(Hunter, 1988)."Bước đầu tiên trong phân tích dữ liệu nên là lô dữ liệu. Vẽ đồ dữ liệu nên là một tương tác thử nghiệmquá trình (Chatfield, 1988, 1991; Tukey, 1977). Tôi không mong đợi của bạn biểu đồ đầu tiên để tiết lộ tất cả các khía cạnh thú vịdữ liệu. Thực hiện một loạt các đồ thị để xem dữ liệu theo cách khác nhau. Làm điều này có thể:1. tiết lộ câu trả lời như vậy rõ ràng rằng ít hơn phân tích là cần thiết2. chỉ ra các thuộc tính của các dữ liệu mà sẽ làm mất hiệu lực phân tích thống kê cụ thể3. tiết lộ rằng mẫu có chứa không bình thường quan sát4. tiết kiệm thời gian trong các phân tích tiếp theo5. đề nghị một câu trả lời mà bạn đã không mong đợi6. giữ cho bạn khỏi làm điều gì đó ngu siThời gian đã qua sử dụng làm cho một số khác nhau lô hầu như luôn luôn khen thưởng những nỗ lực. Thống kê top-notch nhiềuthích lô dữ liệu bằng tay, tin tưởng rằng việc thể chất của bàn tay kích thích mắt của tâm trí.Cho dù bạn áp dụng phương pháp làm việc này hoặc sử dụng một trong nhiều chương trình máy tính có sẵn, mục tiêu làđể giải trí tưởng tượng của bạn bằng cách thử nhiều hình thức đồ họa. Hãy nhớ rằng một số máy tínhchương trình cung cấp một bộ hạn chế của lô và do đó có thể hạn chế hơn là mở rộng trí tưởng tượng.Làm cho các bản ghi dữ liệu ban đầu một âm mưuBởi vì cách tốt nhất để hiển thị dữ liệu trong một cốt truyện, nó làm cho cảm giác ít để làm cho các bản ghi dữ liệu chínhmột bảng của các giá trị. Thay vào đó, nội dung dữ liệu trực tiếp trên một lô digidot, mà là của Hunter (1988) sáng tạosự kết hợp của một trình tự thời gian âm mưu với một cốt truyện gốc lá (Tukey, 1977) và là cực kỳ hữu íchcho một khiêm tốn có kích thước bộ sưu tập dữ liệu.Biểu đồ được minh họa trong hình 3.1 cho một chuỗi thời gian quan sát 36 giờ (thời gian, trong giờ, làđo từ trái sang phải).30 27 41 38 44 29 43 21 1533 33 28 49 16 22 17 17 2327 32 47 71 46 42 34 34 3444 27 32 28 25 36 22 29 24L1592_frame_C03 trang 25 thứ ba 18 tháng 12, năm 2001 1:41 PM© 2002 bởi báo chí CRC LLCNhư quan sát mỗi đến, nó được đặt như là một dấu chấm trên lô trình tự thời gian và đồng thời ghi lạivới chữ số cuối cùng trên một thân cây và lá. Ví dụ, các quan sát đầu tiên là 30. Các chữ số cuối, mộtbằng 0, được viết trong "rác" giữa các dấu hiệu đánh dấu cho 30 và 35. Như thời gian đi, bin này cũng tích lũycác chữ số cuối của các quan sát có giá trị của 30, 33, 33, 32, 34, 34, 34, và 32. Các nhà phân tíchdo đó tạo ra một bản ghi đầy đủ trực quan của dữ liệu: một màn hình phân phối dữ liệu, một màn hình của cácdữ liệu thời gian lịch sử và một kỷ lục số hoàn chỉnh cho phân tích số học chi tiết sau này.ScatterplotsƯớc tính rằng 75% của đồ thị được sử dụng trong khoa học là scatterplots (Tufte, 1983). Đơn giảnscatterplots thường được thực hiện trước khi bất kỳ phân tích dữ liệu khác được coi là. Những hiểu biết đã đạt được có thể dẫnđể đồ thị thanh lịch và nhiều thông tin hơn, hoặc đề nghị một mô hình đầy hứa hẹn. Mối quan hệ tuyến tính hoặc phi tuyến làdễ dàng nhìn thấy, và vì vậy là outliers hay khác quang sai trong dữ liệu.Việc sử dụng của scatterplots được minh họa với dữ liệu từ một nghiên cứu về cách phốt pho loại bỏ bởi một xử lý nước thảinhà máy xử lý liên quan đến các cấp độ influent của phốt pho, dòng chảy, và các đặc tính khác của nước thải.Các ma trận scatterplots (đôi khi được gọi là của draftsman lô), Hiển thị trong hình 3.2, đã được thực hiện như là một hướng dẫnđể xây dựng các mô hình dự kiến đầu tiên. Không có không có vảy Hiển thị trên các lô bởi vì chúng tôiCon số 3.1 Digidot cốt truyện cho thấy trình tự và phân phối dữ liệu.3.2 con số nhiều hai biến scatterplots của thải trồng dữ liệu.0 10 20 30 4070806050403020100244423301679423416895877897 423217765Thời gianTập trungJones đảo dữ liệu(đăng nhập-chuyển đổi)Quản trị trong quản trị-out SS ở SS-out TP ở TP-outDòng chảy quản trị trong quản trị-out SS-in SS-out TP trongSP-inTP-out SP-inSP-outL1592_frame_C03 trang 26 thứ ba 18 tháng 12, năm 2001 1:41 PM© 2002 bởi báo chí CRC LLCTìm kiếm mô hình; cấp số là không quan trọng ở giai đoạn này của công việc. Máy tính tự độngquy mô mỗi scatterplot hai biến để tốt nhất điền vào khu vực có sẵn của đồ thị. Mỗi tổ hợp ghép nốicủa các biến âm mưu để lộ mối tương quan có thể. Ví dụ, nó được phát hiện ra rằng tổng số thảiphốt pho (TP-out) tương quan khá mạnh mẽ với các chất rắn bị đình chỉ thải (SS-out) và nước thải BOD(Quản trị-out), vừa phải tương quan với dòng chảy, quản trị trong, và không tương quan với SS-in và phun ra TP-inhòa tan phốtpho (SP-out) tương quan chỉ với SP-in và TP-out. Những quan sát này cung cấp một bắt đầuchỉ cho xây dựng mô hình.Các giá trị âm mưu trong hình 3.2 là logarit của các biến ban đầu. Thực hiện chuyển đổi nàyđược thuận lợi trong Hiển thị giá trị cực, và nó đơn giản hóa giải thích bằng cách cho mối quan hệ tuyến tínhgiữa các biến. Nó thường là hữu ích để sử dụng các biến đổi trong việc phân tích môi trường dữ liệu. Các hàm lôgaritvà biến đổi khác được thảo luận trong chương 7.Trong tìm kiếm của xu hướngCon số 3.3 là một âm mưu loạt thời gian 558 pH quan sát trên một con suối nhỏ trong dãy núi Smokey.Các dữ liệu bao gồm giai đoạn từ giữa năm 1971 đến giữa năm 1981, như được hiển thị trên đầu trang của cốt truyện. Thời gian làđo trong tuần trên dưới cùng abcissa.Dữ liệu được gửi (trên máy tính băng) đến một cơ quan mà có ý định làm một phân tích xu hướng để đánh giácó thể thay đổi trong chất lượng nước liên quan đến axit mưa. Các dữ liệu đã được vẽ trước khi bất kỳ hồi quiphân tích hoặc thời gian loạt các mô hình được bắt đầu. Âm mưu này không mong đợi để được hữu ích trong Hiển thị một xu hướngbởi vì bất kỳ xu hướng nào được nhỏ (sau đó phân tích chỉ ra rằng đã có xu hướng không có). Mục đíchtrong âm mưu dữ liệu là để tiết lộ bất kỳ đặc thù trong nó.Hai tính năng nổi bật: (1) các pH thấp nhất giá trị được tiến hành năm 1971 – 1974 và (2) các biến thể,đó là lớn sớm trong loạt, giảm khoảng 150 tuần và dường như để làm giảm một lần nữa tạikhoảng 300 tuần. Các quan sát thứ hai nhắc nhở các nhà phân tích dữ liệu để đặt hai câu hỏi. Đã cóbất kỳ hiện tượng tự nhiên để giải thích này mô hình của sự biến đổi? Là có bất cứ điều gì về đo lườngquá trình có thể giải thích nó? Từ này đặt câu hỏi, nó phát hiện ra rằng công cụ khác nhau cóđược sử dụng để đo độ pH. Mét pH ban đầu được thay thế vào đầu năm 1974 với một chi tiếtdụng cụ chính xác, mà là chính nó bị thay thế bởi một mô hình cải tiến vào năm 1976.Sự thay đổi trong phương sai theo thời gian chịu ảnh hưởng phân tích dữ liệu tiếp theo. Ví dụ, nếu bình thườnghồi qui tuyến tính được sử dụng để đánh giá sự tồn tại của một xu hướng, phương sai lớn năm 1971-1973 nàođã đưa ra các dữ liệu đầu nhiều hơn "trọng lượng" hoặc "sức mạnh" trong việc xác định vị trí và độ dốc của xu hướngdòng. Đây không phải là hấp dẫn bởi vì các dữ liệu sau này là chính xác nhất.Sự thất bại để vẽ các dữ liệu ban đầu có thể không có được gây tử vong. Phương sai nonconstant có thể đãphát hiện sau này trong các phân tích, có lẽ do âm mưu lỗi dư (đối với mức trung bình hoặcvới một mô hình được trang bị), nhưng đáng kể sau đó tác phẩm nào đã được đầu tư. Tuy nhiên, tính năng này của cácdữ liệu có thể được bỏ qua bởi vì một nhà phân tích người không bắt đầu bằng cách vẽ các dữ liệu không phải là khả năngcòn lại làm cho lô một trong hai. Nếu vấn đề bỏ qua, một kết luận không đúng được báo cáo.Con số 3.3 thời gian loạt cốt lõi của dữ liệu độ pH được đo trên một dòng suối núi nhỏ.NămTuầnpH8,07,06,05,00 100 200 300 400 50071 72 73 74 75 76 77 78 79 80 81L1592_frame_C03 trang 27 thứ ba 18 tháng 12, năm 2001 1:41 PM© 2002 bởi báo chí CRC LLCCon số 3.4 là một thời gian loạt cốt lõi của một kỷ lục 16 năm hàng tháng trung bình BOD5 nồng độ đo tạimột trong nhiều trạm giám sát ở Fox River, Wisconsin. Đây là một phần của hồ sơ dữ liệu được phân tíchđể đánh giá những cải tiến trong sông do một đầu tư lớn tại các cơ sở kiểm soát ô nhiễm dọc theo điều nàyrất nhiều công nghiệp sông. Các ngư dân trong khu vực biết rằng chất lượng nước có cải thiện, nhưng cải tiếnđã không rõ ràng trong các dữ liệu quản trị hoặc trong thời gian loạt các lô của dữ liệu chất lượng nước khác.Con số 3.5 cho thấy một cách khác để xem xét các dữ liệu tương tự. Đây là một âm mưu subseries theo mùa (Cleveland,1994). The original times series is divided into a time series for each month. (These have unequal numbersof data values because the monitoring was not complete in all years.) The annual time sequence is preservedwithin each subseries. It does appear that BOD5 in the summer months may be decreasing after about themid-1980s.Figure 3.6 is a percentile plot of Fox River BOD5 data. The values plotted at 1977 are percentiles ofmonthly averages of BOD5 concentrations for the 5-year period of 1975–1979. The reason for aggregatingdata over 5-year periods is that a reliable estimate of the 90th percentile cannot be made from just the12 monthly averages from 1975. This plot shows that the median (50th percentile) BOD5 concentrationhas not changed over the period of record, but there has been improvement at the extremes. The highestFIGURE 3.4 Time series plot of BOD5 concentration in the Fox River, Wisconsin.FIGURE 3.5 Seasonal subseries plot of BOD5 concentration in the Fox River, Wisconsin.FIGURE 3.6 Percentile plot of the Fox River BOD5 data.77 78 79 80 81 82 83 84 85 86 92 87 88 89 90 91 0510BOD5 (mg/l)Year0510BOD5 (mg/l)J F M A M J J A S O N DMonthBOD5 (mg/l)12345678Starting Year of 5-year Interval75 80 85 90

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Vẽ liệu
WORDS KEY lô hộp, đồ hộp và râu ria, chartjunk, cốt truyện digidot, thanh lỗi, ma trận phân tán,
cốt truyện bách, các ô còn lại, phân tán, theo mùa subseries cốt truyện, chuỗi thời gian cốt truyện.
"Các kỹ thuật thống kê hiệu quả nhất cho việc phân tích môi trường dữ liệu là phương pháp đồ họa. Họ
là hữu ích trong giai đoạn ban đầu để kiểm tra chất lượng của dữ liệu, làm nổi bật các tính năng thú vị của
dữ liệu, và nói chung cho thấy những gì các phân tích thống kê cần được thực hiện. Thú vị đủ, đồ họa
phương pháp này là hữu ích nữa sau khi phân tích định lượng trung gian đã được hoàn thành, và một lần nữa trong
giai đoạn cuối cùng cho việc cung cấp tóm tắt đầy đủ và dễ hiểu của các kết quả chính của cuộc điều tra
(Hunter, 1988).
"Bước đầu tiên trong phân tích dữ liệu cần được để âm mưu dữ liệu. Dữ liệu đồ họa nên một tương tác thực nghiệm
quá trình (Chatfield, 1988, 1991; Tukey, 1977). Đừng nghĩ rằng đồ thị đầu tiên của bạn để tiết lộ tất cả các khía cạnh thú vị
của dữ liệu. Thực hiện một loạt các đồ thị để xem các dữ liệu theo những cách khác nhau. Làm điều này có thể:
1. tiết lộ câu trả lời rõ ràng như vậy mà ít phân tích hơn là cần thiết
2. chỉ ra thuộc tính của dữ liệu làm mất tính đúng một phân tích thống kê cụ thể
3. tiết lộ rằng mẫu chứa các quan sát khác thường
4. tiết kiệm thời gian trong các phân tích tiếp theo
5. đề nghị một câu trả lời mà bạn đã không dự kiến
6. giữ cho bạn làm điều gì đó ngu
ngốc, thời gian dành làm cho một số lô khác nhau gần như luôn luôn thưởng cho nỗ lực này. Nhiều thống kê top-notch
muốn mưu dữ liệu bằng tay, tin tưởng rằng công việc vật lý của bàn tay kích thích mắt của tâm trí.
Cho dù bạn áp dụng phương pháp làm việc này hoặc sử dụng một trong nhiều chương trình máy tính có sẵn, mục đích là
để giải phóng trí tưởng tượng của bạn bằng cách cố gắng một loạt các hình thức đồ họa. Hãy nhớ rằng một số máy tính
chương trình cung cấp một bộ giới hạn các lô và do đó có thể hạn chế chứ không phải là mở rộng trí tưởng tượng.
Làm cho dữ liệu Ghi gốc một Lô
Bởi vì cách tốt nhất để hiển thị dữ liệu trong một cốt truyện, nó làm cho cảm giác ít để thực hiện các chính dữ liệu ghi lại
một bảng giá trị. Thay vào đó, âm mưu các dữ liệu trực tiếp vào một âm mưu digidot, mà là của Hunter (1988) sáng tạo
kết hợp của một âm mưu trình tự thời gian với một cốt truyện gốc và lá (Tukey, 1977) và là cực kỳ hữu ích
cho một bộ sưu tập kích thước khiêm tốn của dữ liệu .
Biểu đồ được minh họa trong hình 3.1 cho một chuỗi thời gian của 36 quan sát theo giờ (thời gian, trong giờ, được
đo từ trái sang phải).
30 27 41 38 44 29 43 21 15
33 33 28 49 16 22 17 17 23
27 32 47 71 46 42 34 34 34
44 27 32 28 25 36 22 29 24
L1592_frame_C03 Page 25 Thứ 3 18 Tháng 12, 2001 1:41
© 2002 By CRC Press LLC
Như mỗi quan sát đến, nó được đặt như là một dấu chấm trên tốn nhiều thời gian âm mưu trình tự và đồng thời ghi nhận
với chữ số cuối cùng của nó trên một cốt truyện gốc và lá. Ví dụ, quan sát đầu tiên là 30. Các chữ số cuối cùng, một
số không, được viết trong "bin" giữa các dấu tick cho 30 và 35. Như thời gian đi về, bin này cũng tích lũy
các chữ số cuối cùng của các quan sát có các giá trị của 30, 33, 33, 32, 34, 34, 34, và 32. Các nhà phân tích
do đó tạo ra một bản ghi đầy đủ trực quan của dữ liệu: một màn hình hiển thị của phân phối dữ liệu, một màn hình hiển thị của
lịch sử thời gian dữ liệu, và một kỷ lục số hoàn chỉnh cho sau đó trình bày chi tiết phân tích số học.
tán xạ
Người ta ước tính rằng 75% của các đồ thị dùng trong khoa học là tán xạ (Tufte, 1983). Đơn giản
tán xạ thường được thực hiện trước khi phân tích các dữ liệu khác được xem xét. Các kiến thức học được có thể dẫn
đến các đồ thị thanh lịch và thông tin mới hơn, hoặc đề xuất một mô hình hứa hẹn. Tuyến tính hay quan hệ phi tuyến được
dễ dàng nhìn thấy, và như vậy là giá trị ngoại lai hay quang sai khác trong dữ liệu.
Việc sử dụng tán xạ được minh họa với dữ liệu từ một nghiên cứu về cách xử lý photpho bởi một lý nước thải
nhà máy xử lý có liên quan đến mức chảy đến của phốt pho, lưu lượng, và đặc điểm khác của nước thải.
Các ma trận tán xạ (đôi khi được gọi là lô thảo văn thư của), thể hiện trong hình 3.2, đã được thực hiện như một hướng dẫn
để xây dựng các mô hình dự kiến đầu tiên. Không có thang hiển thị trên các lô bởi vì chúng ta
HÌNH 3.1 Digidot cốt truyện cho thấy trình tự và phân phối dữ liệu.
HÌNH tán xạ 3.2 Nhiều hai biến số liệu nhà máy xử lý nước thải.
0 10 20 30 40
70
80
60
50
40
30
20
10
0
24.442.330
1
679
42341
68
95877897 42321
7.765
Thời gian
tập trung
Jones đảo dữ liệu
(log-chuyển đổi)
BOD-BOD-out SS-in SS-out TP trong TP-ra
lưu lượng BOD trong BOD-out SS-in SS-out TP-in
SP-trong
TP-ra-SP trong
SP-ra
L1592_frame_C03 Page 26 Thứ 3 18 Tháng 12, 2001 1:41
© 2002 By CRC Press LLC
tìm kiếm các mô hình; mức số không quan trọng ở giai đoạn này của công việc. Các máy tính tự động
quy mô mỗi phân tán hai biến để điền tốt nhất khu vực có sẵn của đồ thị. Mỗi sự kết hợp cặp
của các biến được vẽ để lộ mối tương quan có thể. Ví dụ, nó được phát hiện ra rằng tổng số nước thải
phốt pho (TP-out) là tương quan khá mạnh với nước thải chất rắn lơ lửng (SS-out) và BOD nước thải
(BOD-out), vừa phải tương quan với dòng chảy, BOD-in, và không tương quan với SS-in và TP-in. Nước thải
phospho hòa tan (SP-out) là tương quan chỉ với SP-in và TP-out. Những quan sát này cung cấp một khởi
điểm cho việc xây dựng mô hình.
Các giá trị vẽ trong hình 3.2 là logarit của các biến ban đầu. Làm biến đổi này
là thuận lợi trong việc hiển thị các giá trị cực đoan, và nó đơn giản hóa việc giải thích bằng cách đưa ra các mối quan hệ tuyến tính
giữa các biến. Nó là rất hữu ích để sử dụng các biến đổi trong việc phân tích dữ liệu về môi trường. Các logarit
và các biến đổi được thảo luận trong Chương 7.
In Search of Trends
Hình 3.3 là một âm mưu chuỗi thời gian của 558 quan sát pH trên một dòng suối nhỏ trong dãy núi Smokey.
Các dữ liệu bao gồm các giai đoạn từ giữa năm 1971 đến giữa năm 1981, khi thể hiện trên đầu của cốt truyện. Thời gian được
đo bằng tuần trên abcissa đáy.
Các số liệu được đệ trình (trên băng máy tính) để một cơ quan mà có ý định làm một phân tích xu hướng để đánh giá
những thay đổi có thể có trong chất lượng nước liên quan đến lượng mưa acid. Các dữ liệu được vẽ trước khi bất kỳ hồi quy
phân tích chuỗi thời gian hay mô hình đã bắt đầu. Âm mưu này đã không được dự kiến sẽ có ích trong việc hiển thị một xu hướng
bởi vì bất kỳ xu hướng sẽ là nhỏ (phân tích tiếp theo chỉ ra rằng không có xu hướng). Mục đích
của âm mưu dữ liệu đã được tiết lộ bất kỳ đặc thù trong đó.
Hai đặc điểm nổi bật: (1) các giá trị pH thấp nhất được quan sát thấy trong 1971-1974 và (2) sự biến đổi,
mà là lớn đầu trong series, giảm khoảng 150 tuần và dường như để giảm trở lại ở
khoảng 300 tuần. Các quan sát thứ hai nhắc nhở các nhà phân tích dữ liệu để hỏi hai câu hỏi. Đã có
bất kỳ hiện tượng tự nhiên để giải thích mô hình này của biến đổi? Có điều gì về việc đo lường
quá trình đó có thể giải thích? Từ câu hỏi này, nó đã được phát hiện ra rằng các công cụ khác nhau đã
được sử dụng để đo độ pH. Máy đo pH ban đầu đã được thay thế vào đầu năm 1974 với một chi tiết
cụ chính xác, mà đã từng thay thế bằng một mô hình được cải thiện trong năm 1976.
Sự thay đổi trong phương sai trong thời gian ảnh hưởng đến sự phân tích dữ liệu tiếp theo. Ví dụ, nếu bình thường
hồi quy tuyến tính được sử dụng để đánh giá sự tồn tại của một xu hướng, phương sai lớn trong 1971-1973 sẽ
có được các dữ liệu ban đầu hơn "trọng lượng" hoặc "sức mạnh" trong việc xác định vị trí và độ dốc của các xu hướng
dòng. Đây không phải là mong muốn bởi vì các dữ liệu sau này là chính xác nhất.
Không để âm mưu dữ liệu ban đầu có thể không có tử vong. Phương sai nonconstant có thể đã được
phát hiện sau này trong việc phân tích, có lẽ bằng cách vẽ các lỗi còn sót lại (đối với mức trung bình hoặc với
một mô hình được trang bị), nhưng sau đó công việc đáng kể sẽ được đầu tư. Tuy nhiên, tính năng này của các
dữ liệu có thể được bỏ qua bởi vì một nhà phân tích người không bắt đầu bằng cách vẽ các dữ liệu là không có khả năng để
làm cho mảnh đất còn lại hoặc. Nếu vấn đề bị bỏ qua, một kết luận không đúng được báo cáo.
HÌNH 3.3 Time loạt âm mưu của các dữ liệu pH đo trên một dòng suối núi nhỏ.
Năm
Tuần
pH
8.0
7.0
6.0
5.0
0 100 200 300 400 500
71 72 73 74 75 76 77 78 79 80 81
L1592_frame_C03 Page 27 Thứ 3 18 Tháng 12, 2001 1:41
© 2002 By CRC Press LLC
Hình 3.4 là một âm mưu chuỗi thời gian của một kỷ lục 16 năm của nồng độ BOD5 trung bình hàng tháng đo tại
một trong nhiều trạm quan trắc ở Fox River, Wisconsin. Đây là một phần của bản ghi dữ liệu đã được phân tích
để đánh giá những cải tiến trong sông do đầu tư lớn vào cơ sở kiểm soát ô nhiễm cùng này
sông mạnh công nghiệp hóa. Các ngư dân trong khu vực biết rằng chất lượng nước đã được cải thiện, nhưng cải tiến
là không rõ ràng trong các dữ liệu hoặc BOD trong lô chuỗi thời gian của dữ liệu chất lượng nước khác.
Hình 3.5 cho thấy một cách khác để nhìn vào cùng một dữ liệu. Đây là một subseries mùa lô (Cleveland,
1994). Thời gian ban đầu series được chia thành một chuỗi thời gian cho mỗi tháng. (Những con số bất bình đẳng có
các giá trị dữ liệu vì các giám sát không đầy đủ trong tất cả các năm.) Các trình tự thời gian hàng năm được bảo quản
trong mỗi subseries. Nó xuất hiện mà BOD5 trong những tháng mùa hè có thể được giảm sau khoảng
giữa những năm 1980.
Hình 3.6 là một âm mưu percentile của dữ liệu Fox River BOD5. Các giá trị âm mưu tại 1977 là percentiles của
trung bình hàng tháng của nồng độ BOD5 cho giai đoạn 5 năm 1975-1979. Lý do cho việc tập hợp
dữ liệu trong thời gian 5 năm là một ước tính đáng tin cậy của 90 phần trăm không có thể được làm từ chỉ
12 trung bình hàng tháng từ năm 1975. Hình vẽ này cho thấy rằng trung bình (thứ 50) Nồng độ BOD5
đã không thay đổi trong thời gian kỷ lục, nhưng đã có sự cải thiện ở những thái cực. Cao nhất
Hình 3.4 Thời gian loạt âm mưu của nồng độ BOD5 trong Fox River, Wisconsin.
HÌNH 3.5 subseries Mùa cốt truyện của nồng độ BOD5 trong Fox River, Wisconsin.
HÌNH 3.6 Trăm âm mưu của các dữ liệu Fox River BOD5.
77 78 79 80 81 82 83 84 85 86 92 87 88 89 90 91 0
5
10
BOD5 (mg / l)
Năm
0
5
10
BOD5 (mg / l)
JFMAMJJASOND
Tháng
BOD5 (mg / l)
1
2
3
4
5
6
7
8
Bắt đầu từ năm 5 năm Khoảng thời gian
75 80 85 90

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.