Bài viết

10.1: ANOVA Một chiều - Toán học


Mục đích của kiểm tra một chiều (ANOVA ) là để xác định sự tồn tại của sự khác biệt có ý nghĩa thống kê giữa một số phương tiện nhóm. Thử nghiệm thực sự sử dụng các phương sai để giúp xác định xem các phương tiện có bằng nhau hay không. Để thực hiện kiểm tra một chiều (ANOVA ), có một số giả định cơ bản cần được thực hiện:

Năm giả định cơ bản của ANOVA một chiều được thực hiện

  1. Mỗi quần thể mà từ đó một mẫu được lấy được coi là bình thường.
  2. Tất cả các mẫu được chọn ngẫu nhiên và độc lập.
  3. Các quần thể được giả định là có độ lệch chuẩn (hoặc phương sai) bằng nhau.
  4. Yếu tố là một biến phân loại.
  5. Câu trả lời là một biến số.

Giả thuyết vô hiệu và thay thế

Giả thuyết vô hiệu chỉ đơn giản là tất cả các trung bình dân số của nhóm đều giống nhau. Giả thuyết thay thế là ít nhất một cặp phương tiện khác nhau. Ví dụ: nếu có (k ) nhóm:

  • (H_ {0}: mu_ {1} = mu_ {2} = mu_ {3} = dotc = mu_ {k} )
  • (H_ {a}: text {Ít nhất hai người trong nhóm có nghĩa là} mu_ {2} = mu_ {3} = dotc = mu_ {k} text {không bằng nhau} )

Các biểu đồ, một tập hợp các ô dạng hộp biểu thị sự phân bố các giá trị với nhóm có nghĩa là được biểu thị bằng một đường ngang xuyên qua hộp, giúp hiểu rõ về kiểm định giả thuyết. Trong biểu đồ đầu tiên (biểu đồ hộp màu đỏ), (H_ {0}: mu_ {1} = mu_ {2} = mu_ {3} ) và ba tập hợp có cùng phân phối nếu giả thuyết rỗng là đúng . Phương sai của dữ liệu kết hợp gần giống với phương sai của mỗi tổng thể.

Nếu giả thuyết rỗng là sai, thì phương sai của dữ liệu kết hợp sẽ lớn hơn do các phương tiện khác nhau gây ra như trong biểu đồ thứ hai (biểu đồ hộp màu xanh lá cây).

Hình ( PageIndex {1} ): (a) (H_ {0} ) là đúng. Tất cả các phương tiện đều giống nhau; sự khác biệt là do sự biến đổi ngẫu nhiên. (b) (H_ {0} ) không đúng. Tất cả các phương tiện không giống nhau; sự khác biệt quá lớn là do sự biến đổi ngẫu nhiên.

Đánh giá chương

Phân tích phương sai mở rộng việc so sánh hai nhóm thành nhiều nhóm, mỗi nhóm là một cấp của một biến phân loại (nhân tố). Các mẫu từ mỗi nhóm là độc lập và phải được chọn ngẫu nhiên từ các quần thể bình thường với phương sai bằng nhau. Chúng tôi kiểm tra giả thuyết rỗng về các phương tiện phản hồi bằng nhau trong mọi nhóm so với giả thuyết thay thế của một hoặc nhiều nhóm có nghĩa là khác với các nhóm khác. Kiểm tra giả thuyết một chiều (ANOVA ) xác định xem một số trung bình tổng thể có bằng nhau hay không. Phân phối cho phép thử là phân phối (F ) với hai bậc tự do khác nhau.

Các giả định:

  1. Mỗi quần thể mà từ đó một mẫu được lấy được coi là bình thường.
  2. Tất cả các mẫu được chọn ngẫu nhiên và độc lập.
  3. Các quần thể được giả định là có độ lệch chuẩn (hoặc phương sai) bằng nhau.

Bảng chú giải

Phân tích phương sai
còn được gọi là (ANOVA ), là một phương pháp kiểm tra xem phương tiện của ba hoặc nhiều quần thể có bằng nhau hay không. Phương pháp này có thể áp dụng nếu:
  • tất cả các quần thể quan tâm được phân phối bình thường.
  • các quần thể có độ lệch chuẩn bằng nhau.
  • các mẫu (không nhất thiết phải có cùng kích thước) được chọn ngẫu nhiên và độc lập từ mỗi quần thể.

Thống kê kiểm định để phân tích phương sai là (F ) - tỷ lệ.

Một chiều (ANOVA )
một phương pháp kiểm tra xem phương tiện của ba hoặc nhiều quần thể có bằng nhau hay không; phương pháp có thể áp dụng nếu:
  • tất cả các quần thể quan tâm được phân phối bình thường.
  • các quần thể có độ lệch chuẩn bằng nhau.
  • các mẫu (không nhất thiết phải có cùng kích thước) được chọn ngẫu nhiên và độc lập từ mỗi quần thể.

Thống kê kiểm định để phân tích phương sai là (F ) - tỷ lệ.

Phương sai
giá trị trung bình của các độ lệch bình phương so với giá trị trung bình; bình phương của độ lệch chuẩn. Đối với một tập hợp dữ liệu, độ lệch có thể được biểu diễn dưới dạng (x - bar {x} ) trong đó (x ) là giá trị của dữ liệu và ( bar {x} ) là giá trị trung bình của mẫu. Phương sai mẫu bằng tổng bình phương của độ lệch chia cho hiệu của cỡ mẫu và một.

13.1 ANOVA một chiều

Mục đích của kiểm tra ANOVA một chiều là xác định sự tồn tại của sự khác biệt có ý nghĩa thống kê giữa một số phương tiện nhóm. Thử nghiệm thực sự sử dụng các phương sai để giúp xác định xem các phương tiện có bằng nhau hay không. Để thực hiện kiểm tra ANOVA một chiều, có năm cơ bản giả định được hoàn thành:

  1. Mỗi quần thể mà từ đó một mẫu được lấy được coi là bình thường.
  2. Tất cả các mẫu được chọn ngẫu nhiên và độc lập.
  3. Các quần thể được giả định có độ lệch chuẩn bằng nhau (hoặc phương sai).
  4. Yếu tố là một biến phân loại.
  5. Câu trả lời là một biến số.

Giả thuyết vô hiệu và thay thế

Giả thuyết vô hiệu chỉ đơn giản là tất cả các trung bình dân số của nhóm đều giống nhau. Giả thuyết thay thế là ít nhất một cặp phương tiện khác nhau. Ví dụ, nếu có k các nhóm:

Các biểu đồ, một tập hợp các ô hộp biểu thị sự phân bố các giá trị với nhóm có nghĩa là được biểu thị bằng một đường ngang xuyên qua ô, giúp hiểu rõ về kiểm định giả thuyết. Trong biểu đồ đầu tiên (ô hộp màu đỏ), H0: μ1 = μ2 = μ3 và ba quần thể có cùng sự phân bố nếu giả thuyết vô hiệu là đúng. Phương sai của dữ liệu kết hợp gần giống với phương sai của mỗi tổng thể.

Nếu giả thuyết rỗng là sai, thì phương sai của dữ liệu kết hợp sẽ lớn hơn do các phương tiện khác nhau gây ra như được hiển thị trong biểu đồ thứ hai (biểu đồ hộp màu xanh lá cây).


ANOVA một chiều: Định nghĩa, Công thức và Ví dụ

A ANOVA một chiều (& # 8220analysis of variance & # 8221) so sánh giá trị trung bình của ba nhóm độc lập trở lên để xác định xem có sự khác biệt có ý nghĩa thống kê giữa các trung bình dân số tương ứng hay không.

Hướng dẫn này giải thích những điều sau:

  • Động lực để thực hiện ANOVA một chiều.
  • Các giả định cần được đáp ứng để thực hiện ANOVA một chiều.
  • Quá trình thực hiện ANOVA một chiều.
  • Ví dụ về cách thực hiện ANOVA một chiều.

ANOVA một chiều: Động lực

Giả sử chúng ta muốn biết liệu ba chương trình luyện thi khác nhau có dẫn đến điểm trung bình khác nhau trong kỳ thi tuyển sinh đại học hay không. Vì có hàng triệu học sinh trung học trên khắp đất nước, sẽ là quá tốn thời gian và tốn kém nếu đi thăm từng học sinh và để các em sử dụng một trong các chương trình luyện thi.

Thay vào đó, chúng tôi có thể chọn ba mẫu ngẫu nhiên gồm 100 học sinh từ dân số và cho phép mỗi mẫu sử dụng một trong ba chương trình luyện thi để chuẩn bị cho kỳ thi. Sau đó, chúng tôi có thể ghi lại điểm cho từng học sinh khi họ làm bài kiểm tra.

Tuy nhiên, hầu như được đảm bảo rằng điểm thi trung bình giữa ba mẫu ít nhất sẽ khác nhau một chút. Câu hỏi đặt ra là liệu sự khác biệt này có ý nghĩa thống kê hay không. May mắn thay, ANOVA một chiều cho phép chúng tôi trả lời câu hỏi này.

ANOVA một chiều: Các giả định

Để kết quả của ANOVA một chiều hợp lệ, cần đáp ứng các giả định sau:

1. Tính bình thường - Mỗi mẫu được lấy từ một quần thể phân bố chuẩn.

2. Phương sai bằng nhau - Phương sai của các quần thể mà các mẫu đến là bằng nhau. Bạn có thể sử dụng Kiểm tra Bartlett & # 8217s để xác minh giả định này.

3. Độc lập - Các quan sát trong mỗi nhóm là độc lập với nhau và các quan sát trong các nhóm được lấy bằng một mẫu ngẫu nhiên.

Đọc bài viết này để biết chi tiết chuyên sâu về cách kiểm tra những giả định này.

ANOVA một chiều: Quy trình

ANOVA một chiều sử dụng giả thuyết rỗng và giả thuyết thay thế sau:

  • H0 (giả thuyết vô hiệu): μ1 = μ2 = μ3 = & # 8230 = μk (tất cả các phương tiện dân số đều như nhau)
  • H1 (giả thuyết thay thế): ít nhất một trung bình dân số khác với phần còn lại

Thông thường, bạn sẽ sử dụng một số phần mềm thống kê (chẳng hạn như R, Excel, Stata, SPSS, v.v.) để thực hiện ANOVA một chiều vì phần mềm này cồng kềnh để thực hiện bằng tay.

Bất kể bạn sử dụng phần mềm nào, bạn sẽ nhận được bảng sau dưới dạng kết quả đầu ra:

Nguồn Tổng bình phương (SS) df Hình vuông trung bình (MS) F p
Sự đối xử SSR dfr MSR MSR / MSE Fdfr, dfe
lỗi SSE dfe MSE
Toàn bộ SST dft

  • SSR: hồi quy tổng bình phương
  • SSE: tổng sai số của bình phương
  • SST: tổng số bình phương (SST = SSR + SSE)
  • dfr: bậc tự do hồi quy (dfr = k-1)
  • dfe: bậc tự do sai số (dfe = n-k)
  • dft: tổng bậc tự do (dft = n-1)
    • k: tổng số nhóm
    • n: tổng số quan sát

    Nếu giá trị p nhỏ hơn mức ý nghĩa bạn đã chọn (ví dụ: 0,05), thì bạn có thể bác bỏ giả thuyết vô hiệu và kết luận rằng ít nhất một trong các phương tiện tổng thể khác với các giá trị khác.

    Ghi chú: Nếu bạn bác bỏ giả thuyết rỗng, điều này chỉ ra rằng ít nhất một trong số các phương tiện tổng thể khác với các giá trị khác, nhưng bảng ANOVA không & # 8217t chỉ định cái nào các phương tiện dân số là khác nhau. Để xác định điều này, bạn cần thực hiện kiểm tra post hoc, còn được gọi là & # 8220 so sánh nhiều lần & # 8221 kiểm tra.

    ANOVA một chiều: Ví dụ

    Giả sử chúng ta muốn biết liệu ba chương trình luyện thi khác nhau có dẫn đến điểm trung bình khác nhau trong một kỳ thi nhất định hay không. Để kiểm tra điều này, chúng tôi tuyển 30 sinh viên tham gia vào một nghiên cứu và chia họ thành ba nhóm. Các học sinh trong mỗi nhóm được chỉ định ngẫu nhiên để sử dụng một trong ba chương trình luyện thi trong ba tuần tới để chuẩn bị cho một kỳ thi. Vào cuối ba tuần, tất cả các học sinh đều tham gia một kỳ thi giống nhau.

    Điểm thi của từng nhóm được hiển thị dưới đây:

    Để thực hiện ANOVA một chiều trên dữ liệu này, chúng tôi sẽ sử dụng Máy tính ANOVA một chiều theo thống kê với đầu vào sau:

    Từ bảng kết quả, chúng ta thấy rằng thống kê kiểm định F là 2.358 và giá trị p tương ứng là 0.11385.

    Vì giá trị p này không nhỏ hơn 0,05, chúng tôi không thể bác bỏ giả thuyết vô hiệu. Điều này có nghĩa là chúng tôi không có đủ bằng chứng để nói rằng có sự khác biệt có ý nghĩa thống kê giữa điểm thi trung bình của ba nhóm.

    Tài nguyên bổ sung

    Các bài viết sau giải thích cách thực hiện ANOVA một chiều bằng cách sử dụng các phần mềm thống kê khác nhau:


    Xem trước nội dung

    Trước khi đi vào chi tiết của bài kiểm tra, chúng ta cần xác định giả thuyết rỗng và giả thuyết thay thế. Nhớ lại rằng đối với thử nghiệm cho hai phương tiện độc lập, giả thuyết rỗng là ( mu_1 = mu_2 ). Trong ANOVA một chiều, chúng tôi muốn so sánh dân số (t ) nghĩa là, trong đó (t & gt2 ). Do đó, giả thuyết rỗng để phân tích phương sai cho (t ) trung bình tổng thể là:

    Tuy nhiên, phương án thay thế không thể được thiết lập tương tự như trường hợp hai mẫu. Nếu chúng tôi muốn xem liệu hai phương tiện dân số có khác nhau hay không, phương án thay thế sẽ là ( mu_1 ne mu_2 ). Với hơn hai nhóm, câu hỏi nghiên cứu là “Một số phương tiện có khác nhau không?” Nếu chúng ta thiết lập phương tiện thay thế là ( mu_1 ne mu_2 ne… ne mu_t ), thì chúng ta sẽ có kiểm tra để xem TẤT CẢ các phương tiện có khác nhau không. Đây không phải là điều chúng tôi muốn. Chúng tôi cần phải cẩn thận cách thiết lập phương án thay thế. Phiên bản toán học của phương pháp thay thế là.

    (H_a dấu hai chấm mu_i ne mu_j text i text j text i ne j )

    Điều này có nghĩa là ít nhất một trong các cặp không bằng nhau. Cách trình bày phổ biến hơn của giải pháp thay thế là:

    Nhớ lại rằng khi chúng ta so sánh giá trị trung bình của hai quần thể đối với các mẫu độc lập, chúng ta sử dụng mẫu 2 t-kiểm tra với phương sai tổng hợp khi các phương sai tổng thể có thể được giả định là bằng nhau.

    Đối với nhiều hơn hai tập hợp, thống kê thử nghiệm, (F ), là tỷ lệ giữa phương sai mẫu của nhóm và phương sai của mẫu trong nhóm. Đó là,

    Theo giả thuyết rỗng (và với một số giả định nhất định), cả hai đại lượng đều ước tính phương sai của sai số ngẫu nhiên, và do đó tỷ lệ phải gần bằng 1. Nếu tỷ lệ này lớn, thì chúng ta có bằng chứng chống lại giá trị rỗng, và do đó, chúng ta sẽ bác bỏ giả thuyết vô hiệu.

    Trong phần tiếp theo, chúng tôi trình bày các giả định cho bài kiểm tra này. Trong phần sau, chúng tôi trình bày cách tìm phương sai giữa nhóm, phương sai trong nhóm và thống kê F trong bảng ANOVA.


    11.3 Ví dụ

    11.3.1 Nhân hóa

    Bài báo này nghiên cứu ảnh hưởng của việc học về sự hào phóng của một nhóm khác có thể có đối với ý kiến ​​của một người về nhóm kia. Những người tham gia đã được đọc một bản tóm tắt ngắn gọn về cơn bão Katrina, và sau đó

    1. không nói gì thêm (kiểm soát)
    2. Đã nói về khoản viện trợ mà Pakistan đã gửi, nhưng đưa ra con số thấp cho số tiền viện trợ.
    3. Đã nói về khoản viện trợ mà Pakistan đã gửi, nhưng đưa ra con số cao về số lượng viện trợ.

    Sau đó, những người tham gia được hỏi họ tin tưởng mạnh mẽ như thế nào người Pakistan sẽ cảm thấy cả những cảm xúc thứ yếu và chính yếu sau thảm họa, và ý nghĩa của những phản ứng của họ đã được thực hiện.

    Chúng tôi dự định phân tích xem liệu có sự khác biệt về ý nghĩa của niềm tin của ba nhóm về việc người Pakistan sẽ cảm thấy những cảm xúc thứ cấp mạnh mẽ như thế nào. Bạn có thể đọc thêm về thử nghiệm trong trang trợ giúp về dữ liệu hoặc bằng cách đọc bài báo được liên kết. Một vấn đề với kỹ thuật mà chúng tôi đang sử dụng là chúng tôi tính trung bình thang đo thứ tự trả lời cho bảy câu hỏi về cảm xúc, đây là điều phổ biến, nhưng không phải lúc nào cũng hợp lệ, nên làm.

    Chúng ta có thể tải dữ liệu qua phần sau.

    Trước tiên, chúng tôi sẽ kiểm tra dữ liệu để xem liệu nó có gần như bình thường với các phương sai ngang nhau giữa các nhóm hay không. Chúng tôi chỉ quan tâm đến vấn đề này với những người đã được thông báo về cơn bão Katrina.

    Các giá trị đó trông không quá tệ, ngoại trừ việc nhóm kiểm soát và nhóm thấp đều có nhiều giá trị chính xác bằng 1 hơn mong đợi trong phân phối chuẩn. Hãy xem xét giá trị trung bình, độ lệch chuẩn và kích thước mẫu trong mỗi nhóm.

    Có lẽ cũng nên làm một biểu đồ.

    Để thực hiện ANOVA trong R, trước tiên chúng ta xây dựng một mô hình tuyến tính cho pak_sec như được giải thích bởi nhóm, và sau đó áp dụng hàm anova cho mô hình. anova tạo ra một bảng chứa tất cả các tính toán từ cuộc thảo luận ở trên.

    Hai nhóm hàng và Phần dư tương ứng với biến thể giữa nhóm và trong nhóm.

    Cột đầu tiên, Df cho biết bậc tự do trong mỗi trường hợp. Vì (k = 3 ), biến thể giữa nhóm có (k - 1 = 2 ) bậc tự do và vì (N = 161 ), biến thể trong nhóm (Phần dư) có (N - k = 158 ) bậc tự do.

    Cột Sum Sq cho (SSD_B ) và (SSD_W ). Biến Sq trung bình là giá trị Tổng Sq chia cho bậc tự do. Hai số này là tử số và mẫu số của thống kê thử nghiệm, (F ). Vì vậy, ở đây, (F = 3,7279 / 0,7723 = 4,8269 ).

    Để tính toán giá trị (p ), chúng ta cần diện tích nằm dưới phần đuôi của phân phối (F ) ở trên (F = 4.8269 ). Lưu ý rằng đây là kiểm tra một phía, vì các giá trị nhỏ của (F ) có nhiều khả năng xảy ra hơn khi (H_0 ) là đúng.

    Bảng ANOVA cung cấp giá trị (p ) là Pr (& gtF), ở đây (P = 0,009231 ). Chúng tôi có thể tính toán điều này từ (F ) bằng cách sử dụng:

    Theo giá trị (p ), chúng tôi sẽ bác bỏ ở cấp độ ( alpha = .05 ) và kết luận rằng không phải cả ba nhóm đều có cùng phương pháp dự đoán mức độ mạnh mẽ của người Pakistan sau thảm họa. .

    11.3.2 Chuột trên THC

    Hãy quay lại fosdata :: mouse_pot. Chúng tôi đã thấy rằng các phân phối là gần như bình thường với phương sai xấp xỉ bằng nhau và tính độc lập dường như không phải là một vấn đề. Giả thuyết vô hiệu là

    (H_0: mu_1 = cdots = mu_4 ), trong đó ( mu_i ) là phần trăm hoạt động trung bình thực sự liên quan đến giá trị cơ sở và giả thuyết thay thế là ít nhất một trong các phương tiện khác nhau. Chúng tôi sẽ kiểm tra ở cấp độ ( alpha = .05 ).

    Để thực hiện ANOVA trong R, trước tiên chúng ta xây dựng mô hình tuyến tính của biến số trên biến nhóm. Sau đó, chúng tôi chạy anova trên đối tượng mô hình.

    Chúng tôi thấy rằng chúng tôi có (p ) -value là (p = .0357 ), vì vậy chúng tôi sẽ bác bỏ giả thuyết rỗng rằng tất cả các phương tiện đều giống nhau ở cấp độ đó ( alpha = .05 ) .

    Nhớ lại rằng nó là Thiết yếu nhóm đó là một nhân tố. Việc đặt biến nhóm là số là một sai lầm nghiêm trọng, nhưng R sẽ không đưa ra cảnh báo. Một kiểm tra tốt là bậc tự do phải là số nhóm trừ đi 1. Nếu nó là 1 và bạn không có hai nhóm, thì bạn có thể đã ghi mã sai biến nhóm.

    11.3.3 Tinh tinh (phương sai không bằng nhau)

    Hãy xem xét tập dữ liệu tinh tinh trong gói fosdata. Chúng tôi có thể tải dữ liệu qua

    Các bức ảnh chụp tinh tinh ở các độ tuổi đã biết đã được trình chiếu cho các thẩm phán con người, những người đã chỉ ra trên thang điểm từ 1-6 lông mặt của tinh tinh có màu xám như thế nào (không bao gồm cằm, thậm chí ở những con non thường có màu xám). Bài báo gốc ở đây 38. Mục tiêu của các tác giả là xác định xem liệu tóc bạc ở tinh tinh có tăng lên theo tuổi tác giống như ở người hay không. Các tác giả nhận thấy rằng sau 30 tuổi, dường như không có ảnh hưởng của tuổi tác.

    Chúng tôi sẽ sử dụng dữ liệu theo một cách khác. Chúng tôi muốn xác định xem liệu tóc bạc trung bình có khác nhau ở những con tinh tinh từ 30 tuổi trở lên trong ba nhóm hay không. Các tác giả của nghiên cứu không tìm thấy ảnh hưởng tuổi tác, vì vậy chúng tôi sẽ không tính đến tuổi của tinh tinh. Chúng ta hãy nhìn vào một âm mưu. Chúng tôi lưu ý rằng một trong những con tinh tinh (Brownface) có hai bức ảnh trong tập dữ liệu từ khi nó hơn 29. Chúng tôi tùy ý chọn xóa bức ảnh từ khi nó lớn hơn để duy trì sự độc lập. Sự lựa chọn này không ảnh hưởng đến kết luận của các thử nghiệm sau.

    Dựa trên biểu đồ này, có vẻ như có thể có sự khác biệt về điểm xám trung bình theo dân số, nhưng cũng có vẻ không khôn ngoan khi cho rằng phương sai của ba nhóm là bằng nhau. Nếu chúng ta bỏ qua các phương sai không bằng nhau, thì chúng ta có thể sử dụng anova như sau.

    Chúng tôi sẽ không phải bác bỏ giả thuyết rỗng rằng các phương tiện là như nhau ( (p = .1418 )). Chúng ta sẽ thấy dưới đây oneway.test là một cách để kiểm tra (H_0: mu_1 = cdots = mu_k ) so với (H_a: ) không phải tất cả ( mu_i ) đều bằng nhau. Nó có các giả định về tính chuẩn mực trong mỗi nhóm, nhưng không có giả định về phương sai như nhau. Áp dụng oneway.test cho dữ liệu này sẽ mang lại kết quả như sau.

    Bây giờ, chúng tôi thấy rằng chúng tôi có giá trị (p ) là (. 03033 ), vì vậy chúng tôi sẽ bác bỏ (H_0 ) rằng cả ba nhóm đều có cùng màu xám tại ( alpha = .05 ) cấp độ. Vì sự bình đẳng của các phương sai là một câu hỏi trong tập dữ liệu này, nên oneway.test có lẽ là cách để thực hiện.


    Giả thuyết vô hiệu và thay thế

    Giả thuyết vô hiệu chỉ đơn giản là tất cả các trung bình dân số của nhóm đều giống nhau. Giả thuyết thay thế là ít nhất một cặp phương tiện khác nhau. Ví dụ: nếu có (k ) nhóm:

    Các biểu đồ, một tập hợp các ô hộp biểu thị sự phân bố các giá trị với nhóm có nghĩa là được biểu thị bằng một đường ngang xuyên qua ô, giúp hiểu rõ về kiểm định giả thuyết. Trong biểu đồ đầu tiên (ô hộp màu đỏ), (H_ <0>: mu_ <1> = mu_ <2> = mu_ <3> ) và ba tập hợp có cùng phân phối nếu giả thuyết rỗng là đúng . Phương sai của dữ liệu kết hợp gần giống với phương sai của mỗi tổng thể.

    Nếu giả thuyết rỗng là sai, thì phương sai của dữ liệu kết hợp sẽ lớn hơn do các phương tiện khác nhau gây ra như trong biểu đồ thứ hai (biểu đồ hộp màu xanh lá cây).

    Hình ( PageIndex <1> ): (a) (H_ <0> ) là true. Tất cả các phương tiện đều giống nhau, sự khác biệt là do sự thay đổi ngẫu nhiên. (b) (H_ <0> ) không đúng. Tất cả các phương tiện đều không giống nhau, sự khác biệt quá lớn là do sự biến đổi ngẫu nhiên.


    Một cách Anova¶

    Như đã nói Anova là từ viết tắt của phân tích phương sai của biến.

    Khi nào chúng ta sử dụng Anova? Chúng tôi đã nói trước đó rằng anova được sử dụng khi chúng tôi muốn so sánh phương tiện giữa các nhóm, điều này thực sự có một hình thức thú vị khi nói đến bộ dữ liệu. Giả sử chúng ta có một biến phân loại và một biến liên tục, như nhóm tuổi (trẻ, trung, già) và chiều cao của các cá nhân. Chúng ta có thể coi các mức độ tuổi của biến phân loại là các nhóm riêng biệt và đo lường xem chiều cao trung bình ở tất cả các nhóm có giống nhau hay không. Tại sao điều này quan trọng? Vâng, nếu bạn đang giải một bài toán máy học và bạn muốn dự đoán chiều cao của các cá nhân, và bạn sử dụng độ tuổi làm biến số để dự đoán chiều cao thì bạn sẽ thấy rằng nếu phương tiện của các nhóm trong độ tuổi bằng nhau thì chiều cao thực tế có thể không thay đổi nhiều theo độ tuổi. Trong trường hợp đó, bạn sẽ không thể dạy máy tính dự đoán chiều cao từ độ tuổi. Ngược lại, bạn muốn sự khác biệt về giá trị trung bình giữa các nhóm khác nhau của một biến phân loại. Biến thể này là những gì máy tính học được khi bạn chạy một thuật toán ML. Rất lỏng lẻo, bạn có thể nói rằng có thể có sự phụ thuộc của chiều cao vào độ tuổi biến phân loại của bạn. Đó là những gì chúng ta đang theo đuổi!

    Nếu những điều trên có vẻ thực sự khó hiểu, hãy chờ đợi, bạn sẽ hiểu ý tôi!

    Anova cũng là một dạng kiểm tra giả thuyết khác, nghĩa là chúng ta tuân theo logic mẫu của việc kiểm tra giả thuyết. Trong phần trước, khi chúng tôi thực hiện kiểm định chi bình phương, chúng tôi đã sử dụng phân phối chi bình phương và chúng tôi xác định quyền thống kê kiểm định chi bình phương. Ở đây, chúng tôi sử dụng phân phối F và thống kê F làm thống kê kiểm định. Về cơ bản, chúng ta sẽ xem liệu giả thuyết rỗng của chúng ta có hợp lệ hay không bằng cách sử dụng phân phối F. Tương tự như bài học về kiểm định chi bình phương, chúng ta sẽ không đi sâu về cách bạn có được phân phối F nhưng chúng ta sẽ đi thẳng vào các ứng dụng. Cũng không giống như bài học chi-square, chúng ta sẽ thực sự tạo ra dữ liệu, một số dữ liệu giả. Vậy nó liên quan gì? Đây là các bước trong Anova:

    1) Xác định giả thuyết rỗng và giả thuyết thay thế
    2) Đặt mức ý nghĩa
    3) Tính thống kê f
    4) Tính giá trị p
    5) So sánh giá trị p và mức ý nghĩa để kết luận xem giả thuyết vô hiệu có hợp lệ hay không

    Bạn sẽ thấy các bước này khá giống với bài học về sổ tay kiểm tra giả thuyết hoặc kiểm tra chi-bình phương.

    Đối với vấn đề này, chúng tôi sẽ không sử dụng dữ liệu thực, chúng tôi sẽ tạo dữ liệu của riêng mình. Điều này là do các loại giả định đằng sau việc thực hiện một anova:

    Giả định- 1) Tính bình thường: Dữ liệu ở mỗi cấp độ của một danh mục phải gần như bình thường. Trong dữ liệu về độ tuổi so với số giờ xem truyền hình, giả định rằng trong mỗi danh mục, tức là trẻ, trung niên và già, số giờ xem truyền hình có phân phối chuẩn.

    2) Tính đồng nhất của phương sai: Giả định rằng phương sai trong mỗi nhóm phải giống với các nhóm khác

    3) Kích thước mẫu: Thông thường, kỳ vọng là bạn có 20 mẫu

    4) Tính độc lập của các quan sát: Các giá trị từ một nhóm này phải độc lập với các nhóm khác. Đây là một điều kiện khá khó để đáp ứng, một điều kiện chúng tôi sẽ lo lắng về một chút.

    Thay vì cố gắng tìm một tập dữ liệu đáp ứng tiêu chí này. Chúng tôi sẽ chỉ lấy dữ liệu từ một bản phân phối chuẩn và chạy Anova. Điều này mang tính hướng dẫn nhiều hơn vì chúng ta có thể chỉ ra nhiều trường hợp khác nhau với điều này thay vì chỉ phụ thuộc vào một trường hợp.

    Giả thuyết vô hiệu và giả thuyết thay thế, khá rõ ràng.

    Giả thuyết vô hiệu: Phương tiện của tất cả các nhóm đều như nhau

    Giả thuyết thay thế: Phương tiện của tất cả các nhóm không bằng nhau. Lưu ý: Nó không thực sự cho chúng ta biết phương tiện nào không bằng phương tiện khác. Chỉ là giả thuyết vô hiệu là không hợp lệ

    Ví dụ đầu tiên của chúng tôi là một ví dụ thực sự đơn giản. Chúng tôi sẽ lấy một số dữ liệu từ phân phối chuẩn, cung cấp một số ngữ cảnh, sau đó chạy Anova trên đó. Sau đó, chúng tôi sẽ thực hiện toàn bộ phép tính bằng tay. Để đơn giản, chúng ta sẽ sử dụng một biến phân loại chỉ với 2 nhóm.

    Giả sử chúng ta có hai nhóm người - trẻ và già. Chúng tôi đo lường thời lượng họ xem qua điện thoại mỗi tuần và lấy dữ liệu sau.


    Stat 202 Notes: Spring 2021

    Bạn có thể xem video ở đây để hoàn thành câu trả lời của bạn tại đây.

    8.1.1 Giới thiệu: cái này dùng để làm gì?

    Khuôn khổ chung của suy luận thường xuyên linh hoạt một cách đáng ngạc nhiên. Hóa ra, có rất nhiều bài kiểm tra khác nhau mà bạn có thể làm, để làm việc với các loại dữ liệu khác nhau và trả lời các câu hỏi khác nhau.

    Một số ví dụ bạn có thể gặp phải trong những ngày giới thiệu của mình bao gồm tỷ lệ, phương tiện, sự khác biệt giữa hai tỷ lệ, sự khác biệt của hai phương tiện, độ dốc hồi quy, v.v.

    Bây giờ “sự khác biệt của hai nghĩa” nghe có vẻ như nó có thể hữu ích. Xét cho cùng, với tư cách là những người thử nghiệm, chúng tôi thường quan tâm đến việc so sánh một số biến số cho hai nhóm - chẳng hạn như năng suất của cây cà chua được bón phân A hoặc B, hoặc liệu một quán cà phê có kinh doanh tốt hơn khi họ dán ảnh lên bảng hiệu hoặc quảng cáo đặc biệt, hoặc liệu gà con có phát triển lớn hơn nếu bạn cho chúng ăn chế độ ăn 1 hoặc chế độ ăn 2.

    Nhưng hãy chờ đợi: tại sao hai các nhóm? Thật là hạn chế! Có hơn hai loại phân bón trên thế giới. Có nhiều hơn hai cách để cho gà ăn. Có lẽ chúng tôi muốn so sánh một số các mức độ khác nhau của một số yếu tố phân nhóm.

    Câu hỏi mà chúng tôi muốn hỏi, sau đó, là: là bất kì của những nhóm này khác nhau? Phân bón có quan trọng không? Chế độ ăn uống có quan trọng không?

    Đó là những gì chúng tôi làm ở ANOVA. Đó là một cách so sánh nhiều nhóm, hay nói cách khác, nhiều cấp độ của một yếu tố nhóm, để hỏi xem liệu yếu tố đó có bất kỳ ảnh hưởng nào về tổng thể hay không.

    8.1.2 ANOVA khái niệm: tín hiệu và nhiễu, giữa và bên trong

    Đây là ý tưởng cơ bản của ANOVA, nói cách khác: Các quan sát khác nhau. Câu hỏi đặt ra là chúng ta có thể giải thích tại sao không? Chà, một số biến thể đó chỉ là do ngẫu nhiên. Nhưng có thể, một số là do các quan sát đến từ các nhóm khác nhau. Sự quan tâm đến sự biến đổi này là do cái tên ANOVA bắt nguồn từ đâu: nó là viết tắt của ANallysis Of VAriance.

    Hãy xem xét ví dụ về gà con. Những chú gà con khác nhau có trọng lượng khác nhau. Ở một mức độ nào đó, đó chỉ là ngẫu nhiên: gà khác nhau. Nhưng có thể, một số là do chúng tôi đã cho những con gà con khác nhau ăn kiêng.

    Nếu nó hữu ích, bạn có thể nghĩ về điều này về mặt tín hiệutiếng ồn. Chúng tôi thực sự quan tâm đến việc xem chế độ ăn của gà có được phản ánh qua trọng lượng của chúng hay không - đó là tín hiệu. Nhưng cũng có sự biến đổi ngẫu nhiên giữa các cá thể gà, đó chỉ là tiếng ồn.

    Bộ điều khoản khác mà chúng tôi sử dụng ở đây là giữatrong. Chúng tôi muốn biết liệu có sự khác biệt lớn không giữa nhóm - những con gà nhận được từng loại chế độ ăn uống. Nhưng điều gì tạo nên sự khác biệt lớn về trọng lượng gà con? Để hiểu về quy mô, chúng tôi xem xét sự biến đổi trong mỗi nhóm. Nếu gà con ăn cùng một chế độ ăn uống có trọng lượng khác nhau, thì điều đó không liên quan gì đến việc điều trị của chúng tôi. Nó chỉ đơn giản là sự phản ánh sự biến đổi ngẫu nhiên, tự nhiên giữa các gà con riêng lẻ.

    Nếu chúng ta thấy rằng sự khác biệt giữa gà con theo các chế độ ăn khác nhau lớn hơn rất nhiều so với biến thể tự nhiên, ngẫu nhiên, riêng lẻ này - tốt, đó là khi chúng ta bắt đầu nghĩ rằng chế độ ăn uống quan trọng!

    Lưu ý rằng tôi đang nói chung về chế độ ăn uống ở đây như thế nào. Tôi không hỏi chế độ ăn kiêng 1 có tốt hơn chế độ ăn uống 3 hay không. Tôi hỏi về tổng thể, liệu có sự khác biệt giữa các chế độ ăn kiêng hay không. ANOVA có một giả thuyết vô hiệu rất chung chung: yếu tố tôi đang xem xét tổng thể không quan trọng. Không có sự khác biệt giữa bất kì của các nhóm.

    8.1.3 Ví dụ trực quan

    Được rồi, giả sử chúng ta đang thực hiện thí nghiệm này với gà con.

    Chúng tôi cho mỗi con gà nhỏ ăn một trong bốn khẩu phần ăn khác nhau, và chúng tôi ghi lại trọng lượng của nó, ví dụ, 20 ngày tuổi. Tôi đi xem xét dữ liệu và đây là những gì tôi thấy:

    Xấu! Có vẻ như gà con ở các chế độ ăn khác nhau có trọng lượng trung bình khác nhau.

    Nhưng, tất nhiên, câu hỏi tiếp theo của tôi là: làm sao khác nhau? Trọng lượng trung bình của mỗi chế độ ăn uống dường như khác nhau từ 20 đến 50 gam. 20 gram thực sự không nhiều. Nhưng sau đó, đây là những chú gà con nhỏ xíu, có lẽ 20 gram là quá nhiều đối với chúng.

    Vâng, hãy làm những gì các nhà thống kê làm và vẽ một bức tranh. Giả sử tôi đã tạo một ô hình hộp cạnh nhau của các quả cân và nó trông như thế này:

    Ohoho! Khá hứa hẹn. Có vẻ như chế độ ăn uống thực sự quan trọng!

    Nhưng điều gì sẽ xảy ra nếu scatterplot trông như thế này:

    Ừm. Bây giờ tôi không chắc lắm. Tôi sẽ không tự tin khi nói rằng thực sự có bất kỳ sự khác biệt nào ở đây dựa trên chế độ ăn uống.

    Chưa hết: trong cả hai âm mưu đó, phương tiện của nhóm hoàn toàn giống nhau! Trong cốt truyện đầu tiên, có vẻ như chế độ ăn uống rất quan trọng vì sự khác biệt giữa các nhóm lớn so với sự lây lan trong mỗi nhóm. Trong âm mưu thứ hai, sự khác biệt trong mỗi nhóm đã làm giảm sự khác biệt giữa chúng.

    Đó là tất cả những gì ANOVA hướng đến: quyết định xem sự khác biệt giữa các nhóm có lớn so với sự khác biệt bên trong chúng hay không.

    Thời điểm phản hồi: Nếu bạn không thể thực hiện ANOVA - điều mà tôi đoán là bạn chưa làm được - và bạn muốn biết liệu chế độ ăn uống có quan trọng hay không, bạn có thể làm (những) bài kiểm tra nào để thay thế? Bạn có thể nghĩ ra bất kỳ hạn chế hoặc cạm bẫy nào có thể xảy ra khi làm điều đó không?


    10.1: ANOVA Một chiều - Toán học

    Trong Chương 9 "Bài toán hai mẫu", chúng ta đã thấy cách so sánh hai trung bình tổng thể μ 1 và μ 2. Trong phần này, chúng ta sẽ học cách so sánh ba hoặc nhiều phương tiện dân số cùng một lúc, điều này thường được quan tâm trong các ứng dụng thực tế. Ví dụ, một quản trị viên tại một trường đại học có thể quan tâm đến việc biết liệu điểm trung bình của sinh viên có giống nhau đối với các chuyên ngành khác nhau hay không. Trong một ví dụ khác, một bác sĩ chuyên khoa ung thư có thể quan tâm đến việc biết liệu những bệnh nhân mắc cùng một loại ung thư có cùng thời gian sống sót trung bình trong một số phương pháp điều trị ung thư cạnh tranh khác nhau hay không.

    Nói chung, giả sử có K các quần thể bình thường với các giá trị có thể khác nhau, μ 1, μ 2,…, μ K, nhưng tất cả đều có cùng phương sai σ 2. Câu hỏi nghiên cứu là liệu tất cả K phương tiện dân số là như nhau. Chúng tôi hình thành câu hỏi này như một bài kiểm tra các giả thuyết

    H 0: μ 1 = μ 2 = · · · = μ K so với H a: không phải tất cả các trung bình tổng thể K đều bằng nhau

    Để thực hiện bài kiểm tra K các mẫu ngẫu nhiên độc lập được lấy từ K quần thể bình thường. Các K mẫu có nghĩa là, K các phương sai mẫu và K kích thước mẫu được tóm tắt trong bảng:

    Dân số Cỡ mẫu Mẫu trung bình Phương sai mẫu
    1 n 1 x - 1 s 1 2
    2 n 2 x - 2 s 2 2
    K n K x - K s K 2

    Xác định các đại lượng sau:

    Các kích thước mẫu kết hợp:

    Các trung bình của mẫu kết hợp của tất cả n quan sát:

    x - = Σ x n = n 1 x - 1 + n 2 x - 2 + · · · + n K x - K n

    Các bình phương trung bình để điều trị:

    M S T = n 1 (x - 1 - x -) 2 + n 2 (x - 2 - x -) 2 + · · · + n K (x - K - x -) 2 K - 1

    Các trung bình cho lỗi:

    M S E = (n 1 - 1) s 1 2 + (n 2 - 1) s 2 2 + · · · + (n K - 1) s K 2 n - K

    MST Bình phương trung bình để điều trị. có thể được coi là phương sai giữa K các mẫu ngẫu nhiên độc lập riêng lẻ và MSE Trung bình bình phương cho sai số. là phương sai trong các mẫu. Đây là lý do cho cái tên "phân tích phương sai", viết tắt phổ biến là ANOVA Phân tích phương sai. . Tính từ “một chiều” liên quan đến thực tế là sơ đồ lấy mẫu là đơn giản nhất có thể, đó là lấy một mẫu ngẫu nhiên từ mỗi tổng thể đang được xem xét. Nếu phương tiện của K tất cả các quần thể đều giống nhau thì hai đại lượng MST và MSE phải gần bằng nhau, do đó giả thuyết rỗng sẽ bị bác bỏ nếu tỷ số của hai đại lượng này lớn hơn đáng kể 1. Điều này dẫn đến thống kê kiểm định sau đây và các phương pháp và điều kiện công dụng của nó.

    Thống kê thử nghiệm để kiểm tra giả thuyết không có K Các phương tiện dân số là bình đẳng

    Nếu K các quần thể được phân bố bình thường với một phương sai chung và nếu H 0: μ 1 = · · · = μ K là đúng thì trong lấy mẫu ngẫu nhiên độc lập F xấp xỉ sau một F-phân phối với bậc tự do d f 1 = K - 1 và d f 2 = n - K.

    Bài kiểm tra ở bên phải: H0 bị bác bỏ ở mức ý nghĩa α nếu F ≥ F α.

    Như mọi khi, thử nghiệm được thực hiện theo quy trình năm bước thông thường.

    Ví dụ 8

    Điểm trung bình của điểm trung bình (GPA) của các khóa học đại học trong một chuyên ngành cụ thể là thước đo độ khó của chuyên ngành đó. Một nhà giáo dục muốn thực hiện một nghiên cứu để tìm hiểu xem liệu mức độ khó khăn của các chuyên ngành khác nhau có giống nhau hay không. For such a study, a random sample of major grade point averages (GPA) of 11 graduating seniors at a large university is selected for each of the four majors mathematics, English, education, and biology. The data are given in Table 11.17 "Difficulty Levels of College Majors". Test, at the 5% level of significance, whether the data contain sufficient evidence to conclude that there are differences among the average major GPAs of these four majors.

    Table 11.17 Difficulty Levels of College Majors

    Mathematics English Education Biology
    2.59 3.64 4.00 2.78
    3.13 3.19 3.59 3.51
    2.97 3.15 2.80 2.65
    2.50 3.78 2.39 3.16
    2.53 3.03 3.47 2.94
    3.29 2.61 3.59 2.32
    2.53 3.20 3.74 2.58
    3.17 3.30 3.77 3.21
    2.70 3.54 3.13 3.23
    3.88 3.25 3.00 3.57
    2.64 4.00 3.47 3.22

    Step 1. The test of hypotheses is

    Step 3. If we index the population of mathematics majors by 1, English majors by 2, education majors by 3, and biology majors by 4, then the sample sizes, sample means, and sample variances of the four samples in Table 11.17 "Difficulty Levels of College Majors" are summarized (after rounding for simplicity) by:

    Major Sample Size Sample Mean Sample Variance
    Mathematics n 1 = 11 x - 1 = 2.90 s 1 2 = 0.188
    English n 2 = 11 x - 2 = 3.34 s 2 2 = 0.148
    Education n 3 = 11 x - 3 = 3.36 s 3 2 = 0.229
    Biology n 4 = 11 x - 4 = 3.02 s 4 2 = 0.157

    The average of all 44 observations is (after rounding for simplicity) x - = 3.15 . We compute (rounding for simplicity)

    M S T = 11 ( 2.90 − 3.15 ) 2 + 11 ( 3.34 − 3.15 ) 2 + 11 ( 3.36 − 3.15 ) 2 + 11 ( 3.02 − 3.15 ) 2 4 − 1 = 1.7556 3 = 0.585

    M S E = ( 11 − 1 ) ( 0.188 ) + ( 11 − 1 ) ( 0.148 ) + ( 11 − 1 ) ( 0.229 ) + ( 11 − 1 ) ( 0.157 ) 44 − 4 = 7.22 40 = 0.181

    Figure 11.12 Note 11.36 "Example 8" Rejection Region

    • Step 5. Since F = 3.232 > 2.84 , we reject H0. The data provide sufficient evidence, at the 5% level of significance, to conclude that the averages of major GPAs for the four majors considered are not all equal.

    Example 9

    A research laboratory developed two treatments which are believed to have the potential of prolonging the survival times of patients with an acute form of thymic leukemia. To evaluate the potential treatment effects 33 laboratory mice with thymic leukemia were randomly divided into three groups. One group received Treatment 1, one received Treatment 2, and the third was observed as a control group. The survival times of these mice are given in Table 11.18 "Mice Survival Times in Days". Test, at the 1% level of significance, whether these data provide sufficient evidence to confirm the belief that at least one of the two treatments affects the average survival time of mice with thymic leukemia.

    Table 11.18 Mice Survival Times in Days

    Treatment 1 Treatment 2 Control
    71 75 77 81
    72 73 67 79
    75 72 79 73
    80 65 78 71
    60 63 81 75
    65 69 72 84
    63 64 71 77
    78 71 84 67
    91

    Step 1. The test of hypotheses is

    Step 3. If we index the population of mice receiving Treatment 1 by 1, Treatment 2 by 2, and no treatment by 3, then the sample sizes, sample means, and sample variances of the three samples in Table 11.18 "Mice Survival Times in Days" are summarized (after rounding for simplicity) by:

    Group Sample Size Sample Mean Sample Variance
    Treatment 1 n 1 = 16 x - 1 = 69.75 s 1 2 = 34.47
    Treatment 2 n 2 = 9 x - 2 = 77.78 s 2 2 = 52.69
    Control n 3 = 8 x - 3 = 75.88 s 3 2 = 30.69

    The average of all 33 observations is (after rounding for simplicity) x - = 73.42 . We compute (rounding for simplicity)

    M S T = 16 ( 69.75 − 73.42 ) 2 + 9 ( 77.78 − 73.42 ) 2 + 8 ( 75.88 − 73.42 ) 2 3 − 1 = 434.63 2 = 217.50

    M S E = ( 16 − 1 ) ( 34.47 ) + ( 9 − 1 ) ( 52.69 ) + ( 8 − 1 ) ( 30.69 ) 33 − 3 = 1153.4 30 = 38.45

    Figure 11.13 Note 11.37 "Example 9" Rejection Region

    • Step 5. Since F = 5.65 > 5.39 , we reject H0. The data provide sufficient evidence, at the 1% level of significance, to conclude that a treatment effect exists at least for one of the two treatments in increasing the mean survival time of mice with thymic leukemia.

    It is important to to note that, if the null hypothesis of equal population means is rejected, the statistical implication is that not all population means are equal. It does not however tell which population mean is different from which. The inference about where the suggested difference lies is most frequently made by a follow-up study.

    Key Takeaway

    • An F-test can be used to evaluate the hypothesis that the means of several normal populations, all with the same standard deviation, are identical.

    Bài tập

    Basic

    The following three random samples are taken from three normal populations with respective means μ 1 , μ 2 , and μ 3 , and the same variance σ 2 .

    1. Find the combined sample size n.
    2. Find the combined sample mean x - .
    3. Find the sample mean for each of the three samples.
    4. Find the sample variance for each of the three samples.
    5. Find M S T .
    6. Find M S E .
    7. Find F = M S T ∕ M S E .

    The following three random samples are taken from three normal populations with respective means μ 1 , μ 2 , and μ 3 , and a same variance σ 2 .

    1. Find the combined sample size n.
    2. Find the combined sample mean x - .
    3. Find the sample mean for each of the three samples.
    4. Find the sample variance for each of the three samples.
    5. Find M S T .
    6. Find M S E .
    7. Find F = M S T ∕ M S E .
    1. Find the number of populations under consideration K.
    2. Find the degrees of freedom d f 1 = K − 1 and d f 2 = n − K .
    3. For α = 0.05 , find F α with the degrees of freedom computed above.

    At α = 0.05 , test hypotheses

    1. Find the number of populations under consideration K.
    2. Find the degrees of freedoms d f 1 = K − 1 and d f 2 = n − K .
    3. For α = 0.01 , find F α with the degrees of freedom computed above.

    At α = 0.01 , test hypotheses

    Applications

    The Mozart effect refers to a boost of average performance on tests for elementary school students if the students listen to Mozart’s chamber music for a period of time immediately before the test. In order to attempt to test whether the Mozart effect actually exists, an elementary school teacher conducted an experiment by dividing her third-grade class of 15 students into three groups of 5. The first group was given an end-of-grade test without music the second group listened to Mozart’s chamber music for 10 minutes and the third groups listened to Mozart’s chamber music for 20 minutes before the test. The scores of the 15 students are given below:

    Using the ANOVA F-test a test based on an F statistic to check whether several population means are equal. at α = 0.10 , is there sufficient evidence in the data to suggest that the Mozart effect exists?

    The Mozart effect refers to a boost of average performance on tests for elementary school students if the students listen to Mozart’s chamber music for a period of time immediately before the test. Many educators believe that such an effect is not necessarily due to Mozart’s music per se but rather a relaxation period before the test. To support this belief, an elementary school teacher conducted an experiment by dividing her third-grade class of 15 students into three groups of 5. Students in the first group were asked to give themselves a self-administered facial massage students in the second group listened to Mozart’s chamber music for 15 minutes students in the third group listened to Schubert’s chamber music for 15 minutes before the test. The scores of the 15 students are given below:

    Test, using the ANOVA F-test at the 10% level of significance, whether the data provide sufficient evidence to conclude that any of the three relaxation method does better than the others.

    Precision weighing devices are sensitive to environmental conditions. Temperature and humidity in a laboratory room where such a device is installed are tightly controlled to ensure high precision in weighing. A newly designed weighing device is claimed to be more robust against small variations of temperature and humidity. To verify such a claim, a laboratory tests the new device under four settings of temperature-humidity conditions. First, two levels of highlow temperature and two levels of highlow humidity are identified. Để cho T stand for temperature and H for humidity. The four experimental settings are defined and noted as (T, H): (high, high), (high, low), (low, high), and (low, low). A pre-calibrated standard weight of 1 kg was weighed by the new device four times in each setting. The results in terms of error (in micrograms mcg) are given below:

    (high, high) (high, low) (low, high) (low, low)
    −1.50 11.47 −14.29 5.54
    −6.73 9.28 −18.11 10.34
    11.69 5.58 −11.16 15.23
    −5.72 10.80 −10.41 −5.69

    Test, using the ANOVA F-test at the 1% level of significance, whether the data provide sufficient evidence to conclude that the mean weight readings by the newly designed device vary among the four settings.

    To investigate the real cost of owning different makes and models of new automobiles, a consumer protection agency followed 16 owners of new vehicles of four popular makes and models, call them T C , H A , N A , and F T , and kept a record of each of the owner’s real cost in dollars for the first five years. The five-year costs of the 16 car owners are given below:

    TC HA NA FT
    8423 7776 8907 10333
    7889 7211 9077 9217
    8665 6870 8732 10540
    7129 9747
    7359 8677

    Test, using the ANOVA F-test at the 5% level of significance, whether the data provide sufficient evidence to conclude that there are differences among the mean real costs of ownership for these four models.

    Helping people to lose weight has become a huge industry in the United States, with annual revenue in the hundreds of billion dollars. Recently each of the three market-leading weight reducing programs claimed to be the most effective. A consumer research company recruited 33 people who wished to lose weight and sent them to the three leading programs. After six months their weight losses were recorded. The results are summarized below:

    Thống kê Prog. 1 Prog. 2 Prog. 3
    Sample Mean x - 1 = 10.65 x - 2 = 8.90 x - 3 = 9.33
    Sample Variance s 1 2 = 27.20 s 2 2 = 16.86 s 3 2 = 32.40
    Sample Size n 1 = 11 n 2 = 11 n 3 = 11

    The mean weight loss of the combined sample of all 33 people was x - = 9.63 . Test, using the ANOVA F-test at the 5% level of significance, whether the data provide sufficient evidence to conclude that some program is more effective than the others.

    A leading pharmaceutical company in the disposable contact lenses market has always taken for granted that the sales of certain peripheral products such as contact lens solutions would automatically go with the established brands. The long-standing culture in the company has been that lens solutions would not make a significant difference in user experience. Recent market research surveys, however, suggest otherwise. To gain a better understanding of the effects of contact lens solutions on user experience, the company conducted a comparative study in which 63 contact lens users were randomly divided into three groups, each of which received one of three top selling lens solutions on the market, including one of the company’s own. After using the assigned solution for two weeks, each participant was asked to rate the solution on the scale of 1 to 5 for satisfaction, with 5 being the highest level of satisfaction. The results of the study are summarized below:

    Số liệu thống kê Sol. 1 Sol. 2 Sol. 3
    Sample Mean x - 1 = 3.28 x - 2 = 3.96 x - 3 = 4.10
    Sample Variance s 1 2 = 0.15 s 2 2 = 0.32 s 3 2 = 0.36
    Sample Size n 1 = 18 n 2 = 23 n 3 = 22

    The mean satisfaction level of the combined sample of all 63 participants was x - = 3.81 . Test, using the ANOVA F-test at the 5% level of significance, whether the data provide sufficient evidence to conclude that not all three average satisfaction levels are the same.

    Large Data Set Exercise

    Large Data Set 9 records the costs of materials (textbook, solution manual, laboratory fees, and so on) in each of ten different courses in each of three different subjects, chemistry, computer science, and mathematics. Test, at the 1% level of significance, whether the data provide sufficient evidence to conclude that the mean costs in the three disciplines are not all the same.


    10.1: One-Way ANOVA - Mathematics

    The one-sample and two-sample Student's t-tests allow us to compare a sample mean with a known or predetermined population mean or to compare two sample means. If we wish to compare more than two sample groups, however, we must turn to a different method. One-way ANOVA provides such a method, allowing us to compare the means of three or more sample groups. In this article, we focus on the one-way ANOVA test statistic and how to use it to determine if several sample means deviate significantly from each other.

    o Analysis of variances (ANOVA)

    o Identify the test statistic for one-way ANOVA

    o Use one-way ANOVA to compare the means of multiple sample groups

    o A table of values for the Student's't distribution is available at http://www.itl.nist.gov/div898/handbook/eda/section3/eda3673.htm

    Introduction to One-Way ANOVA

    Our study of ANOVA will be limited to so-called one-way ANOVA, which involves comparison of samples on the basis of only one factor (just as t-tests only involved one factor). For instance, a manufacturing company might wish to compare the quality of several groups of products on the basis of a certain setting on a given machine. (In this case, the "factor" is product quality.) Such a comparison would be impossible using t-tests, which only allow examination of two groups (or products, in this case). Using one-way ANOVA, however, the company could compare quality for any number of product groups. Thus, one-way ANOVA adds another tool to our statistical toolbox that we have developed.

    One-way ANOVA differs from the Student's t-test primarily in the test statistic, which involves calculation of variances between and among the groups (or samples) under test. Although a thorough derivation of this test statistic is beyond the scope of this article, we have developed a sufficient foundation in statistics to facilitate a basic understanding of the statistic.

    As with the Student's t-tests that we studied in the preceding two articles, one-way ANOVA is based on several assumptions. If these assumptions do not apply in a given situation, the analysis will be flawed. Thus, careful consideration of the problem is always required (both for ANOVA and for Student's t-tests) to avoid blind (and erroneous) use of hypothesis testing.

    As with the Student's t-tests, one-way ANOVA assumes that the data are normally distributed and that the data groups have equivalent population variances. (Note, then, that the samples need not necessarily have the same variance, although they should be similar if they are chosen properly.) Furthermore, proper use of ANOVA assumes that the samples are independent. Following our manufacturing example, groups of products are independent if the selection of products for one group does not have any bearing on the selection of products for another group.

    The overall approach to ANOVA is essentially the same as that of the Student's t-test we will apply the hypothesis testing procedure once more, but our test statistic and the critical value associated with that statistic will be different in this case. Our null hypothesis will once again be the following (or some similar formulation):

    H0 = The sample means do not vary significantly for the factor under test.

    The alternative hypothesis is then, of course, the negation of this statement.

    Ha = The sample means vary significantly for the factor under test.

    As with any hypothesis test, we must also choose a significance level. Also, as before, values of α = 0.05 and α = 0.01 are typical.

    We must now determine a test statistic that adequately takes the multiple sample groups into account. We'll assume that we have k sample groups, each of which has n samples (we make this latter assumption for simplicity at this point). Thus, for group 1, we have data <x11, x12, x13. x1n> for group 2, <x21, x22, x23. x2n> and so on. We identify a general data element as xji, Ở đâu j is the group number (1 to k) and i is the data item number (from 1 to n) in that group.

    We can calculate the overall sample mean across all groups by adding all the data values from every group and dividing by the total number of values. We'll call this "grand mean" . The formula for calculating the grand mean is expressed below. Note that because each of the k groups contains n values, the total number of values is kn.

    Each individual group j has a mean defined as follows. This is simply the sample mean for group j.

    As the name indicates, ANOVA involves analysis of variances. Let's use the definitions and nomenclature above to calculate some parameters along these lines. We start with the "variation between groups," which we label SSB note that this is variation, not variance. The variation is simply a sum of squares. In this case, we are calculating the sum of the squared differences between the group sample means and the grand mean. We also multiply by n, the number of samples in each group.

    We can also calculate the total variation within the groups (SSW). The expression for this case is more familiar--it is the sum of squares that we use in the sample variance formula, but it adds these sums across all groups.

    We can convert these variations into variances by dividing by the number of degrees of freedom in each case (this is the same thing we do when calculating a sample variance, for instance--in that case, the number of degrees of freedom is one less than the sample size). For the variation between groups (SSB), the number of degrees of freedom is one less than the number of groups, or k – 1. For the variation within groups (SSW), the number of degrees of freedom is the product of the number of groups and one less than the number of sample values-mathematically, k(n – 1). Let's then call the variance (technically, the "mean square") between groups and the variance (or "mean square") within groups. Then,

    We can use these variances to calculate a test statistic, which is called the F-test. The test statistic F is expressed below in terms of the formulas above:

    Although we followed a simpler approach to this statistic wherein the number of values in each sample group is equal to n, we can also calculate F for the more general case wherein the number of values in each sample group varies (we'll call nj the number of values in each group j). These more general formulas for and are given below.

    The formula for F remains the same.

    Các F statistic is then a ratio of variances. If the variance between groups is similar to the variance within groups, F will be relatively low. On the other hand, if the variance between groups is large compared with the variance within groups, then F will be relatively high. In the first case, the F-test is more likely to support the null hypothesis, whereas it is less likely to do so in the second case.

    Of course, we also need a critical value with which to compare our test statistic. As with the t-test and chi-square statistics, these critical values are available in tables. The tables involve more parameters, so they are not arranged in precisely the same manner as those of the Student's't and chi-square statistics. In this case, the each table has one associated significance level, with the vertical axis usually associated with the number of degrees of freedom of the denominator in the F statistic and the horizontal axis usually associated with the number of degrees of freedom in the numerator of the F statistic. In our case, the number of degrees of freedom in the denominator is k(n – 1) (this is for the case where n is constant across all groups), and the number of degrees of freedom in the numerator is k – 1. Using specific values and a determined significance level, we can find the critical value and then use it to complete the hypothesis testing procedure in the usual manner.

    The following practice problem illustrates the use of ANOVA and the F-test to determine whether the means of a few sample groups deviate significantly from one another.

    Practice Problem: Determine whether the sample means of the three data groups below deviate in a statistically significant manner (assume a significance level of 0.05).


    Xem video: Hướng dẫn SPSS. Kiểm định Phương sai một yếu tố One Way ANOVA trong SPSS One Way ANOVA in SPSS (Tháng Giêng 2022).