수업 과제

Author

홍길동 (2025012345)

Published

March 27, 2026

Task 1

이전 슬라이드에서 녹색 파스타 비율을 포함하는 data.frame을 생성하시오. 이 데이터 프레임의 이름을 pasta로 지정하고, 비율을 포함하는 변수를 prop_green으로 설정하시오.
(힌트: data.frame() 함수를 사용하여 데이터 프레임을 생성할 수 있음.)
비율 값은 다음과 같음: (0.7, 0.7, 0.5, 0.5, 0.3, 0.5, 0.4, 0.45, 0.55, 0.4, 0.35, 0.45, 0.45, 0.7, 0.55, 0.5, 0.35, 0.65)

pasta <- data.frame(prop_green = c(0.7,0.7,0.5,0.5,0.3,0.5,0.4,0.45,0.55,0.4,0.35,0.45,0.45,0.7,0.55,0.5,0.35,0.65))

ggplot2를 사용하여 이 비율의 히스토그램을 생성하시오.
geom_histogram() 함수에서 다음 매개변수를 사용하시오:
boundary = 0.325, binwidth = 0.05.

library(tidyverse)
pasta %>%
    ggplot(aes(x = prop_green)) +
    geom_histogram(boundary = 0.325, binwidth = 0.05, color = "white", fill = "darkgreen")

무엇을 관찰할 수 있는가?

약간 정규분포처럼 보이기 시작

Task 2

33개의 표본만 추출하는 대신, 이번에는 1000개를 추출해보자!

데이터 링크를 불러와 pasta 객체에 저장하라.

pasta <- read.csv("https://raw.githack.com/chung-jiwoong/FMB819-Slides/refs/heads/main/chapter_sampling/data/pasta.csv")

moderndive 패키지의 rep_sample_n() 함수를 사용하여 크기 50인 표본을 1000개 생성하라.

library(moderndive)
virtual_samples <- pasta %>% 
    rep_sample_n(size = 50, reps = 1000)

각 표본에서 초록색 파스타의 비율을 계산하라.

virtual_prop_green <- virtual_samples %>% 
    group_by(replicate) %>% 
    summarize(
        num_green = sum(color == "green"),
        sample_n = n()) %>% 
    mutate(prop_green = num_green / sample_n)

각 표본에서 얻은 초록색 파스타 비율의 히스토그램을 그리시오.

virtual_prop_green %>% ggplot(
    aes(x = prop_green)) +
    geom_histogram(
        binwidth = 0.02,
        boundary = 0.41,
        color = "white",
        fill = "darkgreen") +
    labs(x = "Proportion of green pasta in sample",
         y = "Frequency",
         title = "Distribution of 1000 samples of size 50") +
    theme_bw(base_size = 14)

무엇을 관찰할 수 있는가? 어떤 비율이 가장 자주 발생하는가? 33개의 표본을 사용할 때와 비교하여 히스토그램의 모양이 어떻게 달라지는가?

분포는 정규분포와 매우 유사해 보입니다. 가장 자주 나타나는 비율은 약 0.5입니다. 33개의 표본만 추출했을 때보다 분포 형태가 훨씬 더 정규분포에 가까워졌습니다.

추출한 50개의 파스타 중 초록색 파스타가 20% 미만일 확률은 얼마나 되는가?

그럴 가능성은 극히 낮습니다.