[학습] 데이터분석방법론: R 썸네일형 리스트형 Introductory statistics with R: chapter 14 Survival analysis 14.1 Essential concepts 생존분석의 큰 특징은 censored data를 포함한다는 것이다. 일정 기간동안 환자군을 관찰한다고 했을 때, 특정 event(사망 혹은 재발 등)가 발생하는 경우와 발생하지 않는 경우 이외에도 환자가 단순히 follow up loss가 되거나 다른 원인으로 사망하는 등의 경우가 있을 수 있고 이를 censored data 라고 함. Survival function: S(t) = 1-F(t) 특정 시간(기간)에 생존해있을 확률이며, event 발생에 대한 누적확률함수 F(t)를 1에서 빼준 값이 된다. Hazard function: h(t) = f(t)/S(t) 해당 t 시간에 생존한 환자가 아주 짧은 기간 내에 사망할 확률. .. 더보기 Introductory statistics with R: chapter 11 Multiple regression에 대해 다룹니다. Multiple regression이란, 회귀분석을 여러 변수에 대해서 시행하는 것을 말하며 아래와 같은 식으로 기술됩니다. * Plotting multivariate data 다변수 데이터를 분석할 때, 일단 기본적인 관계를 파악하기 위해 시각화를 해봅니다. pairs() 함수를 이용해 모든 변수 간의 "pairwise scatterplot"을 얻을 수 있습니다. 여러 변수들 각각의 쌍에 대해서 histogram이나 barchart 등을 만들어도 됩니다. 하지만 여러 쌍을 만들기엔 불편함이 있으니 pairs()를 사용! pairwise scatterplot의 장점은, 여러 변수 간의 관계가 한눈에 파악된다는 점입니다. 언뜻 봐도 선형 관계를 보이는 .. 더보기 Introductory statistics with R: chapter 10 이번 챕터에서는 advanced data handling에 대해 배운다. * Recoding variables cut() function 양적인 data를 명목변수(factor)로 바꿔주는 함수. 첫번째로 data, 두번째로 breakpoint vector를 지정해준다. interval에 포함되지 못한 자료들은 NA로 처리된다. right=T/F argument: default는 T로, interval이 좌측으로는 더보기 Introductory statistics with R: chapter 9 * Power and computation of sample size 이번 챕터에서는 test의 특성에 따라 필요한 sample size와 검정력을 계산하는 방법을 배운다. * The principles of power calculations 먼저 1, 2종 오류에 대해서 알아야 한다. 영가설이 사실인데 기각되었다: P( H1 | H0), type I error (1종 오류), alpha 영가설이 거짓인데 채택되었다: P ( H0 | H1), type II error (2종 오류), beta 1-beta는 틀린 가설을 기각하는 힘, 바로 power of the test (검정력)이 된다. 여기서 1종오류의 확률이 바로 significance level, alpha가 된다. 그리고 틀린 가설을 거절하는 가.. 더보기 Introductory statistics with R: chapter 8 테이블형 자료 분석을 다룬 챕터: prop.test, binom.test, chisq.test, fisher.test 함수에 대해 다룸. * 1-sample proportion test: binomial test Single proportion test란, 하나의 요인에 따라 집단을 둘로 나누고 한 집단에 속할 확률이 특정값인지 검증하는 과정을 말한다. 예를 들면, 215명의 환자를 랜덤추출 했을 때 39명의 환자가 천식을 가진 확률시행이 있다고 하자. 이 때 천식 발생확률이 15%인지 확인할 때 이 검정을 사용할 수 있다. 이 확률을 계산하기 위해서는 이항분포 B(n,p)가 사용된다. 하나의 집단에 속하는 확률을 p, 아닌 확률을 1-p로 둘 수 있고, n번의 시행(=n size의 샘플)을 했을 때 E.. 더보기 Introductory statistics with R: chapter 7 * ANOVA(Anaylsis of variance, 분산분석) and the Kruskal-Wallis test * One-way ANOVA 두 집단 이상의 평균값이 차이를 보이는지 확인할 때 사용하는 분석방법으로, 개념적으로는 "집단 내 분산"과 "집단 간 분산"의 비율을 이용해 차이를 확인하는 것이며 F 분포를 이용한다. Null hypothesis는 "집단 간 차이가 존재하지 않는다" 이며, 따라서 p-value가 유의수준 이하인 경우 "어느 집단 간에는 차이가 존재한다"는 의미가 된다. i개의 집단 간 비교를 시행하는 경우를 생각해보자. Xij는 i번째 집단의 j번째 관측치를 말한다. Xij 값은, 전체 평균 X bar에 집단 간 편차를 더하고, 거기에 i집단의 평균과 Xj와의 편차를 더한 값으.. 더보기 Introductory statistics with R: chapter 6 * Regression and correlation 회귀분석과 상관: 기본 통계 지식들 회귀분석은 단순 회귀분석, 다중회귀분석, 로지스틱 회귀분석, cox의 비례위험모형 등 다양하게 존재하지만 이 챕터에서는 단순 선형회귀분석에 대한 내용만을 다룬다. 복잡한 것들은 12챕터에서 다룰 듯. 회귀분석 시 1, 2, 3차 함수 등 다양한 차수의 함수를 이용할 수 있지만 보건의학연구에서는 선형회귀분석을 주로 사용. 단순회귀분석 b는 회귀계수(regression coefficient), a는 절편(intercept)이라고 함. e를 잔차(residual)이라고 한다. 잔차의 특성: 정규성 / 독립성 / 등분산성. 회귀모형에 대한 기본 가정 4가지 1) x와 y가 선형 관계에 있다: 산점도를 그려 확인 2) 오차항의.. 더보기 Introductory statistics with R: chapter 5 * 통계에 대한 기초적 지식 1) n개의 확률변수 Xi가 서로 독립이며 Xi~N(mu, sigma^2) 일 때, X bar ~ N(mu, sigma^2/n) X bar에 대한 표준화 확률변수 Z = X bar - mu/ (sigma/sqrt(n)) ~ N(0,1) 이 때, sigma/sqrt(n)을 SEM, standard error of mean (표준오차)라고 한다. 표준오차는 모평균의 추정치인 표본평균 이 가지는 표준편차(standard deviation of the sample-mean's estimate of a population mean) 임. 2) n개의 확률변수 Xi가 서로 독립이며 Xi~N(mu, sigma^2)일 때, 모집단의 분산 sigma^2를 모르는 경우 표본의 분산인 s^2으로.. 더보기 이전 1 2 다음