'Computer engineering/R' 카테고리의 글 목록 (2 Page)

Notice

Recent Posts

Recent Comments

Link

GitHub

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

목록Computer engineering/R (19)

블로그

데이터 정제하기 - 극단치

극단치 논리적으로 존재할 수 있지만 극단적으로 크거나 작은 값을 '극단치'라고 합니다. 데이터에 극단치가 있으면 분석 결과가 왜곡될 수 있기 때문에 분석하기 전에 제거해야합니다. 극단치를 제거하려면 먼저 어디까지를 정상 범위로 볼 것인지 정해야합니다. 가장 쉬운 방법은 논리적으로 판단해 정하는 것입니다. 두번째는 통계적인 기준을 이용하는 것입니다. 상자 그림으로 극단치 기준 정하기 상자 그림은 데이터의 분포를 직사각형의 상자 모양으로 표현한 그래프입니다. 상자 그림을 보면 데이터의 분포를 한눈에 알 수 있습니다. 상자 그림에는 중심에서 멀리 떨어진 극단치가 점으로 표현되는데, 이를 이용해 극단치의 기준을 정할 수 있습니다. 먼저 mpg데이터의 hwy변수로 상자 그림을 만들어 보겠습니다. boxplot()..

Computer engineering/R 2019. 4. 11. 14:46

데이터 정제하기 - 이상치

이상치 정상 범주에서 크게 벗어난 값을 '이상치(Outlier)'라고 합니다. 데이터 수집 과정에서 오류가 발생할 수 있기 때문에 실제 데이터에는 이상치가 포함될 수 있습니다. 혹은 굉장히 드물게 발생하는 극단적인 값이 있을 수도 있습니다. 이러한 이상치가 포함되어있으면 분석 결과가 왜곡되기 때문에 앞서 이상치를 제거하는 작업을 해야 합니다. 이상치 제거하기 - 존재할 수 없는 값 먼저 이상치가 포함된 데이터를 생성하겠습니다. sex는 1과 2만 나올 수 있고, score는 1부터 5까지의 값만 들어갈 수 있습니다. 즉, 4행의 sex와 6행의 score에 이상치가 들어있습니다. outlier % group_by(sex) %>% summarise(mean_score = mean(score)..

Computer engineering/R 2019. 4. 11. 14:41

데이터 정제하기 - 결측치

결측치 결측치(Missing Value)는 누락된 값, 비어 있는 값을 의미합니다. 결측치가 있으면 함수가 적용되지 않거나 분석 결과가 왜곡되는 문제가 발생합니다. 따라서 결측치가 있는지 확인하고 제거하는 정제과정이 필요합니다. 결측치 찾기 R에서는 결측치를 대문자 NA로 표시합니다. 결측치는 따옴표가 없다는 것에 유의합니다. 따라서 따옴표가 있으면 결측치가 아니라 영문자 "NA"를 의미합니다. df % filter(!is.na(score)) sex score 1 M 5 2 F 4 3 3 4 M 4 이렇게 추출한 데이터로 데이터 프레임을 만들면 결측치가 없는 데이터가 됩니다. df_nomiss %filter(!is.na(score)) # score 결측치 제거 mean(df_nomiss$score) # ..

Computer engineering/R 2019. 4. 11. 14:41

dplyr 패키지 활용하기

dplyr패키지 설치하기 우선 dplyr패키지를 사용하기 위해서는 설치를 해야한다. library(dplyr) #dplyr설치 dplyr 패키지에 있는 함수 알아보기 많이 사용하는 함수들 종류 dplyr 함수 기능 filter() 행 추출 select() 열 추출 arrnage() 정렬 mutate() 변수 추가 summarise() 통계치 산출 group_by() 집단별로 나누기 left_join() 데이터 합치기(열) bind_rows() 데이터 합치기(행) 함수들을 소개할때에는"Doit R" 이라는 책에서 제공하는"csv_exam.csv"데이터파일을 사용해서 진행하겠습니다. exam % filter(class == 1) #class의 값이 1인 행을 추출 id class math english sc..

Computer engineering/R 2019. 4. 4. 23:48

분석 도전(쉽게 배우는 R데이터 분석 160p)

데이터 가지고 오기 데이터 모양 확인 데이터 타입 확인 데이터 기초 분석 데이터 클린징 데이터 시각화 다음과 같은 과정을 통해서 문제1, 문제2, 문제3, 문제4를 해결한다. 문제1 popadults는 해당 지역의 성인 인구, poptotal은 전체 인구를 나타냅니다. midwest데이터에 '전체 인구 대비 미성년 인구 백분율' 변수를 추가하세요. library(dplyr) # dplyr라이브러리 불러오기 midwest % arrange(desc(tot)) %>% select(tot, county) %>% head(5) tot county 1 51.50117 ISABELLA 2 50.59126 MENOMINEE 3 49.32073 ATHENS 4 49.05918 MECOSTA 5 47.35818 MONR..

Computer engineering/R 2019. 4. 4. 23:46

분석 도전(쉽게 배우는 R데이터 분석 123p)

데이터 가지고 오기 데이터 모양 확인 데이터 타입 확인 데이터 기초 분석 데이터 클린징 데이터 시각화 다음과 같은 과정을 통해서 문제1, 문제2, 문제3, 문제4, 문제5를 해결한다. 문제1 ggplot2의 midwest 데이터를 데이터 프레임 형태로 불러온 다음 데이터의 특징을 파악하세요. library(ggplot2) # ggplot2 라이브러리 불러오기 midwest

Computer engineering/R 2019. 3. 29. 22:33

데이터를 파악해보자

exam 데이터 파악하기 csv_exam.csv을 불러오기 위해 다음과 같이 입력한다. exam

Computer engineering/R 2019. 3. 28. 16:04

데이터 프레임

데이터 프레임 만들기 데이터 프레임 만들기다음과 같은 데이터 프레임을 만들어 보겠습니다.이름영어점수수학점수김지훈9050이유진8060박동현60100김민지7020 변수 만들기우선 학생 네 명의 영어 점수와 수학 점수를 담은 변수를 각각 만듭니다.xxxxxxxxxxenglish

Computer engineering/R 2019. 3. 22. 19:55

Prev 1 2 3 Next

목록Computer engineering/R (19)

블로그

티스토리툴바