일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- db
- Database
- select
- 인자 전달
- 릴레이션 생성
- 데이터 무결성
- Android 디컴파일
- ZIP
- 무결성 제약조건
- RPS
- android
- rps.apk
- SECCON
- Android 서명
- enumerate
- 스키마 생성
- Pay1oad
- Programming
- r
- SQL
- ADB
- Python
- 데이터베이스
- __main__
- __name__
- CodeEngn
- sys
- main
- Today
- Total
목록Computer engineering/R (19)
블로그

극단치 논리적으로 존재할 수 있지만 극단적으로 크거나 작은 값을 '극단치'라고 합니다. 데이터에 극단치가 있으면 분석 결과가 왜곡될 수 있기 때문에 분석하기 전에 제거해야합니다. 극단치를 제거하려면 먼저 어디까지를 정상 범위로 볼 것인지 정해야합니다. 가장 쉬운 방법은 논리적으로 판단해 정하는 것입니다. 두번째는 통계적인 기준을 이용하는 것입니다. 상자 그림으로 극단치 기준 정하기 상자 그림은 데이터의 분포를 직사각형의 상자 모양으로 표현한 그래프입니다. 상자 그림을 보면 데이터의 분포를 한눈에 알 수 있습니다. 상자 그림에는 중심에서 멀리 떨어진 극단치가 점으로 표현되는데, 이를 이용해 극단치의 기준을 정할 수 있습니다. 먼저 mpg데이터의 hwy변수로 상자 그림을 만들어 보겠습니다. boxplot()..
이상치 정상 범주에서 크게 벗어난 값을 '이상치(Outlier)'라고 합니다. 데이터 수집 과정에서 오류가 발생할 수 있기 때문에 실제 데이터에는 이상치가 포함될 수 있습니다. 혹은 굉장히 드물게 발생하는 극단적인 값이 있을 수도 있습니다. 이러한 이상치가 포함되어있으면 분석 결과가 왜곡되기 때문에 앞서 이상치를 제거하는 작업을 해야 합니다. 이상치 제거하기 - 존재할 수 없는 값 먼저 이상치가 포함된 데이터를 생성하겠습니다. sex는 1과 2만 나올 수 있고, score는 1부터 5까지의 값만 들어갈 수 있습니다. 즉, 4행의 sex와 6행의 score에 이상치가 들어있습니다. outlier % group_by(sex) %>% summarise(mean_score = mean(score)..
결측치 결측치(Missing Value)는 누락된 값, 비어 있는 값을 의미합니다. 결측치가 있으면 함수가 적용되지 않거나 분석 결과가 왜곡되는 문제가 발생합니다. 따라서 결측치가 있는지 확인하고 제거하는 정제과정이 필요합니다. 결측치 찾기 R에서는 결측치를 대문자 NA로 표시합니다. 결측치는 따옴표가 없다는 것에 유의합니다. 따라서 따옴표가 있으면 결측치가 아니라 영문자 "NA"를 의미합니다. df % filter(!is.na(score)) sex score 1 M 5 2 F 4 3 3 4 M 4 이렇게 추출한 데이터로 데이터 프레임을 만들면 결측치가 없는 데이터가 됩니다. df_nomiss %filter(!is.na(score)) # score 결측치 제거 mean(df_nomiss$score) # ..
dplyr패키지 설치하기 우선 dplyr패키지를 사용하기 위해서는 설치를 해야한다. library(dplyr) #dplyr설치 dplyr 패키지에 있는 함수 알아보기 많이 사용하는 함수들 종류 dplyr 함수 기능 filter() 행 추출 select() 열 추출 arrnage() 정렬 mutate() 변수 추가 summarise() 통계치 산출 group_by() 집단별로 나누기 left_join() 데이터 합치기(열) bind_rows() 데이터 합치기(행) 함수들을 소개할때에는"Doit R" 이라는 책에서 제공하는"csv_exam.csv"데이터파일을 사용해서 진행하겠습니다. exam % filter(class == 1) #class의 값이 1인 행을 추출 id class math english sc..

데이터 가지고 오기 데이터 모양 확인 데이터 타입 확인 데이터 기초 분석 데이터 클린징 데이터 시각화 다음과 같은 과정을 통해서 문제1, 문제2, 문제3, 문제4를 해결한다. 문제1 popadults는 해당 지역의 성인 인구, poptotal은 전체 인구를 나타냅니다. midwest데이터에 '전체 인구 대비 미성년 인구 백분율' 변수를 추가하세요. library(dplyr) # dplyr라이브러리 불러오기 midwest % arrange(desc(tot)) %>% select(tot, county) %>% head(5) tot county 1 51.50117 ISABELLA 2 50.59126 MENOMINEE 3 49.32073 ATHENS 4 49.05918 MECOSTA 5 47.35818 MONR..

데이터 가지고 오기 데이터 모양 확인 데이터 타입 확인 데이터 기초 분석 데이터 클린징 데이터 시각화 다음과 같은 과정을 통해서 문제1, 문제2, 문제3, 문제4, 문제5를 해결한다. 문제1 ggplot2의 midwest 데이터를 데이터 프레임 형태로 불러온 다음 데이터의 특징을 파악하세요. library(ggplot2) # ggplot2 라이브러리 불러오기 midwest

exam 데이터 파악하기 csv_exam.csv을 불러오기 위해 다음과 같이 입력한다. exam