일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- Pay1oad
- sys
- CodeEngn
- Database
- __main__
- enumerate
- Android 서명
- __name__
- rps.apk
- RPS
- android
- 릴레이션 생성
- 데이터베이스
- Python
- SQL
- select
- r
- 인자 전달
- 스키마 생성
- 데이터 무결성
- SECCON
- ADB
- Android 디컴파일
- db
- main
- ZIP
- 무결성 제약조건
- Programming
- Today
- Total
목록Computer engineering (34)
블로그

그래프(Graph) 데이터를 보기 쉽게 그림으로 표현한 것이다. 데이터를 그림으로 표현하면 추세와 경향성이 드러나기 때문에 특징을 쉽게 이해할 수 있고, 그래프를 만드는 과정에서 새로운 패턴을 발견할 수 있습니다. ggplot2 패키지 ggplot2는 그래프를 만들때 가장 많이 사용하는 그래프 입니다. ggplot2문법은 레이어(layer)구조로 되어있습니다. 배경을 만들고, 위에 그래프 형태를 그리고, 마지막으로 축 범위, 색, 표식 등 설정을 추가하는 순서로 그래프를 그립니다. 이번에는 산점도, 막대 그래프, 선 그래프, 상자 그림을 만들어보겠습니다. 산점도 데이터를 x축과 y축에 점으로 표현한 그래프 연속 값으로 된 두 변수의 관계를 표현할 때 사용됩니다. 1. 배경 설정하기 library(ggpl..
데이터 품질 관리 (DQM, Data Quality Management) 데이터 클린징이라고도 불리며, 데이터에서 잘못된 부분을 수정하고 높은 퀄리티를 가지게 관리 및 개선하는 활동 이상감지 (ANOMALY DETECTION) 말 그대로 이상한 것을 찾는 것 시간 또는 순서가 있는 프름에 따른 패턴이 보편적인 상황 또는 보편적이 패턴들과 다른 것들을 찾아내는 것이다. 아웃라이어 감지 (Outlier Detection) 시간과 관련이 없이 대상을 표현하는 숫자들의 위치를 보고 보편적인 대상과 벗어난 것을 찾아내는 것. 출처 http://intothedata.com/02.scholar_category/anomaly_detection/ 2019-04-12

aggr() 설명 원문 Calculate or plot the amount of missing/imputed valued in each variable and the amount of missing/imputed values in certain combinations of variables. 해석 어떤 변수들의 조합 안에서 결측치나 극단치의 양과 각각의 변수에서 결측치나 극단치의 양을 그래프화 해주거나 계산해준다. 사용 aggr(x, delimiter = NULL, plot = TRUE, ...)인자 X : 데이터프레임 또는 매틑릭스의 벡터 delimiter : 변수와 imputation-indices의 사이를 구별해주는 문자 백터를 위한 imputed variables plot : 결과를 표시해야하는지..

데이터 불러오기 제가 사용한 데이터는 제가 운영진으로 있는 동아리 가입 신청서를 가지고 해봤습니다. library(readxl) library(dplyr) df_data 201700000, 2017, ifelse(df_data$number > 201600000, 2016, ifelse(df_data$number > 201500000, 2015, ifelse(df_data$number > 201400000, 2014, ifelse(df_data$number > 201300000, 2013, 2012))))))) # 길구만.. 일단 학번의 앞에 4자리는 입학년도를 나타내기때문에 2019xxxxx면 2019로 바꿔주고, 2018xxxxx면 2018로 바꿔 주는 작업을 했습니다. 그런다음 qplot()함수를 사..

극단치 논리적으로 존재할 수 있지만 극단적으로 크거나 작은 값을 '극단치'라고 합니다. 데이터에 극단치가 있으면 분석 결과가 왜곡될 수 있기 때문에 분석하기 전에 제거해야합니다. 극단치를 제거하려면 먼저 어디까지를 정상 범위로 볼 것인지 정해야합니다. 가장 쉬운 방법은 논리적으로 판단해 정하는 것입니다. 두번째는 통계적인 기준을 이용하는 것입니다. 상자 그림으로 극단치 기준 정하기 상자 그림은 데이터의 분포를 직사각형의 상자 모양으로 표현한 그래프입니다. 상자 그림을 보면 데이터의 분포를 한눈에 알 수 있습니다. 상자 그림에는 중심에서 멀리 떨어진 극단치가 점으로 표현되는데, 이를 이용해 극단치의 기준을 정할 수 있습니다. 먼저 mpg데이터의 hwy변수로 상자 그림을 만들어 보겠습니다. boxplot()..
이상치 정상 범주에서 크게 벗어난 값을 '이상치(Outlier)'라고 합니다. 데이터 수집 과정에서 오류가 발생할 수 있기 때문에 실제 데이터에는 이상치가 포함될 수 있습니다. 혹은 굉장히 드물게 발생하는 극단적인 값이 있을 수도 있습니다. 이러한 이상치가 포함되어있으면 분석 결과가 왜곡되기 때문에 앞서 이상치를 제거하는 작업을 해야 합니다. 이상치 제거하기 - 존재할 수 없는 값 먼저 이상치가 포함된 데이터를 생성하겠습니다. sex는 1과 2만 나올 수 있고, score는 1부터 5까지의 값만 들어갈 수 있습니다. 즉, 4행의 sex와 6행의 score에 이상치가 들어있습니다. outlier % group_by(sex) %>% summarise(mean_score = mean(score)..
결측치 결측치(Missing Value)는 누락된 값, 비어 있는 값을 의미합니다. 결측치가 있으면 함수가 적용되지 않거나 분석 결과가 왜곡되는 문제가 발생합니다. 따라서 결측치가 있는지 확인하고 제거하는 정제과정이 필요합니다. 결측치 찾기 R에서는 결측치를 대문자 NA로 표시합니다. 결측치는 따옴표가 없다는 것에 유의합니다. 따라서 따옴표가 있으면 결측치가 아니라 영문자 "NA"를 의미합니다. df % filter(!is.na(score)) sex score 1 M 5 2 F 4 3 3 4 M 4 이렇게 추출한 데이터로 데이터 프레임을 만들면 결측치가 없는 데이터가 됩니다. df_nomiss %filter(!is.na(score)) # score 결측치 제거 mean(df_nomiss$score) # ..
dplyr패키지 설치하기 우선 dplyr패키지를 사용하기 위해서는 설치를 해야한다. library(dplyr) #dplyr설치 dplyr 패키지에 있는 함수 알아보기 많이 사용하는 함수들 종류 dplyr 함수 기능 filter() 행 추출 select() 열 추출 arrnage() 정렬 mutate() 변수 추가 summarise() 통계치 산출 group_by() 집단별로 나누기 left_join() 데이터 합치기(열) bind_rows() 데이터 합치기(행) 함수들을 소개할때에는"Doit R" 이라는 책에서 제공하는"csv_exam.csv"데이터파일을 사용해서 진행하겠습니다. exam % filter(class == 1) #class의 값이 1인 행을 추출 id class math english sc..