R에서 사용하는 기본 데이터형
3. R에서 사용하는 기본 데이터형
1) 숫자형과 주요 산술연산자
- 우선순위에 주의한다.
기호 |
의미 |
사용 예 -> 결과 |
+ |
더하기 |
(생략) |
- |
빼기 |
(생략) |
* |
곱하기 |
(생략) |
/ |
나누기(실수)(소수점 이하까지 나온다.) |
(생략) |
%/% |
나누기(정수) |
(생략) |
%% |
나머지 |
5%%4 -> 1 |
^ , ** |
승수(제곱) |
3^2 ->9 3**3 -> 27 |
**숫자형의 경우 길이가 길 경우 아래와 같은 형식으로 쓴다.
* as.numeric : 숫자처럼 생긴 문자의 경우, 숫자로 강제 변환한다.
ex) 3 : 숫자
"3" : 문자
'3' : 문자
2) 문자형
** class()함수 : 어떤 데이터가 숫자형인지 문자형인지 알아 보고 싶은 경우.
3) TRUE / FALSE 값 (진리값)
& |
양쪽 데이터가 모두 참인 경우만 결과가 참. (곱하기) |
| |
두 값 중 한가지만 참이어도 결과가 참. (더하기) |
! |
해당 데이터가 아닌 것. (NOT) |
4) NA형 & NULL형
NA (Not Applicable / Not Available) |
값이 있어도 정해진 범위 안에 있는 값이 아니라서 사용할 수 없는 경우 - 연산 대상에 포함된다. |
NULL |
값이 정해지지 않아서 얼마인지 모름. - 연산 대상에서 제외된다. |
- na.rm 파라미터 : NA값이 있을 경우 연산할 때 문제가 되므로, NA값을 수동으로 제거해줘야 한다. (반드시 소문자로 써야됨.)
5) Factor 형 ★ : 여러 번 중복으로 나오는 데이터들을 대표값으로 출력해주는 형태.
- c()함수 : combine value라는 의미로 여러 개의 값을 한꺼번에 처리해야 할 경우 사용되는 함수.
- 각각의 빈도수도 계산해서 숫자로 바꿔 저장된다.
* stringAsFactors=FALSE 옵션 : 만약에 factor 형태로 바꾸지 않고 있는 그대로 사용하고 싶을 경우, 대표값으로 정리하지 않고 중복되는 상태 그대로 사용하게 해준다.
6) 날짜와 시간
R에서는 날짜만 볼 수 있는 함수가 있고, 날짜+시간까지 함께 볼 수 있는 함수가 있다.
(1) 기존방법으로 날짜와 시간 제어.
* 문자형태로 저장된 날짜를 '날짜형태'로 변경 : as.Date(' ')
* "YYYY-MM-DD" 형태를 가지고 날짜 표현 : format="%d-%m-%Y"
* format 뒤에 나오는 형식
형식 |
의미 |
%d |
일 을 숫자로 인식 |
%m |
월 을 숫자로 인식 |
%b |
월 을 영어 약어로 인식 |
%B |
월 을 전체 이름으로 인식 |
%y |
년도를 숫자 두 자리로 인식 |
%Y |
년도를 숫자 네 자리로 인식 |
* 특정 날짜 기준으로 며칠 전이나 후를 알고 싶은 경우 : origin
- 문자는 산술연산을 할 수 없으므로, 날짜로 변경해서 계산할 수 있다.
- 날짜에 숫자를 더하거나 빼면, 일 수가 더해진다.
* R에서 날짜의 두가지 클래스
POSIXlt |
날짜를 년,월,일로 표시하는 리스트형이라는 클래스 |
POSIXct |
날짜를 연속적인 데이터로 인식해서 1970년을 기준으로 초 단위로 계산한다. |
- as.Date()함수는 날짜까지만 연산이 가능하고, as.POSIXct함수는 시간 단위까지 연산이 가능하다.
(2) lubridate 패키지로 날짜와 시간 제어.
- 먼저 lubridate패키지를 설치합니다.
- 현재 날짜와 시간 볼 때 : now()
- 년도만 출력할 때 : year()
- 월만 출력할 때 : month()
- 요일 출력할 때 : wday()
- 날짜 출력시 영문이름의 약자로 출력 : label=T 옵션
- 날짜 출력시 숫자로 출력 : label=F 옵션