데이터 가공에 대해서 배웠다. 데이터 전처리, 데이터 핸들링, 데이터 마트 라고도 한다.
전체 데이터 중에서 필요한 데이터만을 추출할 때 사용할 변수를 선택하는 방식과, 원하는 조건 값에 맞는 데이터를 추출하는 방식이 있다.
select()함수는 데이터 세트에 있는 변수 중 필요한 변수만 추출할 수 있다. 주로 특정 열을 추출할 떄 쓴다.
필요한 조건을 지정하여 조건에 맞는 데이터만 추출하여 분석할 때는 filter()함수를 사용한다.
변수를 크기순으로 정렬하여 새로운 데이터를 만들거나 조회할 때는 arrange()함수를 사용한다.
변수의 함계를 구하거나 빈도를 도출하여 집단 간의 차이를 비교하는 등 데이터를 요약할 때는 summaries()와 group_by()함수를 사용한다.
2개 이상의 테이블을 결합하여 하나의 테이블로 만드는 과정을 결합이라고 한다. 세로 결합은 bind_rows()함수를 쓰며, 가로 결합은 3가지로 나뉘어지는데 left_join(), inner_join(), full_join() 함수를 사용한다.
확인문제 2번은 특정조건을 가진 데이터만 추출하는 것이므로 filter()함수를 사용한다.
필터함수를 사용할 때는 논리연산자 또한 잘 숙지하고 있어야 한다.
체인연산자 또는 파이프 연산자라고 하는데 %>%를 사용한다.
%>%를 찾을 수 없다고 해서 계속 고생했는데, dplyr패키지를 설치하지 않아서였다
두가지 조건을 추출하려면 사이에 &를 넣으면 된다
'혼공R이(한빛)' 카테고리의 다른 글
6주차(마지막) 기본미션: 그래프에 그래프 더하기 (0) | 2022.08.20 |
---|---|
혼공 R 1~4주차 선택미션 (0) | 2022.08.06 |
4주차 기본미션; p.169의 iris 내장 데이터 세트의 데이터 구조 출력하고 인증샷 (0) | 2022.07.31 |
3주차 선택미션:p.143의 확인문제 2번 풀고 인증샷 (0) | 2022.07.24 |
3주차 기본 미션 :p.113의 확인문제 6번 풀고 인증샷 (0) | 2022.07.24 |