혼공R이(한빛)

5주차: 244p 확인문제 2번 풀기(데이터 추출)

릴리Yu 2022. 8. 13. 15:40

데이터 가공에 대해서 배웠다. 데이터 전처리, 데이터 핸들링, 데이터 마트 라고도 한다.

전체 데이터 중에서 필요한 데이터만을 추출할 때 사용할 변수를 선택하는 방식과, 원하는 조건 값에 맞는 데이터를 추출하는 방식이 있다.

select()함수는 데이터 세트에 있는 변수 중 필요한 변수만 추출할 수 있다. 주로 특정 열을 추출할 떄 쓴다. 

필요한 조건을 지정하여 조건에 맞는 데이터만 추출하여 분석할 때는 filter()함수를 사용한다. 

변수를 크기순으로 정렬하여 새로운 데이터를 만들거나 조회할 때는 arrange()함수를 사용한다. 

변수의 함계를 구하거나 빈도를 도출하여 집단 간의 차이를 비교하는 등 데이터를 요약할 때는 summaries()와 group_by()함수를 사용한다.

2개 이상의 테이블을 결합하여 하나의 테이블로 만드는 과정을 결합이라고 한다. 세로 결합은 bind_rows()함수를 쓰며, 가로 결합은 3가지로 나뉘어지는데 left_join(), inner_join(), full_join() 함수를 사용한다. 

 

 

확인문제 2번은 특정조건을 가진 데이터만 추출하는 것이므로 filter()함수를 사용한다.

필터함수를 사용할 때는 논리연산자 또한 잘 숙지하고 있어야 한다.

체인연산자 또는 파이프 연산자라고 하는데 %>%를 사용한다. 

%>%를 찾을 수 없다고 해서 계속 고생했는데, dplyr패키지를 설치하지 않아서였다

두가지 조건을 추출하려면 사이에 &를 넣으면 된다