반응형
알겠습니다. Pandas library를 활용한 데이터 필터링에 대한 예제에 대해 알아보도록 하겠습니다.



서론

---

데이터 분석은 우리의 삶과 사회에서 매우 중요한 역할을 합니다. 이러한 데이터 분석에는 다양한 방법과 도구들이 사용됩니다. 그 중에서도 Pandas library는 데이터 분석에 있어 매우 유용하게 사용되는 라이브러리중 하나입니다. 이번 예제에서는 Pandas library를 사용하여 데이터 필터링 하는 방법을 알아보도록 하겠습니다.



예시

---

이번 예제에서는 대학교의 성적 우수자 중에서 학부를 기준으로 데이터를 추출하는 방법을 다루겠습니다. 예제에 사용할 데이터는 다음과 같이 생겼습니다.



```

학번, 이름, 학부, 학년, 성적

101, 김철수, 경영학부, 2, 3.5

102, 박영희, 컴퓨터공학부, 3, 4.0

103, 최민수, 경제학부, 1, 2.7

104, 강동호, 영어전문학부, 4, 3.9

105, 이호연, 경영학부, 2, 3.2

```



위의 데이터에서 우리는 학부가 경영학부인 학생들만 추출할 것입니다. 이를 위해서 Pandas library의 `read_csv()` 함수를 사용해 데이터를 불러올 것입니다. 코드를 보면 다음과 같습니다.



```python

import pandas as pd



data = pd.read_csv('data.csv')

```



이제 데이터를 불러온 후, `loc()` 함수를 사용하여 `학부`가 `경영학부`인 데이터만 추출하도록 하겠습니다. 이를 위해서는 다음과 같이 코드를 작성하면 됩니다.



```python

import pandas as pd



data = pd.read_csv('data.csv')



filtered_data = data.loc[data['학부'] == '경영학부']

print(filtered_data)

```



실행 결과는 다음과 같습니다.



```

학번 이름 학부 학년 성적

0 101 김철수 경영학부 2 3.5

4 105 이호연 경영학부 2 3.2

```



위의 코드에서 `data['학부'] == '경영학부'`는 `학부`가 `경영학부`인 데이터를 추출하라는 의미입니다.



활용발안

---

이번 예제에서는 필터링 조건을 추가해보도록 하겠습니다. `학년`이 `3`학년 이상이면서 `성적`이 `3.5` 이상인 학생들을 추출하도록 하겠습니다.



이를 위해서는 다음의 코드를 작성할 수 있습니다.



```python

import pandas as pd



data = pd.read_csv('data.csv')



filtered_data = data.loc[(data['학년'] >= 3) & (data['성적'] >= 3.5)]

print(filtered_data)

```



실행 결과는 다음과 같습니다.



```

학번 이름 학부 학년 성적

1 102 박영희 컴퓨터공학부 3 4.0

3 104 강동호 영어전문학부 4 3.9

```



위의 코드에서 `&`는 `and`를 의미합니다.



결론

---

이번 예제에서는 Pandas library를 사용하여 데이터를 필터링하는 방법에 대해 알아보았습니다. Pandas library는 데이터 분석에서 꼭 필요한 라이브러리이니, 더 많이 공부하여 데이터 분석 역량을 키우시길 바랍니다. 감사합니다.
반응형

+ Recent posts