반응형
알겠습니다. Pandas library를 활용한 데이터 필터링에 대한 예제에 대해 알아보도록 하겠습니다.
서론
---
데이터 분석은 우리의 삶과 사회에서 매우 중요한 역할을 합니다. 이러한 데이터 분석에는 다양한 방법과 도구들이 사용됩니다. 그 중에서도 Pandas library는 데이터 분석에 있어 매우 유용하게 사용되는 라이브러리중 하나입니다. 이번 예제에서는 Pandas library를 사용하여 데이터 필터링 하는 방법을 알아보도록 하겠습니다.
예시
---
이번 예제에서는 대학교의 성적 우수자 중에서 학부를 기준으로 데이터를 추출하는 방법을 다루겠습니다. 예제에 사용할 데이터는 다음과 같이 생겼습니다.
```
학번, 이름, 학부, 학년, 성적
101, 김철수, 경영학부, 2, 3.5
102, 박영희, 컴퓨터공학부, 3, 4.0
103, 최민수, 경제학부, 1, 2.7
104, 강동호, 영어전문학부, 4, 3.9
105, 이호연, 경영학부, 2, 3.2
```
위의 데이터에서 우리는 학부가 경영학부인 학생들만 추출할 것입니다. 이를 위해서 Pandas library의 `read_csv()` 함수를 사용해 데이터를 불러올 것입니다. 코드를 보면 다음과 같습니다.
```python
import pandas as pd
data = pd.read_csv('data.csv')
```
이제 데이터를 불러온 후, `loc()` 함수를 사용하여 `학부`가 `경영학부`인 데이터만 추출하도록 하겠습니다. 이를 위해서는 다음과 같이 코드를 작성하면 됩니다.
```python
import pandas as pd
data = pd.read_csv('data.csv')
filtered_data = data.loc[data['학부'] == '경영학부']
print(filtered_data)
```
실행 결과는 다음과 같습니다.
```
학번 이름 학부 학년 성적
0 101 김철수 경영학부 2 3.5
4 105 이호연 경영학부 2 3.2
```
위의 코드에서 `data['학부'] == '경영학부'`는 `학부`가 `경영학부`인 데이터를 추출하라는 의미입니다.
활용발안
---
이번 예제에서는 필터링 조건을 추가해보도록 하겠습니다. `학년`이 `3`학년 이상이면서 `성적`이 `3.5` 이상인 학생들을 추출하도록 하겠습니다.
이를 위해서는 다음의 코드를 작성할 수 있습니다.
```python
import pandas as pd
data = pd.read_csv('data.csv')
filtered_data = data.loc[(data['학년'] >= 3) & (data['성적'] >= 3.5)]
print(filtered_data)
```
실행 결과는 다음과 같습니다.
```
학번 이름 학부 학년 성적
1 102 박영희 컴퓨터공학부 3 4.0
3 104 강동호 영어전문학부 4 3.9
```
위의 코드에서 `&`는 `and`를 의미합니다.
결론
---
이번 예제에서는 Pandas library를 사용하여 데이터를 필터링하는 방법에 대해 알아보았습니다. Pandas library는 데이터 분석에서 꼭 필요한 라이브러리이니, 더 많이 공부하여 데이터 분석 역량을 키우시길 바랍니다. 감사합니다.
서론
---
데이터 분석은 우리의 삶과 사회에서 매우 중요한 역할을 합니다. 이러한 데이터 분석에는 다양한 방법과 도구들이 사용됩니다. 그 중에서도 Pandas library는 데이터 분석에 있어 매우 유용하게 사용되는 라이브러리중 하나입니다. 이번 예제에서는 Pandas library를 사용하여 데이터 필터링 하는 방법을 알아보도록 하겠습니다.
예시
---
이번 예제에서는 대학교의 성적 우수자 중에서 학부를 기준으로 데이터를 추출하는 방법을 다루겠습니다. 예제에 사용할 데이터는 다음과 같이 생겼습니다.
```
학번, 이름, 학부, 학년, 성적
101, 김철수, 경영학부, 2, 3.5
102, 박영희, 컴퓨터공학부, 3, 4.0
103, 최민수, 경제학부, 1, 2.7
104, 강동호, 영어전문학부, 4, 3.9
105, 이호연, 경영학부, 2, 3.2
```
위의 데이터에서 우리는 학부가 경영학부인 학생들만 추출할 것입니다. 이를 위해서 Pandas library의 `read_csv()` 함수를 사용해 데이터를 불러올 것입니다. 코드를 보면 다음과 같습니다.
```python
import pandas as pd
data = pd.read_csv('data.csv')
```
이제 데이터를 불러온 후, `loc()` 함수를 사용하여 `학부`가 `경영학부`인 데이터만 추출하도록 하겠습니다. 이를 위해서는 다음과 같이 코드를 작성하면 됩니다.
```python
import pandas as pd
data = pd.read_csv('data.csv')
filtered_data = data.loc[data['학부'] == '경영학부']
print(filtered_data)
```
실행 결과는 다음과 같습니다.
```
학번 이름 학부 학년 성적
0 101 김철수 경영학부 2 3.5
4 105 이호연 경영학부 2 3.2
```
위의 코드에서 `data['학부'] == '경영학부'`는 `학부`가 `경영학부`인 데이터를 추출하라는 의미입니다.
활용발안
---
이번 예제에서는 필터링 조건을 추가해보도록 하겠습니다. `학년`이 `3`학년 이상이면서 `성적`이 `3.5` 이상인 학생들을 추출하도록 하겠습니다.
이를 위해서는 다음의 코드를 작성할 수 있습니다.
```python
import pandas as pd
data = pd.read_csv('data.csv')
filtered_data = data.loc[(data['학년'] >= 3) & (data['성적'] >= 3.5)]
print(filtered_data)
```
실행 결과는 다음과 같습니다.
```
학번 이름 학부 학년 성적
1 102 박영희 컴퓨터공학부 3 4.0
3 104 강동호 영어전문학부 4 3.9
```
위의 코드에서 `&`는 `and`를 의미합니다.
결론
---
이번 예제에서는 Pandas library를 사용하여 데이터를 필터링하는 방법에 대해 알아보았습니다. Pandas library는 데이터 분석에서 꼭 필요한 라이브러리이니, 더 많이 공부하여 데이터 분석 역량을 키우시길 바랍니다. 감사합니다.
반응형
'파이썬' 카테고리의 다른 글
| 넘파이(Numpy)의 reshape() 함수를 사용하여 다차원 배열의 차원을 변경하는 방법 (0) | 2023.04.14 |
|---|---|
| Pandas 데이터프레임에서 행/열 조건 필터링하기 (0) | 2023.04.14 |
| Pandas DataFrame의 concatenate() 함수 사용 방법 (0) | 2023.04.14 |
| Pandas로 데이터프레임 합치기 (0) | 2023.04.14 |
| Pandas 라이브러리의 groupby 함수를 활용한 데이터 분석 (0) | 2023.04.14 |