티스토리 뷰

반응형

0. 지난 포스트

파이썬에 대해서 여러 포스트를 작성하면서 판다스를 초반에 다뤘습니다. 특히 엑셀을 통해 자료를 불러오고 병합하는 내용은 실무에서 직접적으로 활용할 수 있는 내용입니다.
다만, 실제 프로그램을 배우기 위해서는 기초부터 탄탄하게 준비하는 것이 매우 중요합니다. 그래서 이번 포스트에서는 지난번 포스트에서 놓쳤던 기초를 살짝 다뤄보도록 하겠습니다.
https://dataleader.tistory.com/20
 

[파이썬(Python) 이야기 1화] 파이썬에서 엑셀(Excel) 데이터 불러오기

0. 파이썬에서 엑셀을 불러오기 위해서는 어떻게 해야할까? 데이터 분석을 하기위해서, 다양한 작업을 해야하지만, 그 중에서 자주 반복적으로 접하게 되는 부분이 엑셀을 불러오는 일입니다.

dataleader.tistory.com

 

https://dataleader.tistory.com/23

 

[파이썬(Python) 이야기 3화] 파이썬에서 엑셀(Excel)에 데이터를 입력하기

0. 지난화에서 엑셀(Excel) 데이터를 판다스(pandas)를 통해서 읽어보았다~ 그럼 쓰는건? 지난화에서는 pandas를 통해 read_excel 함수를 통해서, 엑셀에 있는 데이터를 읽어 보았습니다. 그렇다면, 쓰는

dataleader.tistory.com

 

https://dataleader.tistory.com/24

 

[파이썬(python) 이야기 4화] 폴더 내 파일 검색하기, 폴더 내 파일 정보 데이터 프레임으로 저장하

0. 폴더 검색? 프로그램을 개발할 때 종종 폴더를 검색해 파일을 수정하는 경우가 발생합니다. 그러나 파일이 하나일 경우에는 크게 문제가 없지만, 파일이 여러 개일 경우 어떻게 해야할 까요?

dataleader.tistory.com

 
[블로그 글 추가]

1.  판다스의 기본 데이터 프레임 만들기(dataframe생성하기)

판다스는 데이터프레임을 조작하기 위한 모듈입니다. 그렇다면 먼저 데이터 프레임은 어떻게 만드는 것일까요?

 

[데이터프레임을 만다는 방법]

1) "컬러명을 명명한다"

2) 아이템들을 작성한다

3) pandas.Dataframe으로 데이터 프레임을 작성한다.

 

여기서 컬럼명(column)은 '이름'이 됩니다. 그리고 아이템(item)은 '홍길동', '세종대왕', '이순신'이 됩니다.

import pandas

#여기서 반드시 [] 브라켓 처리를 해 주어야 합니다.
#마지막은 {} 브레이스로 마무리
data ={'이름':['홍길동', '세종대왕', '이순신']}
myDataframe = pandas.Dataframe(data)

print(myDataframe)​

컬럼이 하나 더 있는 경우는?
 
data에 브라켓 형식으로 동일하게 컬럼을 지정해서 정리하면 됩니다.
import pandas

#여기서 반드시 [] 브라켓 처리를 해 주어야 합니다.
#마지막은 {} 브레이스로 마무리
data ={'이름':['홍길동', '세종대왕', '이순신'],
'나이':['20', '30', '40']}
myDataframe = pandas.DataFrame(data)
print(myDataframe)

2.  판다스의 기본 데이터 프레임(dataframe) 인덱싱(Indexing)

그렇다면 데이트프레임에서 인덱싱을 하는 방법에 대해서 살펴보겠습니다. 

[인덱싱이란?] 인덱싱은 데이터 구조에서 개별 요소에 접근하기 위해서 사용되는 번호나 위치를 나타냅니다. 

데이터프레임의 인덱싱은 크게 두 가지 방식으로 구분하여 인덱싱할 수 있습니다. 하나는  위치기반 인덱싱이라하고 다른 하나는 라벨기반의 인덱싱이라고 합니다. 데이트프레임이 생성되면 기본적으로 생성되는 것으로 한줄 한줄에 인덱싱  숫자가 부여되는 것을 의미합니다.  

위치기반 인덱싱  iloc는 행과 열을 0부터 시작하는 정수 인덱스를 사용하여 접근하는 방법입니다.

 

import pandas

data ={'이름':['홍길동', '세종대왕', '이순신'],
'나이':['20', '30', '40']}

myDataframe = pandas.DataFrame(data)
print(myDataframe.iloc[1]) #첫 번째 행에 접근하는 방법
print(myDataframe.iloc[:,0]) # 두번째 열에 접근하는 방법

다음은 라벨기반의 인덱싱에 대해서 알아보겠습니다. 

라벨기반 인덱싱은 데이터프레임의 행과 열을 지정된 라벨을 사용하여 접근하는 방식입니다. 라벨인덱싱과 위치기반의 인덱싱의 가장 큰 차이점은 라벨 인덱싱을 사용할 경우, 조건형 검색이 가능하다는 점이고,  set_index()를 통해서 사용자 인덱스를 적용할 경우도, 라벨인덱싱을 사용해야만 한다는 점이 가장 큰 차이점 입니다. 

다만 이번 포스트에서는 간단한 사용법만 익히고 loc와 iloc, 그리고  set_index 등 좀 더  세부적으로 다시 다루도록 하겠습니다. 

import pandas

data ={'이름':['홍길동', '세종대왕', '이순신'],
'나이':['20', '30', '40']}
myDataframe = pandas.DataFrame(data)
print(myDataframe.loc[0])
print(myDataframe.loc[:,'이름'])

 

 

3. 데이터프레임을 리스트/튜플로 만드는 방법


마지막으로  데이터프레임을 리스트와 튜플로 변환하는 방법에 대해서 알아보겠습니다. 리스트와 튜플의 차이점을 아래와 같습니다. 

아래의 코드는 리스트를 만들기 위해 values.to_list()를, 튜플로 만들기 위해서는 to_record()를 이용합니다

import pandas
data ={'이름':['홍길동', '세종대왕', '이순신'],
'나이':['20', '30', '40']}
myDataframe = pandas.DataFrame(data)
#리스트로 만드는 방법
myDataframe.values.tolist()
#튜플로 만드는 방법
myDataframe.to_records()

 

4. 맺은말

 

 

이번 포스트에서는 데이터프레임(dataframe)의 아주 기초적인 부분을 다뤄보았습니다. 데이터프레임은 많은 기능을 담고 있습니다. 하나에 포스트에 담기는 무척 어렵습니다. 더 많은 내용을 연재를 통해 다뤄보도록 하겠습니다. 많은 관심 부탁드립니다. 

반응형
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함