데이터프레임이란?

데이터 분석에서 많이 사용되는 객체 자료형으로 2차원 배열, 엑셀처럼 표현되는 데이터라고 말할 수 있습니다.

아래 소스코드를 보고 결과를 하면 바로 이해가 될 겁니다.

 

1. 딕셔너리를 이용한 데이터프레임 생성

[소스]

import pandas as pd

friend_dict_list = [
    {'Name' : 'John', 'Age' : 25, 'Job' : 'student' },
    {'Name' : 'Cho', 'Age' : 30, 'Job' : 'teacher' }
]

df = pd.DataFrame(friend_dict_list)

 

[결과]

딕셔너리의 key, value값을 이용하여 데이터프레임 생성시 위처럼 key 부분은 컬럼명이 되고 값은 컬럼에 해당하는 값이 됩니다.

위와 같은 경우 행이 늘어남에 따라 컬럼명도 똑같이 써주어야 하기 때문에 조금은 비효율적인 방법입니다.

 

2. 컬럼순서에 따른 데이터프레임 생성

[소스]

import pandas as pd
from collections import OrderedDict #컬럼 순서를 지정하면서 데이터 프레임을 구성
friend_ordered_dict = OrderedDict(
    [
        ('name', ['John', 'Nate']),
        ('age', [25, 30]),
        ('job', ['student', 'teacher']),
    ]
)
df = pd.DataFrame.from_dict(friend_ordered_dict)

 

[결과]

위 코드의 장점은 컬럼명을 한번만 써주어도 되는 편리함이 있습니다.

 

 

3. 리스트를 이용한 데이터프레임 생성

[소스]

import pandas as pd

friend_list = [
    ['John', 20, 'student'],
    ['Nate', 30, 'teacher'],
] #리스트를 사용하여 데이타 프레임을 구성하는 방법(값을 먼저 구성)

column_name = ['name', 'age', 'job'] #컬럼지정
df = pd.DataFrame.from_records(friend_list, columns = column_name) #데이타 프레임 생성

 

[결과]

위와 같은 경우 데이터와 컬럼명을 각각 리스트로 따로 정의하고 적용한 결과입니다.

columns 속성을 이용하면 이처럼 컬럼명을 쉽게 지정할 수 있습니다.

 

 

+ Recent posts