본문 바로가기
Programming/Python

[Python] Hadoop에 있는 csv파일 내용 pandas를 사용하여 읽기

by JeeU147 2021. 12. 6.
반응형

안녕하세요.

이번에는 Python으로 Hadoop에 있는 csv파일 내용 pandas를 사용하여 읽기 방법을 알아보려고 합니다.

 

 



from hdfs import InsecureClient

import pandas as pd

# hdfsIp - hadoop이 설치 되어 있는 IP를 써주시면 됩니다. ex) 192.168.1.1:9870
client = InsecureClient(hdfsIp)

# filePath - hadoop 기준 어디에 있는 파일인지 path를 설정해주시면 됩니다.
with client.read(filePath, encoding = 'utf-8') as data:

# header - 헤더를 제외하고 데이터를 불러오게 됩니다. / delimiter - csv 구분자를 지정해주는 기능입니다.
df = pd.read_csv(data, header = None, delimiter = ',', engine = 'python')

data.close()

 
위와 같이 주석으로 처리한 부분만 주의해주시면서 작성하시면 될 것 같습니다!

다음 시간에는 해당 내용을 다시 Hadoop에 넣어보는 시간을 가져보도록 하겠습니다. 감사합니다!

반응형

댓글