반응형
안녕하세요.
이번에는 Python으로 Hadoop에 있는 csv파일 내용 pandas를 사용하여 읽기 방법을 알아보려고 합니다.
from hdfs import InsecureClient
import pandas as pd
# hdfsIp - hadoop이 설치 되어 있는 IP를 써주시면 됩니다. ex) 192.168.1.1:9870
client = InsecureClient(hdfsIp)
# filePath - hadoop 기준 어디에 있는 파일인지 path를 설정해주시면 됩니다.
with client.read(filePath, encoding = 'utf-8') as data:
# header - 헤더를 제외하고 데이터를 불러오게 됩니다. / delimiter - csv 구분자를 지정해주는 기능입니다.
df = pd.read_csv(data, header = None, delimiter = ',', engine = 'python')
data.close()
위와 같이 주석으로 처리한 부분만 주의해주시면서 작성하시면 될 것 같습니다!
다음 시간에는 해당 내용을 다시 Hadoop에 넣어보는 시간을 가져보도록 하겠습니다. 감사합니다!
반응형
'Programming > Python' 카테고리의 다른 글
[Python] HEIC파일 JPG로 변환(HEIC to JPG) (5) | 2022.04.09 |
---|---|
ModuleNotFoundError: No module named 'gi' 해결 방안 (0) | 2021.12.22 |
[Python] 로컬에 있는 csv파일 Hadoop으로 복사하기 (0) | 2021.12.06 |
[Python] 윈도우에서 주피터 노트북 설치 및 실행 (0) | 2021.10.28 |
[Python] 파이썬 설치 및 실행 방법 (0) | 2021.10.19 |
댓글