본문 바로가기
반응형

hadoop4

[Python] 로컬에 있는 csv파일 Hadoop으로 복사하기 안녕하세요. 이번에는 Python으로 로컬에 있는 csv파일을 Hadoop으로 복사하는 방법을 알아보려고 합니다. from hdfs import InsecureClient # hdfsIp - hadoop이 설치 되어 있는 IP를 써주시면 됩니다. ex) 192.168.1.1:9870 client = InsecureClient(hdfsIp) # filePath - 로컬 기준 어디에 있는 파일인지 path를 설정해주시면 됩니다. with client.write(filePath, encoding = 'utf-8') as path: data.to_csv(path, index = False) 위와 같이 주석으로 처리한 부분만 주의해주시면서 작성하시면 될 것 같습니다! 감사합니다! 2021. 12. 6.
[Python] Hadoop에 있는 csv파일 내용 pandas를 사용하여 읽기 안녕하세요. 이번에는 Python으로 Hadoop에 있는 csv파일 내용 pandas를 사용하여 읽기 방법을 알아보려고 합니다. from hdfs import InsecureClient import pandas as pd # hdfsIp - hadoop이 설치 되어 있는 IP를 써주시면 됩니다. ex) 192.168.1.1:9870 client = InsecureClient(hdfsIp) # filePath - hadoop 기준 어디에 있는 파일인지 path를 설정해주시면 됩니다. with client.read(filePath, encoding = 'utf-8') as data: # header - 헤더를 제외하고 데이터를 불러오게 됩니다. / delimiter - csv 구분자를 지정해주는 기능입니다... 2021. 12. 6.
[JAVA] 로컬에 있는 파일 하둡(Hadoop)으로 복사 일일이 파일을 HDFS에 올리는 작업을 할 수 없어서 JAVA코드로 지정해 놓은 경로에 파일이 있는 경우에 파일을 HDFS에 복사하는 코드를 작성해 보았습니다. - 개발환경 JDK 1.8 hadoop-common-2.10.0.jar (글 작성 기준 최신버전) Spring Boot 2.1.8 Spring Boot POM.xml org.apache.hadoop hadoop-common 2.10.0 jdk.tools jdk.tools org.apache.hadoop hadoop-hdfs 2.10.0 // 로컬 파일 파일 시스템에 복사 public void fileCopy() throws IOException { // hdfs://hadoop설치IP:hadoop설정포트 --> namenode 경로 String .. 2020. 3. 26.
빅데이터 기반의 분산 처리 클러스터 기능을 가진 하둡(Hadoop) 큰 크기의 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 하는 분산처리를 위한 오픈소스 프레임워크라고 할 수 있습니다. 장점 : - 저렴한 구축비용과 비용대비 빠른 데이터 처리 - 일부 장비에 장애가 발생하더라도 전체 시스템 사용성에 영항이 적음 - HDFS는 데이터를 저장하면, 다수의 노드에 복제 데이터도 함께 저장해서 데이터 유실을 방지 단점 : - HDFS에 저장된 데이터를 변경 불가 - 많은 버전과 부실한 서포트, 설정의 어려움 - 서버 재부팅되면 모든 메타데이터 유실 가능성 있음 여기서 HDFS란 ? - HDFS는 Hadoop Distributed File System의 약자이다. 수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고, 그 .. 2020. 3. 26.