Patrick's 데이터 세상

Spark RDD 본문

Data Analysis/Spark

Spark RDD

patrick610 2020. 11. 4. 23:16
반응형
SMALL

 

 

Spark API 히스토리

 

 

 

RDD는 테이블 조인이나 효율화같은 처리 시 사용자가 직업 제어를 해야하는데 RDD에 대해 정확히 로직을 이해를 해야 퍼포먼스가 나오는 단점으로 인해 Spark 버전 2부터 DataFrame, DataSet으로 성능 향상.

 

 

* DataFrame

 

    텅스턴 프로젝트를 통한 스파크 성능 향상

      - 메모리 관리 방식을 새로 개발

      - 정렬, 집계, 셔플링 연산의 성능도 대폭 개선됨

      - Spark.sql.tungsten.enabled(기본이 true)

      - 텅스텐의 이진 인코딩 방법으로 L1, L2 캐시 효율적으로 활용

 

 

* DataSet

    

    사용자에게 도메인 객체 제공

      - Java, Scala 만 사용 가능

      - 스키마를 가지고 있고 더 safe함.

 

 

 

 

 

 

RDD(Resilient Distributed Dataset)

   

   변환 연산자가 있을때는 계획만 하고 스파크 내부에서 실행되지 않는데 실행 연산자가 발동해야 실질적으로 실행한다.

   해당 개념을 Lazy Evaluation(지연 실행) 개념이라하고 효율적인 Lazy Evaluation로 RDD가 나뉘어진다.

 

 

   Transformation(변환 연산자)

   Action(실행 연산자)

 

 

 

 

   Method

 

 

 

반응형
LIST

'Data Analysis > Spark' 카테고리의 다른 글

Spark RDD 실습  (0) 2020.11.05
Spark Standalone 실행  (0) 2020.11.04
Apache Spark 기본 이론  (0) 2020.10.26
Comments