목록Data Analysis (11)
Patrick's 데이터 세상
data 전처리 시에 dataframe, series를 빠르게 apply를 적용하면서 progress bar를 사용할 수 있는 패키지. A package which efficiently applies any function to a pandas dataframe or series in the fastest available manner https://pypi.org/project/swifter/ swifter A package which efficiently applies any function to a pandas dataframe or series in the fastest available manner pypi.org 👉🏻 설치 pip install swifter 👉🏻 소스 코드 df['conten..
1. Spark 실행 # Spark 디렉토리 하위 bin 디렉토리에서 ./spark-shell 2. 간략한 Scala 데이터 변형 작업 # 변수 선언 val = 변경 불가, var = 변경 가능 # Spark Context로 parallelize하여 10에서 50까지 데이터를 10으로 나누어 생성 val number = sc.parallelize(10 to 50 by 10) Spark의 가장 기본 API인 RDD 형태이며 Int 타입으로 되어있습니다. number.take(5) 내용을 확인해보면 Array에 Int 타입으로 입력되었습니다. val numbersq = number.map(num => num*num) map transformation 연산자를 통해 number의 데이터를 num이라는 변수에 ..
Spark API 히스토리 RDD는 테이블 조인이나 효율화같은 처리 시 사용자가 직업 제어를 해야하는데 RDD에 대해 정확히 로직을 이해를 해야 퍼포먼스가 나오는 단점으로 인해 Spark 버전 2부터 DataFrame, DataSet으로 성능 향상. * DataFrame 텅스턴 프로젝트를 통한 스파크 성능 향상 - 메모리 관리 방식을 새로 개발 - 정렬, 집계, 셔플링 연산의 성능도 대폭 개선됨 - Spark.sql.tungsten.enabled(기본이 true) - 텅스텐의 이진 인코딩 방법으로 L1, L2 캐시 효율적으로 활용 * DataSet 사용자에게 도메인 객체 제공 - Java, Scala 만 사용 가능 - 스키마를 가지고 있고 더 safe함. RDD(Resilient Distributed D..
1. Spark 디렉토리 안 sbin으로 이동 2. 마스터 실행 sh start-master.sh 2-1. localhost:8080에서 마스터 실행 여부와 url 확인 3. 슬레이브 노드 실행 실행한 마스터에 워커를 등록한다. # sh로 실행이 안되어 bash로 실행 # -m는 메모리 지정, -c는 코어 지정 bash start-slave.sh spark://park-VirtualBox:7077 -m 1024M -c 1 워커가 1개 달려있는 것을 확인할 수 있다. 하나의 vm에서 하나의 쓰레드가 생긴 것이고 Spark 어플리케이션 실행 시 병렬 처리된다.
Apache Spark 일반적으로 하둡 프레임워크는 맵리듀스를 기반에 두고 있는데 확장이 가능하고, 유연성과 내결함성, 효율적인 컴퓨팅이 가능하기 때문에 데이터 세트를 분석하기 위해 Hadoop을 광범위하게 활용하고 있습니다. 스파크는 하둡 컴퓨팅 소프트웨어 프로세스(쿼리 간 대기시간과 프로그램 실행 대기시간 측면에서 대용량 데이터셋 처리속도)를 개선하기 위해 도입되었습니다. (In-Memory에서 처리, 분산 병렬처리로 100배 이상 빠르다고 한다.) Apache Spark는 코어 프로그래밍에서부터 SQL을 지원하는 Spark SQL, 실시간 데이터 처리를 지원하는 Spark Streaming, 머신러닝 기법을 지원하는 MLlib, 대용량 데이터의 분산 및 병렬 그래프 처리를 지원하는 GraphX로 나..
환경설정 source activate pyshpark jupyter lab --notebook-dir=/Users/sunghwanpark/Desktop/shpark/Development/Python/GottAcademy/AcademyPractice/workspace/nb-workspace ◎ NumPy를 활용한 통계 분석 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns - data-files/brain-size.csv 파일의 데이터를 읽어서 DataFrame에 저장하세요 (각 행의 데이터 구분자는 ;이며 결측치는 "."으로 저장되어 있는 점을 고려하세요 ) data = pd.read_cs..