'Data Analysis' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록Data Analysis (11)

Patrick's 데이터 세상

Swifter

data 전처리 시에 dataframe, series를 빠르게 apply를 적용하면서 progress bar를 사용할 수 있는 패키지. A package which efficiently applies any function to a pandas dataframe or series in the fastest available manner https://pypi.org/project/swifter/ swifter A package which efficiently applies any function to a pandas dataframe or series in the fastest available manner pypi.org 👉🏻 설치 pip install swifter 👉🏻 소스 코드 df['conten..

Data Analysis/Processing 2022. 3. 22. 21:58

Spark RDD 실습

1. Spark 실행 # Spark 디렉토리 하위 bin 디렉토리에서 ./spark-shell 2. 간략한 Scala 데이터 변형 작업 # 변수 선언 val = 변경 불가, var = 변경 가능 # Spark Context로 parallelize하여 10에서 50까지 데이터를 10으로 나누어 생성 val number = sc.parallelize(10 to 50 by 10) Spark의 가장 기본 API인 RDD 형태이며 Int 타입으로 되어있습니다. number.take(5) 내용을 확인해보면 Array에 Int 타입으로 입력되었습니다. val numbersq = number.map(num => num*num) map transformation 연산자를 통해 number의 데이터를 num이라는 변수에 ..

Data Analysis/Spark 2020. 11. 5. 21:55

Spark RDD

Spark API 히스토리 RDD는 테이블 조인이나 효율화같은 처리 시 사용자가 직업 제어를 해야하는데 RDD에 대해 정확히 로직을 이해를 해야 퍼포먼스가 나오는 단점으로 인해 Spark 버전 2부터 DataFrame, DataSet으로 성능 향상. * DataFrame 텅스턴 프로젝트를 통한 스파크 성능 향상 - 메모리 관리 방식을 새로 개발 - 정렬, 집계, 셔플링 연산의 성능도 대폭 개선됨 - Spark.sql.tungsten.enabled(기본이 true) - 텅스텐의 이진 인코딩 방법으로 L1, L2 캐시 효율적으로 활용 * DataSet 사용자에게 도메인 객체 제공 - Java, Scala 만 사용 가능 - 스키마를 가지고 있고 더 safe함. RDD(Resilient Distributed D..

Data Analysis/Spark 2020. 11. 4. 23:16

Spark Standalone 실행

1. Spark 디렉토리 안 sbin으로 이동 2. 마스터 실행 sh start-master.sh 2-1. localhost:8080에서 마스터 실행 여부와 url 확인 3. 슬레이브 노드 실행 실행한 마스터에 워커를 등록한다. # sh로 실행이 안되어 bash로 실행 # -m는 메모리 지정, -c는 코어 지정 bash start-slave.sh spark://park-VirtualBox:7077 -m 1024M -c 1 워커가 1개 달려있는 것을 확인할 수 있다. 하나의 vm에서 하나의 쓰레드가 생긴 것이고 Spark 어플리케이션 실행 시 병렬 처리된다.

Data Analysis/Spark 2020. 11. 4. 23:07

Apache Spark 기본 이론

Apache Spark 일반적으로 하둡 프레임워크는 맵리듀스를 기반에 두고 있는데 확장이 가능하고, 유연성과 내결함성, 효율적인 컴퓨팅이 가능하기 때문에 데이터 세트를 분석하기 위해 Hadoop을 광범위하게 활용하고 있습니다. 스파크는 하둡 컴퓨팅 소프트웨어 프로세스(쿼리 간 대기시간과 프로그램 실행 대기시간 측면에서 대용량 데이터셋 처리속도)를 개선하기 위해 도입되었습니다. (In-Memory에서 처리, 분산 병렬처리로 100배 이상 빠르다고 한다.) Apache Spark는 코어 프로그래밍에서부터 SQL을 지원하는 Spark SQL, 실시간 데이터 처리를 지원하는 Spark Streaming, 머신러닝 기법을 지원하는 MLlib, 대용량 데이터의 분산 및 병렬 그래프 처리를 지원하는 GraphX로 나..

Data Analysis/Spark 2020. 10. 26. 23:36

Python 데이터 분석 - 통계분석

환경설정 source activate pyshpark jupyter lab --notebook-dir=/Users/sunghwanpark/Desktop/shpark/Development/Python/GottAcademy/AcademyPractice/workspace/nb-workspace ◎ NumPy를 활용한 통계 분석 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns - data-files/brain-size.csv 파일의 데이터를 읽어서 DataFrame에 저장하세요 (각 행의 데이터 구분자는 ;이며 결측치는 "."으로 저장되어 있는 점을 고려하세요 ) data = pd.read_cs..

Data Analysis/EDA 2020. 6. 24. 22:07

Prev 1 2 Next

목록Data Analysis (11)

Patrick's 데이터 세상

티스토리툴바