목록Programming/Python (14)
Patrick's 데이터 세상
◉ wordCloud 텍스트 데이터에서 단어 빈도를 분석하여 시각화하는 기법 - nltk 텍스트 분석하기 위해 만들어진 패키지 - wordCloud 시각화 목적 패키지 ◉ 데이터 시각화 - matplotlib 데이터를 시각화하는 패키지 - seaborn matplotlib를 보완한 패키지 * 설치 pip install wordcloud pip install matplotlib ⊙ 텍스트 파일을 읽어 wordClouding을 처리 from wordcloud import WordCloud with open('data_files/constitution-en.txt', 'r') as f: constitution_en = f.read() # 전체 파일 내용 읽기 constitution_en 결과 ...생략 wcl..
Pandas file의 가장 일반적인 형태는 .csv(comma), .tsv(tab) pandas는 , tab 를 다루는 최적화된 툴(독보적이고 강력함) * pandas(panel data의 준말) 설치 1. conda install pandas 2. pip install pandas conda가 1순위 안되면 pip 2순위로 설치 (conda는 설치 시 필요한 파일들(의존성 패키지)을 알아서 더 deep하게 찾아서 설치) (pip가 더 범용적이고 속도가 빠르다.) ◉ Pandas(Panel Data의 준말) 오로지 2차원만 지원 numpy는 값만 다루지만 pandas는 스키마(구조)를 다룰 수 있다. ex)join, group by ◎ pandas를 통해 data_files경로에 titanic-trai..
NumPy ◉ NumPy(Numerical Python의 준말) 다차원 배열을 지원 Vector의 개념을 지원 ◎ array 이용한 배열 생성 import numpy as np x = np.array([1, 2, 3], dtype='f') # list -> ndarray print(x.dtype) # 만들어진 배열의 자료형 추출 print(x) 결과 a = np.array([[1, 2, 3, 4], [5, 6, 7, 8]]) print (a) print(a.shape) # 배열 구조 확인 결과 a.shape=(4,2) print(a) 결과 print(a.ndim) # 차원 확인 결과 ◎ arange 이용한 배열 생성 x = np.arange(10,20,2) # 시작에서 끝까지(10, 20) step(2)..
데이터 로딩은 크게 파일, 데이터베이스, 웹(웹스크래핑) 등으로 가져 올 수 있다. 데이터 가져오는 경로 : 1.file(주), 2.db, 3.web 작업 환경 : jupyterlab ◎ 데이터 분석 data를 가져오면 데이터 분석영역으로 넣어야 함. 데이터 분석 영역 : numpy, pandas, matplotlib * IPython → jupyter(보완 jupyterlab) * jupyterlab 환경 > pip install jupyterlab # jupyterlab 설치 > conda info --envs # 환경 확인 > conda activate pyshpark # 해당 환경 활성화 (맥) source activate pyshpark > python 파일이름.py # 배치실행 > python..
파이썬에서 데이터를 분석할 수 있는 환경은 대표적으로 크게 3가지가 있는데 1. 구글 코랩 특징 8~10시간 세션 유지 파이썬 인스턴스 환경(프로토 타입, 대량의 데이터를 고성능으로 처리, 오로지 데이터분석, 예측으로만 활용) https://colab.research.google.com Google Colaboratory colab.research.google.com 구글드라이브에 파일 저장 2. Visual Studio Code 특징 원래는 Pycharm이 가장 많이 쓰였으나 현재는 Visual Studio Code이 강세 pycharm은 굉장히 무겁고 무료버전의 제약이 많아짐. system installer 설치 범용툴이라 python환경 설치해줘야 함. 좌측 Extensions에서 python 설치..
제어문 if문 조건식을 평가하고 참인 경우만 구문이 수행 2개 이상의 구문은 들여쓰기로 블록을 지정 예제 >>> value = 10 >>> if value > 5: print("value is bigger than 5") value is bigger than 5 elif 2개 이상의 조건을 처리하는 경우 if는 가장 처음에만 사용할 수 있는 반면, elif는 필요한 만큼 사용 가능 else 어떠한 조건에도 해당하지 않는 경우 가장 마지막에만 사용 가능 예제 score = int(input(('Input Score: ')))# 사용자로부터 정수값 입력을 받는다. if 90 >> value = 5 >>> while value > 0 : print(value) value -= 1 5 4 3 2 1 >>> fo..