목록Data Analysis (11)
Patrick's 데이터 세상
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/2xEeo/btqE6jtIRbk/WMjJxVUttRi98FkNwXjnT0/img.png)
환경 설정 source activate pyshpark jupyter lab --notebook-dir=/Users/sunghwanpark/Desktop/shpark/Development/Python/GottAcademy/AcademyPractice/workspace/nb-workspace ◎ NumPy를 활용한 통계 기초 분석 import numpy as np import scipy as sp # 과학 계산용 파이썬 모듈 import scipy.stats as stats import pandas as pd x = [1, 2, 10, 43, 22, 87, 52, 11, 8, 36] print(len(x)) # 갯수 print(np.mean(x)) # 평균 print(np.var(x)) # 분산 print..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/CkCZ4/btqE7RbJ4Fa/Ij1o24ucLWuWT4JkPKkGRK/img.png)
◎ csv 파일 Read 후 NumPy 분석 import numpy as np import pandas as pd CCTV_Seoul = pd.read_csv('data_files/cctv-in-seoul.csv', encoding='utf-8') CCTV_Seoul.head() 결과 # rename : 컬럼명 변경 CCTV_Seoul.rename(columns={CCTV_Seoul.columns[0] : '구별'}, inplace=True) CCTV_Seoul.head() 결과 # !명령어 : 터미널 실행 효과 !pip install xlrd pop_Seoul = pd.read_excel('data_files/population-in-seoul.xls', encoding='utf-8') pop_Seou..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/uKM21/btqE7QYcesa/Xp6TX4nVvi9UJ6kN1cQt7K/img.png)
참고 파일 : 06.intro-statistics.ipynb 모든 데이터는 숫자로 분석해야한다. text 분석은 빈도수 Bow(Back Of Words)로 분석. 분포를 알면 분포로부터 확률을 가져올 수 있다. 우리가 다루는 데이터는 표본이고 표본은 모집단과 연관되어 있다. 표본을 분석해서 모집단을 예측, 추정하는 과정. * 현재는 데이터가 너무 많기 때문에 p-value가 무조건 낮아진다. p-value가 0.5가 아니다 0.005로 보는게 맞다는 의견이 많다. * stochastic pick을 조정해서 뽑다보면 정규분포에 근접하는 방법 모집단과 통계량 모집단 조사 대상 데이터 전체 표본 조사 대상의 일부 데이터 기초 통계량 - 평균, 분산, 표준편차 ▪ 평균 – 전체 데이터의 합을 데이터의 개수로 나..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/DWHJB/btqE6lkLP1e/MrOJoUFt3C0Rtsk3igLYCK/img.png)
◎ 지도 시각화 범죄 별로 빈도수를 지역에 나타내는 지도 시각화 방법 구현 * 실습 data는 '파이썬으로 데이터 주무르기'의 data입니다. 필자는 folium으로 실습하지만 google-map 라이브러리도 많이 이용. 참고 파일 : seoul-crime-analysis.html import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns crime_anal_norm = pd.read_csv('data_files/crime-in-seoul-final.csv', encoding='utf-8') crime_anal_norm = crime_anal_norm.set_index(["구별"]) # 일반 컬럼을..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/x9DhS/btqE7ogKVyw/X3n6coGFhWmJCEQvfxjpl0/img.png)
* EDA(Exploratory Data Analysis) : 데이터 초기에 이해를 높이기 위한 방법 ◎ 결측치 처리 ⊙ na 데이터 처리 missing_values는 2가지 방법이 있다. 버리는 방법(제거), 의미있는 값으로 대체하는 방법(평균, 중앙값, 최빈값) * 자동으로 결측치 처리 Imputed import numpy as np import pandas as pd import matplotlib.pyplot as plt # import matplotlib.pylab as plt pyplot + numpy + ... titanic_train = pd.read_csv("data_files/titanic-train.csv") titanic_train.info() 결과 titanic_train.head..