'Data Analysis' 카테고리의 글 목록 (2 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록Data Analysis (11)

Patrick's 데이터 세상

Python 데이터 분석 - 통계분석 기초

환경 설정 source activate pyshpark jupyter lab --notebook-dir=/Users/sunghwanpark/Desktop/shpark/Development/Python/GottAcademy/AcademyPractice/workspace/nb-workspace ◎ NumPy를 활용한 통계 기초 분석 import numpy as np import scipy as sp # 과학 계산용 파이썬 모듈 import scipy.stats as stats import pandas as pd x = [1, 2, 10, 43, 22, 87, 52, 11, 8, 36] print(len(x)) # 갯수 print(np.mean(x)) # 평균 print(np.var(x)) # 분산 print..

Data Analysis/EDA 2020. 6. 24. 22:06

Python 데이터 분석 - 탐색적 자료 분석 EDA (NumPy를 활용한 그래프, 산점도)

◎ csv 파일 Read 후 NumPy 분석 import numpy as np import pandas as pd CCTV_Seoul = pd.read_csv('data_files/cctv-in-seoul.csv', encoding='utf-8') CCTV_Seoul.head() 결과 # rename : 컬럼명 변경 CCTV_Seoul.rename(columns={CCTV_Seoul.columns[0] : '구별'}, inplace=True) CCTV_Seoul.head() 결과 # !명령어 : 터미널 실행 효과 !pip install xlrd pop_Seoul = pd.read_excel('data_files/population-in-seoul.xls', encoding='utf-8') pop_Seou..

Data Analysis/EDA 2020. 6. 24. 22:02

Python 데이터 분석 - 통계 검정

참고 파일 : 06.intro-statistics.ipynb 모든 데이터는 숫자로 분석해야한다. text 분석은 빈도수 Bow(Back Of Words)로 분석. 분포를 알면 분포로부터 확률을 가져올 수 있다. 우리가 다루는 데이터는 표본이고 표본은 모집단과 연관되어 있다. 표본을 분석해서 모집단을 예측, 추정하는 과정. * 현재는 데이터가 너무 많기 때문에 p-value가 무조건 낮아진다. p-value가 0.5가 아니다 0.005로 보는게 맞다는 의견이 많다. * stochastic pick을 조정해서 뽑다보면 정규분포에 근접하는 방법 모집단과 통계량 모집단 조사 대상 데이터 전체 표본 조사 대상의 일부 데이터 기초 통계량 - 평균, 분산, 표준편차 ▪ 평균 – 전체 데이터의 합을 데이터의 개수로 나..

Data Analysis/EDA 2020. 6. 24. 22:01

Python 데이터 분석 - 지도 시각화(EDA)

◎ 지도 시각화 범죄 별로 빈도수를 지역에 나타내는 지도 시각화 방법 구현 * 실습 data는 '파이썬으로 데이터 주무르기'의 data입니다. 필자는 folium으로 실습하지만 google-map 라이브러리도 많이 이용. 참고 파일 : seoul-crime-analysis.html import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns crime_anal_norm = pd.read_csv('data_files/crime-in-seoul-final.csv', encoding='utf-8') crime_anal_norm = crime_anal_norm.set_index(["구별"]) # 일반 컬럼을..

Data Analysis/EDA 2020. 6. 24. 22:00

Python 데이터 분석 - 탐색적 자료 분석 EDA (Na 데이터 처리, Seaborn 그래프)

* EDA(Exploratory Data Analysis) : 데이터 초기에 이해를 높이기 위한 방법 ◎ 결측치 처리 ⊙ na 데이터 처리 missing_values는 2가지 방법이 있다. 버리는 방법(제거), 의미있는 값으로 대체하는 방법(평균, 중앙값, 최빈값) * 자동으로 결측치 처리 Imputed import numpy as np import pandas as pd import matplotlib.pyplot as plt # import matplotlib.pylab as plt pyplot + numpy + ... titanic_train = pd.read_csv("data_files/titanic-train.csv") titanic_train.info() 결과 titanic_train.head..

Data Analysis/EDA 2020. 6. 24. 22:00

Prev 1 2 Next

목록Data Analysis (11)

Patrick's 데이터 세상

티스토리툴바