목록전체 글 (173)
Patrick's 데이터 세상
테이블에서 xmltype의 컬럼이 있을 때, 그 컬럼의 값을 추출하기 위한 쿼리입니다. select extract(value(v), '/*').getRootElement() , extract(value(v), '/*/@display').getStringVal() , extract(value(v), '/*/text()').getStringVal() from 테이블 a, table(xmlsequence(extract(a.rule_value, '/value/*'))) v;

Apache Spark 일반적으로 하둡 프레임워크는 맵리듀스를 기반에 두고 있는데 확장이 가능하고, 유연성과 내결함성, 효율적인 컴퓨팅이 가능하기 때문에 데이터 세트를 분석하기 위해 Hadoop을 광범위하게 활용하고 있습니다. 스파크는 하둡 컴퓨팅 소프트웨어 프로세스(쿼리 간 대기시간과 프로그램 실행 대기시간 측면에서 대용량 데이터셋 처리속도)를 개선하기 위해 도입되었습니다. (In-Memory에서 처리, 분산 병렬처리로 100배 이상 빠르다고 한다.) Apache Spark는 코어 프로그래밍에서부터 SQL을 지원하는 Spark SQL, 실시간 데이터 처리를 지원하는 Spark Streaming, 머신러닝 기법을 지원하는 MLlib, 대용량 데이터의 분산 및 병렬 그래프 처리를 지원하는 GraphX로 나..

본 포스팅은 캐글(Kaggle)에서 제공하는 'Book-Crossing 사용자 리뷰 평점 데이터 세트'를 활용하여 Surprise를 이용한 잠재 요인 협업 필터링 추천을 실습하기 위한 목적으로 작성하였습니다. Git url https://github.com/hipster4020/RecommendationSystem/blob/master/LatentFactorCollaborativeFiltering_Surprise.ipynb hipster4020/RecommendationSystem Contribute to hipster4020/RecommendationSystem development by creating an account on GitHub. github.com 분석 도구 : Google Colabor..

본 포스팅은 캐글(Kaggle)에서 제공하는 'Book-Crossing 사용자 리뷰 평점 데이터 세트'를 활용하여 콘텐츠 기반 필터링을 실습하기 위한 목적으로 작성하였습니다. Git url https://github.com/hipster4020/RecommendationSystem/blob/master/ItemNearestNeighborCollaborativeFiltering_Books.ipynb hipster4020/RecommendationSystem Contribute to hipster4020/RecommendationSystem development by creating an account on GitHub. github.com 분석 도구 : Anaconda Jupyter Lab 활용 데이터 :..

본 포스팅은 캐글(Kaggle)에서 제공하는 'TMDB 5000 영화 데이터 세트'를 활용하여 콘텐츠 기반 필터링을 실습하기 위한 목적으로 작성하였습니다. Git url github.com/hipster4020/RecommendationSystem/blob/master/ContentsBasedFiltering_Movies.ipynb hipster4020/RecommendationSystem Contribute to hipster4020/RecommendationSystem development by creating an account on GitHub. github.com 분석 도구 : Google Colaboratory 활용 데이터 : 유명한 영화 데이터 정보 사이트인 IMDB의 많은 영화 중 주요 5..

이번 포스팅에서는 추천 시스템에 대해 알아보려고 한다. 추천 시스템은 쉽게 설명해서 특정 시점에 유저가 좋아할 만한 아이템의 리스트를 찾는 것이다. 유저에 대한 정보와 아이템 정보, 그리고 유저가 아이템을 소비한 로그 정보를 활용한 것을 추천 모델링이라 한다. 예) 유튜브, 넷플릭스 추천 시스템 추천 시스템의 기본 유형 추천 시스템의 기본은 콘텐츠 기반 필터링(Contents Based Filtering)과 협업 필터링(Collaborative Filtering) 방식이 있다. 추가로 딥러닝(Deep Learning)을 활용한 방식과 하이브리드(Hybrid) 방식이 있지만 크게는 콘텐츠 기반 필터링, 협업 필터링이다. 또한, 협업 필터링(Collaborative Filtering)은 메모리 기반 필터링(..