목록Deep Learning (36)
Patrick's 데이터 세상
사용자가 필요로 하는 정보를 수집하고, 그 내용을 분석한 뒤 찾기 쉬운 형태로 조직해서, 정보에 대한 요구가 발생했을 때, 해당 정보를 찾아 제공하는 시스템. 데이터베이스(Data Retrieval System) 정보 검색(Information Retrieval System) 데이터의 저장 & 관리 데이터의 빠른 검색 정형화된 데이터(row & column) 비정형화된 데이터(text, video, voice, ...) 정확한 해답 제공 확률이나 예측에 근거한 해답 제공 근접도 정렬 구성 - Crawler(수집기) : 대상 데이터의 수집 - Indexer(색인기) : 수집된 데이터를 빨리 찾을 수 있도록 구조화 - Searcher(검색기) : 요구에 적합한 정보 검색 고려사항 검색 대상 폭발적으로 증가하..
문서가 가지는 모든 단어(Words)를 문맥이나 순서를 무시하고 일괄적으로 단어에 비해 빈도 값을 부여해 피처 값을 추출하는 모델입니다. Bag of Words는 문서 내 모든 단어를 한꺼번에 봉투 안에 넣은 뒤에 흔들어서 섞는다는 의미입니다. 문장 : 'I love this movie! It's sweet, but with satirical humor. The dialogue is great and the adventure scenes are fun... It manages to be whimsical and romantic while laughing at the conventions of the fairy tale genre. I would recommend it to just about anyone..
먼저 NLP(National Language Processing)와 텍스트 분석(Text Analytics) 중 NLP는 머신이 인간의 언어를 이해하고 해석하는데 좀 더 중점을 두고 기술이 발전해 왔으며, 텍스트 마이닝(Text Mining)이라고도 불리는 텍스트 분석은 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 중점을 두고 개발되었습니다. 텍스트 분석은 머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스(Business Intelligence)나 예측 분석 등의 분석 작업을 주로 수행합니다. 텍스트 분석은 비정형 데이터인 텍스트를 분석하는 것입니다. 머신러닝 알고리즘은 숫자형의 피처 기반 데이터만 입력받을 수 있기 때문에 텍스트를 피처 형태로 추출하고 추출..
차원 감소 (Dimension reduction) 데이터를 분석할 때 피쳐가 많으면 데이터 분석이 어렵고, 특히 3개 이상(3차원)의 피쳐가 존재할 경우 시각화가 어려워집니다. 머신러닝의 경우에 학습용 데이터의 피쳐가 많으면, 연산량이 많아지고, 특히 학습을 위해서 더 많은 데이터가 필요했는데 이렇게 피쳐가 많음으로써 발생하는 문제를 차원의 저주(Dimension Curse)라고 합니다. 이 차원의 수를 줄이는 방법을 차원 감소 방법(Dimension reduction)이라고 합니다. 차원 수를 줄인 다는 것은 다른 말로는 피쳐의 수를 줄인다는 말과 같고, 앞에서 언급한 바와 같이 데이터 분석에서는 차원을 줄여서 시각화를 가능하게 해서 데이터 분석을 용이하게 할 수 있다. 3차원이 넘어가는 데이터는 시각..
Word2vec Word2vec은 단어 임베딩 모델들 중 대표적인 모델입니다. 단어 임베딩을 학습하는 알고리즘에는 여러 가지가 있는데 GloVe, FastText 등이 있습니다. 그중 가장 자주 쓰이고 가장 유명한 방식은 word2vec입니다. Word2vec 알고리즘은 신경망 모델을 사용하여 큰 텍스트 코퍼스에서 단어 연관성을 학습합니다. 일단 학습되면 이러한 모델은 동의어 단어를 감지하거나 부분 문장에 대한 추가 단어를 제안할 수 있습니다. 이름에서 알 수 있듯이 Word2vec는 벡터라고 하는 특정 숫자 목록을 사용하여 각각의 고유 한 단어를 나타냅니다. 벡터는 간단한 수학 함수(벡터 간의 코사인 유사성)가 해당 벡터가 나타내는 단어 간의 의미 유사성 수준을 나타내도록 신중하게 선택됩니다. 아이디어..
단어 임베딩 모델(Word Embedding Model) 자연어를 처리할 때는 텍스트 기반의 모델을 만들어 텍스트를 숫자로 바꾸어 알고리즘으로 처리하게 됩니다. 이렇게 단어를 벡터로 바꾸는 모델을 단어 임베딩 모델(Word Embedding Model)이라고 부릅니다. 단어의 의미를 최대한 담는 벡터를 만들려는 알고리즘이 단어 임베딩 모델이라고 할 수 있습니다. 현대적인 자연어 처리 기법들은 대부분 이 임베딩 모델에 기반을 두고 있습니다. 데이터는 대상의 속성을 표현해놓은 자료입니다. 예를 들어 꽃에 대한 정보가 있는 데이터가 있으면 그 정보는 꽃의 모양, 색깔, 길이 등과 같은 속성이 담겨있을 것입니다. 이 정보를 바탕으로 어떤 꽃인지 판별하는 모델을 만들 수 있습니다. 이렇게 대상의 속성을 표현하는 ..