목록전체 글 (176)
Patrick's 데이터 세상
딥 러닝 Deep Learning 머신 러닝의 특정한 한 분야 인공 신경망(Artificial Neural Network)의 층을 연속적으로 쌓아 올려 데이터를 학습하는 방식 퍼셉트론 Perceptron 딥 러닝 신경망의 원리는 인간의 뇌 구조인 뉴런을 본떠서 만든 개념 미국의 신경생물학자인 프랑크 로젠블라트가 1957년에 제안한 초기 형태의 인공 신경망. 다수의 입력으로부터 하나의 결과를 내보내는 알고리즘. 실제 뇌에서는 가지돌기에서 신호를 받아들이고, 축삭돌기를 통해 다른 뉴런으로 신호를 전달. x : 입력 값, w : 가중치 weight, y : 출력 값, 파란 원 : 뉴런 축삭돌기 - 가중치 단층 퍼셉트론 Single-Layer Perceptron 입력층, 출력층 두 단계로만 이루어진 퍼셉트론 논..
머신러닝 Machine Learning 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘 연구 핵심 : 표현, 일반화 기존 프로그래밍의 한계 작업 : 주어진 사진으로부터 고양이 사진인지 강아지 사진인지 판별하는 일 def prediction(이미지 as input): 어떻게 코딩해야하지? return 결과 머신러닝 모델 훈련 과정 머신러닝 모델 Task 분류(Classification) 회귀(Regression) 분류(Classification) 이진 분류(Binary Classification) 주어진 입력에 대해서 두 개의 선택지 중 하나의 답을 선택 ex) 시험 성적표를 보고 합격, 불합격 판단, 메일을 보고 일반 메일, 스팸 메일 판단 등 다중 클래스 분류(Multi-class Classificati..
단어 표현 Word Representation 희소 표현 Sparse Representation 분산 표현 Distributed Representation 희소 표현 Sparse Representation one-hot encoding 단어를 0과 1로 단어의 집합만큼 표현하는 방법 Code from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.utils import to_categorical text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야" tokenizer = Tokenizer() tokenizer.fit_on_texts([text]) print('단어 집합 :',tokenize..
이번 포스팅에서는 회사 업무에서 사용했던 형태소 분석기의 간략한 설명과 code 예시를 정리해보려고 한다. 형태소 분석기는 Pororo, Okt(Open Korean Text), Mecab, Soynlp LTokenizer 등을 사용하였다. 구축 환경 : Google Colaboratory Pro Plus 👉🏻 Pororo 뽀로로는 카카오 브레인(Kakao Brain)에서 개발한 자연어 처리 라이브러리이다. 자연어 처리와 음성 관련 태스크를 수행하기 위한 목적으로 만들어졌다. 뽀로로는 설치가 좀 까다롭다. model을 load 하는 방식이다 보니 cuda를 사용하는 부분이 있는데 server에서 따로 container 가상화를 구축하고 있지 않은 경우에서는 충돌이 일어나기 때문에 내 정신 건강을 위해 코..
언어 자연언어 : 한국어, 영어, 일본어 등 인공언어 : 프로그래밍 언어, 에스페란토어 등 NLP란 무엇인가? 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 묘사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나다. 구현을 위해 수학적 통계적 도구를 많이 활용하며 특히 기계학습 도구를 많이 사용하는 대표적인 분야이다. 정보검색, QA 시스템, 문서 자동 분류, 신문기사 클러스터링 등 다양한 응용이 이루어지고 있다. - Wikipedia - NLP는 Natural Language Processing, 말 그대로 우리가 일상적으로 사용하는 자연어를 처리하는 것을 뜻합니다. NLP Model 자연어 처리 모델은 자연어를 입력받아서 해당 입력이 특정 범주일 확률을 반환하는 확률 함수 입력 :..
https://arxiv.org/abs/1910.13461 BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension We present BART, a denoising autoencoder for pretraining sequence-to-sequence models. BART is trained by (1) corrupting text with an arbitrary noising function, and (2) learning a model to reconstruct the original text. It uses a standard Tranformer-b..