Patrick's 데이터 세상
정보 검색 개념 본문
사용자가 필요로 하는 정보를 수집하고, 그 내용을 분석한 뒤 찾기 쉬운 형태로 조직해서, 정보에 대한 요구가 발생했을 때, 해당 정보를 찾아 제공하는 시스템.
데이터베이스(Data Retrieval System) | 정보 검색(Information Retrieval System) |
데이터의 저장 & 관리 | 데이터의 빠른 검색 |
정형화된 데이터(row & column) | 비정형화된 데이터(text, video, voice, ...) |
정확한 해답 제공 | 확률이나 예측에 근거한 해답 제공 |
근접도 정렬 |
구성
- Crawler(수집기) : 대상 데이터의 수집
- Indexer(색인기) : 수집된 데이터를 빨리 찾을 수 있도록 구조화
- Searcher(검색기) : 요구에 적합한 정보 검색
고려사항
검색 대상
폭발적으로 증가하는 컨텐츠 수
검색조건
사용자 질의에 대한 빠른 응답시간
구조
Text Operator
Text 형태의 문서나 사용자 쿼리에서 핵심 키워드를 추출함
순서
- 불용어(Stopword) 제거
이, 그, 저, 는, 가, ..., a, an, the, ...,
- 어간/어근 추출(Stemming)
연구했다(연구 + 하 + 았 + 다) → 연구
fishing, fished, fish, fisher → fish
- 명사류 추출
- 색인어의 출현 빈도(TF ; Term Frequency) 계산
Indexer
각각의 Text 데이터로부터 뽑혀진 색인어에 대해서 각 데이터를 대표하도록 만들어 빠르게 검색될 수 있도록 구조화함
색인 전처리
(문서 : 색인어, TF) → (색인어 : 문서, TF) 형태로 재구성
색인어 순으로 정렬
↑
Inverted/Posting File 생성
Searcher
Boolean Model
Vector Model
- 쿼리와 문서를 모두 t차원의 벡터로 표현
- 쿼리 벡터와 각 문서 벡터의 cosine 유사도 계산
유사도 순으로 검색된 문서를 정렬
정보 검색 시스템 평가
적합한 문헌을 모두 검색하는지 여부와 동시에 부적합한 문헌은 검색하지 않는 적합성(relevance)과 응답 시간, 경제성에 의하여 평가된다. 적합성은 검색된 정보 자료와 질의문과의 일치되는 정도를 의미.
응답 시간은 검색 요구가 들어온 시점으로부터 검색 결과가 제공되기까지의 시간으로 나타나며, 경제성은 시스템을 유지하는데 필요한 비용으로 계산된다.
재현율 : 정보 검색 시스템에 들어 있는 적합한 문헌 중에서 검색 시스템에 의하여 검색된 적합한 문헌의 비율
정확률 : 검색된 전체 문헌 중에서 적합한 문헌의 비율
재현율, 정확률, 배제율은 높을수록 좋으나 누락률, 잡음률, 부적합률은 낮을수록 정보 검색 시스템의 성능이 좋다.
시소러스
단어의 어형을 통제하기 위하여 이와 관련된 용어들을 수록하여 그 단어의 의미와 유관한 용어들을 참조하기 위해 사용되는 통제 어휘집.
용어들 간의 관련성 정보를 이용하여 문헌을 집단화함으로써 색인의 질을 높이고 검색 효율을 향상시키기 위한 목적으로 사용.
주제어를 추출하거나 문헌 집단의 자동 분류를 위하여 필수적이다.
검색시에는 검색의 개념을 확장하거나 구체화시켜서 유사 문헌을 검색하는데 이용되기도 한다.
시소러스 구성 요소
· 디스크립트 : 개념
· 비디스크립트 : 디스크립트 외의 용어
· 식별어 : 인명, 지명, 기관명 등 고유명사들
디스크립터 중심 구성 요소
· 동의어(synonym)
· 광의어(broader term : BT)
· 협의어(narrower term : NT)
· 관련어(related term : RT)
시소러스 구축
· 패싯 분류 체계 : 단순히 디스크립터를 패싯(facet)별로 모아 놓은 구조
· 의미망 구조 : 정보 검색에서는 컴퓨터를 이용하여 디스크립터들 사이의 연관 관계를 자유롭게 기술할 수 있는 구조
· 계층적 구조 : 이를 단순화시킨 구조
그 외 어려움
Numbers
- 010-444-6567, 4105-1201-2310-2213, ...
Hyphens
- New-York → New York
- B-49 → B 49
Punctuation Marks
- 510B.C → 510BC
- val.id → valid
Stopword(불용어, 성인)
- a, the, this, that, where, when, ...
- 성폭행, 조폭, 폭력, 단란주점, 소녀, 스타킹, ...
참고
'Deep Learning > 이론' 카테고리의 다른 글
딥 러닝 학습 방법 (0) | 2021.04.11 |
---|---|
Loss 함수 (0) | 2021.04.09 |
BOW(Bag of Words) (0) | 2020.12.17 |
텍스트 분석(Text Analytics) (0) | 2020.12.14 |
PCA 분석 (0) | 2020.12.02 |