목록전체 글 (173)
Patrick's 데이터 세상

사용자가 필요로 하는 정보를 수집하고, 그 내용을 분석한 뒤 찾기 쉬운 형태로 조직해서, 정보에 대한 요구가 발생했을 때, 해당 정보를 찾아 제공하는 시스템. 데이터베이스(Data Retrieval System) 정보 검색(Information Retrieval System) 데이터의 저장 & 관리 데이터의 빠른 검색 정형화된 데이터(row & column) 비정형화된 데이터(text, video, voice, ...) 정확한 해답 제공 확률이나 예측에 근거한 해답 제공 근접도 정렬 구성 - Crawler(수집기) : 대상 데이터의 수집 - Indexer(색인기) : 수집된 데이터를 빨리 찾을 수 있도록 구조화 - Searcher(검색기) : 요구에 적합한 정보 검색 고려사항 검색 대상 폭발적으로 증가하..

리눅스에서 하나의 창이 아닌 여러 창을 함께 사용할 때 유용한 tmux 사용법이다. 리눅스 원격 연결이 꺼져도 서버가 꺼지지 않는 이상 tmux로 돌려놓은 코드는 다운되지 않는다. tmux 구성 요소 session: 여러 윈도우로 구성 window: 터미널 화면, 세션 내에서 탭처럼 사용 가능 pane: 하나의 윈도우 내에서의 화면 분할 ◎ 세션 상태 확인 tmux ls ◎ 세션 불러오기 tmux attach -t 0 기존 0번 세션으로 새 창 불러오기 ◎ 세션 종료 exit ◎ 윈도우 닫기 (ctrl + b) d ◎ 새 윈도우 생성 (ctrl + b) c ◎ 윈도우 next 넘기기 (ctrl + b) n session 관련 명령어 ◎ 새로운 세션 생성 tmux new -s (session_name) ◎..
여러 ROW 의 데이터를 하나의 행으로 가져와야 할 때 사용하는 함수 select 컬럼1 , (select wmsys.wm_concat(컬럼) from ct_accession where 키값o=a.키값) 별칭 from 테이블 a 여러 row값을 하나의 행으로 가져오는데는 WM_CONCAT 함수 외에도 LISTAGG가 존재. (11g 에서 추가된 함수)
한번에 많은 건수를 insert하면 속도 문제가 있고, rollback 세그먼트에 대기하고 있는 건수가 너무 많아서 1000건 씩 나눠서 입력하는 insert pl/sql문 begin declare r int := 0; cursor c1 is select /*+ PARALLEL(a,4) */ rowid, 컬럼, 키값 from 인서트정보테이블; begin for x in c1 loop update 테이블 a set update대상컬럼 = substr(x.update입력컬럼, 1, 6) where 키값 =x.키값; --where x.rowid=rowid; -- 같은 테이블 업데이트인 경우 rowid 로.. r := r + 1; if mod(r, 1000) = 1 then commit; end if; end ..

문서가 가지는 모든 단어(Words)를 문맥이나 순서를 무시하고 일괄적으로 단어에 비해 빈도 값을 부여해 피처 값을 추출하는 모델입니다. Bag of Words는 문서 내 모든 단어를 한꺼번에 봉투 안에 넣은 뒤에 흔들어서 섞는다는 의미입니다. 문장 : 'I love this movie! It's sweet, but with satirical humor. The dialogue is great and the adventure scenes are fun... It manages to be whimsical and romantic while laughing at the conventions of the fairy tale genre. I would recommend it to just about anyone..

먼저 NLP(National Language Processing)와 텍스트 분석(Text Analytics) 중 NLP는 머신이 인간의 언어를 이해하고 해석하는데 좀 더 중점을 두고 기술이 발전해 왔으며, 텍스트 마이닝(Text Mining)이라고도 불리는 텍스트 분석은 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 중점을 두고 개발되었습니다. 텍스트 분석은 머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스(Business Intelligence)나 예측 분석 등의 분석 작업을 주로 수행합니다. 텍스트 분석은 비정형 데이터인 텍스트를 분석하는 것입니다. 머신러닝 알고리즘은 숫자형의 피처 기반 데이터만 입력받을 수 있기 때문에 텍스트를 피처 형태로 추출하고 추출..