Patrick's 데이터 세상
맞춤법 검사기 - hanspell 본문
반응형
SMALL
네이버 한글 맞춤법 검사기로 만들어진 패키지로써 대화형 전처리 시에 굉장히 유용할 것 같아서 사용해보기로 했다.
hanspell 설치 방법으로는 2가지가 있다.
👉🏻 pip 설치
pip3 install py-hanspell
pip3로 설치하면 실패한다.
👉🏻 git setup.py 설치
다음으로 git에 있는 setup.py로 설치하는 방법으로 설치했다.
git clone 후 python3 setup.py install 구문으로 설치하는 방법으로 설치해봤는데 해당 방법으로는 설치가 안됐고 아래 구문으로 설치했다.
pip3 install git+https://github.com/ssut/py-hanspell.git
from hanspell import spell_checker
checked_sent1 = spell_checker.check("굉장히 마싯다").checked
checked_sent2 = spell_checker.check("아버지가방에들어가신닷").checked
print(checked_sent1)
print(checked_sent2)
꽤 정확하게 맞춤법과 띄어쓰기를 정리해준다.
오류 건수 확인 예시
from hanspell import spell_checker
result = spell_checker.check(u'안녕 하세요. 저는 한국인 입니다. 이문장은 한글로 작성됬습니다.')
result.as_dict() # dict로 출력
{'checked': '안녕하세요. 저는 한국인입니다. 이 문장은 한글로 작성됐습니다.',
'errors': 4,
'original': '안녕 하세요. 저는 한국인 입니다. 이문장은 한글로 작성됬습니다.',
'result': True,
'time': 0.07065701484680176,
'words': {'안녕하세요.': 2,
'저는': 0,
'한국인입니다.': 2,
'이': 2,
'문장은': 2,
'한글로': 0,
'작성됐습니다.': 1}}
result
Checked(result=True, original='안녕 하세요. 저는 한국인 입니다. 이문장은 한글로 작성됬습니다.', checked='안녕하세요. 저는 한국인입니다. 이 문장은 한글로 작성됐습니다.', errors=4, words=OrderedDict([('안녕하세요.', 2), ('저는', 0), ('한국인입니다.', 2), ('이', 2), ('문장은', 2), ('한글로', 0), ('작성됐습니다.', 1)]), time=0.10472893714904785)
참고
https://github.com/ssut/py-hanspell
반응형
LIST
'Deep Learning > 개발 관련' 카테고리의 다른 글
형태소 분석기 정리, 사용자 사전 추가 feat. Pororo, Okt, Mecab, Soynlp, Kiwi (2) | 2023.02.28 |
---|---|
Okt 사용자 사전 추가 (0) | 2022.12.01 |
Okt jvm path 못찾는 문제 (0) | 2022.12.01 |
M1 Mac에서 JVM Path 못찾는 문제 (1) | 2022.11.21 |
Comments