Patrick's 데이터 세상

맞춤법 검사기 - hanspell 본문

Deep Learning/개발 관련

맞춤법 검사기 - hanspell

patrick610 2022. 11. 22. 14:03
반응형
SMALL




네이버 한글 맞춤법 검사기로 만들어진 패키지로써 대화형 전처리 시에 굉장히 유용할 것 같아서 사용해보기로 했다.

hanspell 설치 방법으로는 2가지가 있다.

👉🏻 pip 설치

pip3 install py-hanspell

pip3로 설치하면 실패한다.


👉🏻 git setup.py 설치

다음으로 git에 있는 setup.py로 설치하는 방법으로 설치했다.
git clone 후 python3 setup.py install 구문으로 설치하는 방법으로 설치해봤는데 해당 방법으로는 설치가 안됐고 아래 구문으로 설치했다.

pip3 install git+https://github.com/ssut/py-hanspell.git



from hanspell import spell_checker

checked_sent1 = spell_checker.check("굉장히 마싯다").checked
checked_sent2 = spell_checker.check("아버지가방에들어가신닷").checked

print(checked_sent1)
print(checked_sent2)

꽤 정확하게 맞춤법과 띄어쓰기를 정리해준다.


오류 건수 확인 예시

from hanspell import spell_checker

result = spell_checker.check(u'안녕 하세요. 저는 한국인 입니다. 이문장은 한글로 작성됬습니다.')
result.as_dict()  # dict로 출력
{'checked': '안녕하세요. 저는 한국인입니다. 이 문장은 한글로 작성됐습니다.',
 'errors': 4,
 'original': '안녕 하세요. 저는 한국인 입니다. 이문장은 한글로 작성됬습니다.',
 'result': True,
 'time': 0.07065701484680176,
 'words': {'안녕하세요.': 2,
           '저는': 0,
           '한국인입니다.': 2,
           '이': 2,
           '문장은': 2,
           '한글로': 0,
           '작성됐습니다.': 1}}
           
result
Checked(result=True, original='안녕 하세요. 저는 한국인 입니다. 이문장은 한글로 작성됬습니다.', checked='안녕하세요. 저는 한국인입니다. 이 문장은 한글로 작성됐습니다.', errors=4, words=OrderedDict([('안녕하세요.', 2), ('저는', 0), ('한국인입니다.', 2), ('이', 2), ('문장은', 2), ('한글로', 0), ('작성됐습니다.', 1)]), time=0.10472893714904785)




참고

https://github.com/ssut/py-hanspell

GitHub - ssut/py-hanspell: 파이썬 한글 맞춤법 검사 라이브러리. (네이버 맞춤법 검사기 사용)

파이썬 한글 맞춤법 검사 라이브러리. (네이버 맞춤법 검사기 사용). Contribute to ssut/py-hanspell development by creating an account on GitHub.

github.com


반응형
LIST
Comments