본문 바로가기

지식 창고/Software 소개

문자인식프로그램 아르미 vs 네이버 문자인식 OCR

컴퓨터로 문자를 인식하는건 오래전부터 가능한 기술이었습니다.

지문도 인식하고 얼굴도 인식하는데 문자쯤이야? 인식못할게 없죠.

그런데 문자인식기술은 아직 많이 부족합니다.

구글 Picassa 에서는 사람얼굴을 넣어두면 사진을 자동으로 얼굴인식을 해서 분류를 해줍니다.

아주 매력적인 기능이죠.

그런데 문자인식에서 걸리는게 뭐일까요. 바로 폰트입니다.


왼쪽에 보시는게 제 컴퓨터 엑셀에 있는 폰트의 일부입니다.

극히 일부인데 이 많은 글씨체를 컴퓨터가 인식을 하려면 쉽진 않겠죠.

쉽진 않지만 예상하시는 대로 인식하는 프로그램이 많이있습니다.








그중에서 제가 쓰고있는게 정말 유명한 아르미6.0 입니다.

이 프로그램은 그림파일을 가지고 인식을 할수도 있고 바로 스캔을 해서 인식을 할 수도 있습니다.

근데 이 프로그램이 나온시기가 2000년입니다. 지금으로부터 9년전.. 다른버전도 있지만 제가 가지고있는건 이게다라...

물론 요즘은 스케너에서 지원하는 문자인식 프로그램이 있지만 아직 제가 써보지 않은관계로..

최근에 나온 네이버LAB 문자인식(OCR)과 비교를 해보겠습니다.

일단 사용하기 쉬운건 네이버입니다. 네이버가 쉽긴 무지 쉽죠.

그런데 정확도는 아르미를 따라가질 못하더라구요

그럼 두 가지를 비교해보겠습니다.

1. 아르미 6.0


아르미의 실행화면입니다.

그럼 그림파일을 인식시켜 보겠습니다.


왼쪽상단에 있는 그림파일 열기를 클릭합니다.




그림이 불러와졌으면 제일 왼쪽에 있는 일괄인식 버튼을 누릅니다.


창이 뜨면 수행 버튼을 누릅니다.

페이지의 양에 따라서 시간이 좀 걸릴수도 있어요

보통 1페이지당 1초 정도 걸리더군요. 이정도면 뭐 별 문제 없겠죠



위 결과 처럼 오자 탈자가 거의 없이 인식이 되었습니다.

제일 상단에 개정요지 부분에 "지"앞에 커서를 가져가니까 원래 그림에 있던 글자부분이 나오는군요

글자가 잘못된 부분이 있으면 그부분을 크릭하면 해당 글자의 그림이 떠서 바로 수정하는데 하게 되어있습니다.

이렇게 인식이 된걸 텍스트파일로 변화도 가능하고 복사(Ctrl+C)해서 다른곳에 붙여넣기(Ctrl+V)를 할수도있습니다.

그런데 이 버전에서 지원되지 않는게 바로 표입니다.

표를 만나면 글자의 내용만 인식을 하고 표의 경계는 인식을 못하더라구요.

그리고 그림에서도 마찬가지입니다. 그림을 따로 자동으로 뽑아내어주진 않습니다.



2. Naver LAB

네이버에서 제공하는 서비스 중의 하나로 언어변환기능이 있습니다.

http://t.lab.naver.com/ocr/

위 주소로 가면 사용하실수 있는데요

위에서 소개드린 프로그램과 비교를 해보면 인식율은 네이버가 더 좋은거 같네요

만든 시점이 거의 10년이나 차이나니까 좋을수 밖에 없죠.

그런데 불편한점이 하나 있습니다.

수정하려고 하면 원본 그림을 보고 해야하는데

그걸 찾는게 시간이 너무 걸린다는거죠.

대신 인터넷으로 간편하게 바로 실행을 한다는게 매력이 있죠.

 

위 주소로 가시면 그림과 같이 페이지가 뜹니다.

여기에서 그림을 첨부하시면 됩니다.

이때 걍 해보신다고 그림파일을 올리시면 네이버가 냉큼~알아채고 부적합하다는 결과를 보여줍니다.


위 화면과 같이 인식결과를 보여줍니다.

그런데 일정부분이 오타가 나서 원본 그림을 보려면 그림을 열어서 해당부분을 찾아야만 확인할수 있는게

불편한부분이네요.


이런 방법외에도 요즘은 HP나 신도리코 등에서 나오는 복합기 프로그램에는 자체 인식 프로그램이 있는 경우가 있습니다.

아직 사용해보지 않아 성능은 잘 모르겠지만 언젠가는 표까지도 다 인식이 되는 그날이 오겠죠 ㅎ