1) 솔루션 개요
엔터프라이즈 자동화 시장의 글로벌 리더인 유아이패스(UiPath)는 업무 자동화 소프트웨어에 딥러닝과 OCR을 접목한 도큐멘트 언더스탠딩(Document Understanding)이 공공기관의 ESG에 실질적인 도움이 되는 솔루션이라고 소개한다.
유아이패스 도큐멘트 언더스탠딩은 최근 금융기업 및 국내 대기업에서 각종 거래처와의 교정성적서 작업, 인보이스 처리 등을 OCR로 디지털화 하는 작업에 적용되면서, 기존의 방대한 종이문서 작업을 없애는 ‘페이퍼리스(paperless)’ 문화 확산에 앞장서고 있다.
도큐멘트 언더스탠딩은 OCR 을 사용해 문서 텍스트를 인식하고, 딥러닝과 RPA(로보틱 프로세스 자동화)를 통해 문서를 디지털 형태로 변환한다. UiPath에서 기본 제공되는 머신러닝 모델은 문서 분류 및 데이터 추출 작업을 학습시켜 모델링 작업 속도를 현저히 줄일 뿐 아니라 정확도를 높여준다.
문서 텍스트 디지털화 작업에 OCR과 딥러닝 그리고 RPA를 모두 활용하기 때문에 정형, 비정형 데이터를 처리하면서 데이터 테이블, 체크 박스, 수기 및 서명 같은 다양한 데이터 객체를 다룰 수 있다는 장점이 있다.
또한, 대부분의 OCR 엔진은 데이터 추출 기능이 하나로 통합되어 있지만, 유아이패스는 이 둘을 분리해 운영한다. 둘이 분리되어 있기 때문에 사용자는 필요에 따라 다른 OCR 엔진을 사용해 확장성과 정확도를 높일 수 있는 선택권이 있다.
2) 솔루션 특장점 및 기대효과
문서 분류 (Classification)
머신러닝 기술을 이용하는 분류 (Classification) 의 경우 OCR을 통해 디지털화된 문서는 미리 정리된 기준에 따라 분류되며 이때, 3가지의 분류자 (Classifier)가 사용된다.
1) 키워드 분류자 (Keyword Classifier): 사람이 분류 대상 문서에 포함된 키워드를 정의하는 방법으로, ‘인보이스’ 및 ‘영수증’ 등 키워드를 정의하면 이에 따라 문서를 나눠준다.
2) 지능형 키워드 분류자 (Intelligent Keyword Classifier): UiPath Tool에 샘플 문서를 제공해 훈련시키면 툴 스스로 키워드를 인식해 저장했다가 입력되는 문서 키워드의 벡터와 비교해서 문서를 분류하는 방식이다.
3) 머신러닝 분류자 (Machine Learning Classifier): 머신러닝 모델을 이용해 분류하는 방식으로, 이 방법을 사용하기 위해서는 머신러닝 모델 확보와 학습 과정이 선행되어야 한다. 문서 분류 작업에는 필요에 따라 사람에 의한 검증 작업을 추가할 수 있다.
데이터 추출 (Extraction)
문서 분류 다음은 데이터 추출 작업이 진행된다. UiPath Document Understanding은 규칙 (Rule) 기반과 머신러닝 기반의 2개 추출 방식을 제공하고 규칙 기반 방식은 다시 정규 표현식, 폼 그리고 지능형 폼 방식으로 나눠진다. 규칙 기반과 머신러닝 방식을 함께 사용하는 하이브리드 모델도 가능하다.
1) 정규표현식 추출기 (Extractor): 가장 단순한 방식으로 문서에서 인식된 데이터를 그대로 추출하는 기능
2) 폼 추출기 (Extractor): 세금계산서, 인보이스 등과 같이 고정된 구성을 가진 문서에서 데이터를 추출하는 기능
3) 지능형 폼 추출기 (Extractor): 폼 추출자와 비슷하지만 문서에 체크박스 및 서명 등이 있는지를 확인하는 기능
4) 머신러닝 추출기(Machine Learning Extractor): 머신러닝 모델을 이용하여 데이터를 추출하는 방식으로, 이 방법을 사용하기 위해서는 머신러닝 모델 (UiPath에서 제공)과 학습 과정이 선행되어야 한다. UiPath에서 제공하는 Data Manager(레이블링 툴)를 활용하여 문서에서 추출하고자 하는 내용을 쉽게 표시하고, 통합된 머신러닝 학습기를 이용하여 학습 후 사용가능하다.
분류 작업과 동일하게 데이터 추출 단계에서도 머신러닝 모델에 의한 학습과 사람에 의한 검증이 가능하다. 검증자가 데이터 항목을 선택하면 그 항목이 문서의 어느 영역에서 추출되었는지 하이라이트로 표시해주기 주기 때문에 쉽게 파악할 수 있다. 추출된 값이 잘못되었거나 추출되지 않은 항목이 있다면, 검증자가 바로 추가 및 수정할 수 있다.