주 메뉴 바로가기 본문 내용 바로가기

UiPath 도큐멘트 언더스탠딩,
공공기관 ESG 돕는다

1) 솔루션 개요

엔터프라이즈 자동화 시장의 글로벌 리더인 유아이패스(UiPath)는 업무 자동화 소프트웨어에 딥러닝과 OCR을 접목한 도큐멘트 언더스탠딩(Document Understanding)이 공공기관의 ESG에 실질적인 도움이 되는 솔루션이라고 소개한다.

유아이패스 도큐멘트 언더스탠딩은 최근 금융기업 및 국내 대기업에서 각종 거래처와의 교정성적서 작업, 인보이스 처리 등을 OCR로 디지털화 하는 작업에 적용되면서, 기존의 방대한 종이문서 작업을 없애는 ‘페이퍼리스(paperless)’ 문화 확산에 앞장서고 있다.

도큐멘트 언더스탠딩은 OCR 을 사용해 문서 텍스트를 인식하고, 딥러닝과 RPA(로보틱 프로세스 자동화)를 통해 문서를 디지털 형태로 변환한다. UiPath에서 기본 제공되는 머신러닝 모델은 문서 분류 및 데이터 추출 작업을 학습시켜 모델링 작업 속도를 현저히 줄일 뿐 아니라 정확도를 높여준다.

문서 텍스트 디지털화 작업에 OCR과 딥러닝 그리고 RPA를 모두 활용하기 때문에 정형, 비정형 데이터를 처리하면서 데이터 테이블, 체크 박스, 수기 및 서명 같은 다양한 데이터 객체를 다룰 수 있다는 장점이 있다.

또한, 대부분의 OCR 엔진은 데이터 추출 기능이 하나로 통합되어 있지만, 유아이패스는 이 둘을 분리해 운영한다. 둘이 분리되어 있기 때문에 사용자는 필요에 따라 다른 OCR 엔진을 사용해 확장성과 정확도를 높일 수 있는 선택권이 있다.

2) 솔루션 특장점 및 기대효과

문서 분류 (Classification)

머신러닝 기술을 이용하는 분류 (Classification) 의 경우 OCR을 통해 디지털화된 문서는 미리 정리된 기준에 따라 분류되며 이때, 3가지의 분류자 (Classifier)가 사용된다.

1) 키워드 분류자 (Keyword Classifier): 사람이 분류 대상 문서에 포함된 키워드를 정의하는 방법으로, ‘인보이스’ 및 ‘영수증’ 등 키워드를 정의하면 이에 따라 문서를 나눠준다.

2) 지능형 키워드 분류자 (Intelligent Keyword Classifier): UiPath Tool에 샘플 문서를 제공해 훈련시키면 툴 스스로 키워드를 인식해 저장했다가 입력되는 문서 키워드의 벡터와 비교해서 문서를 분류하는 방식이다.

3) 머신러닝 분류자 (Machine Learning Classifier): 머신러닝 모델을 이용해 분류하는 방식으로, 이 방법을 사용하기 위해서는 머신러닝 모델 확보와 학습 과정이 선행되어야 한다. 문서 분류 작업에는 필요에 따라 사람에 의한 검증 작업을 추가할 수 있다.

데이터 추출 (Extraction)

문서 분류 다음은 데이터 추출 작업이 진행된다. UiPath Document Understanding은 규칙 (Rule) 기반과 머신러닝 기반의 2개 추출 방식을 제공하고 규칙 기반 방식은 다시 정규 표현식, 폼 그리고 지능형 폼 방식으로 나눠진다. 규칙 기반과 머신러닝 방식을 함께 사용하는 하이브리드 모델도 가능하다.

1) 정규표현식 추출기 (Extractor): 가장 단순한 방식으로 문서에서 인식된 데이터를 그대로 추출하는 기능

2) 폼 추출기 (Extractor): 세금계산서, 인보이스 등과 같이 고정된 구성을 가진 문서에서 데이터를 추출하는 기능

3) 지능형 폼 추출기 (Extractor): 폼 추출자와 비슷하지만 문서에 체크박스 및 서명 등이 있는지를 확인하는 기능

4) 머신러닝 추출기(Machine Learning Extractor): 머신러닝 모델을 이용하여 데이터를 추출하는 방식으로, 이 방법을 사용하기 위해서는 머신러닝 모델 (UiPath에서 제공)과 학습 과정이 선행되어야 한다. UiPath에서 제공하는 Data Manager(레이블링 툴)를 활용하여 문서에서 추출하고자 하는 내용을 쉽게 표시하고, 통합된 머신러닝 학습기를 이용하여 학습 후 사용가능하다.

분류 작업과 동일하게 데이터 추출 단계에서도 머신러닝 모델에 의한 학습과 사람에 의한 검증이 가능하다. 검증자가 데이터 항목을 선택하면 그 항목이 문서의 어느 영역에서 추출되었는지 하이라이트로 표시해주기 주기 때문에 쉽게 파악할 수 있다. 추출된 값이 잘못되었거나 추출되지 않은 항목이 있다면, 검증자가 바로 추가 및 수정할 수 있다.

- 솔루션/서비스 프로바이더:
- 연락처:
사원지원그룹 이오영 전무, loyloy@kcc.co.kr, 02-6090-7738
위로