패턴 매이커란?
은행계좌번호(하나은행 123-123456-12345)와 같이 일정한 패턴(000-000000-00000)을 보유하고 있는 경우, 그 패턴을 추추출 할 수 있도록 패턴을 생성해 주는 로직임
패턴 매이커를 활용해서 은행 계좌번호의 새로운 패턴을 userDB에 등록하면 그 은행계좌번호를 추출할 수 있음
자동차과태료의 특성상 위치에 따른 데이터의 추출보다는 패턴에 의한 추출이 많이 있기 때문에 다양한 패턴을 등록해서 정확한 데이터를 추출하는데 목적이 있음
예를 들면, 아래 OCR장표에서 금액을 표시하는 부분은 2,100이며 이곳에서만 3군데에 표시되어 있음
위 3가지 금액 중 가장 신뢰성이 높은 납기내금액(납기후 금액은 다를 수 있음)은 1번임
즉, +21005< 라는 표시 중 앞에 있는 + 기호와 뒤에있는 숫자1개 & < 기호를 패턴으로 찾아서 그 속에 있는 일련의 숫자, 금액을 추출하려면 다음과 같은 패턴을 사용할 수 있음
이 때 2100을 추출하는 패턴은 다음과 같으며,
\s\+(\d+)\d{1}<\s |
이 패턴을 이용하면 OCR이미지에서 추출된 텍스트 속에서 원하는 숫자만 추출할 수 있음
처리되므로 구겨지거나 위 난이 더럽혀지지 않도록 +21005< 주의하여 주십시오. <11< |
패턴 값은 다음과 같음
2100 |
즉, 텍스트 문장 속에서 원하는 값을 추출할 때 패턴을 만들어서 userDB에 등록해서 사용하면 언제든 새로운 로직이 발생하더라도 대응이 가능함
패턴 매이커는 패턴을 만드는 곳과 그리고 만들어진 패턴을 테스트 할 수 있는 2가지 부문으로 구성되어 있음
패턴 매이커와 패턴 테스터를 이용해서 새로운 장표에 새로운 데이터를 추출할 경우 엔드 유저가 쉽게 대응할 수 있도록 유도함