[04] - OCR 기반 문서 이해
·
딥러닝 (Deep Learning)/[02] - 데이터
문서 이해와 OCR 활용 : Document Layout Analysis 문서 이해(Document Understanding)는 문서 속에 있는 텍스트뿐만 아니라 문서의 전체적인 구조와 구성 요소까지 파악하는 과정을 말한다. 전통적인 OCR(Optical Character Recognition) 기술은 이미지에서 단순히 텍스트를 인식하는 데 중점을 두었지만, 실생활에서 사용하는 문서들은 복잡한 레이아웃과 다양한 요소로 구성되어 있기 때문에 더욱 정교한 분석이 필요하다. 이를 효과적으로 처리하기 위해 Document Layout Analysis(문서 레이아웃 분석) 기술이 중요해졌다. 1. OCR의 초창기와 한계초기의 OCR 기술은 흰 바탕에 검정 글씨가 쓰인 단순한 문서에서 글자를 추출하는 데 사용되었다..