본문 바로가기

분류 전체보기113

The Zen of Python 1. The Zen of Python 소개Python에는 The Zen of Python이라는 철학이 있다. 이는 Python의 창시자인 Guido van Rossum의 의도와 Python 커뮤니티의 가치를 반영하여, Tim Peters가 작성한 철학적 지침이다. Python 코드를 작성할 때 지침이 되는 이 철학은 "더 나은 코드"를 위한 방향을 제시하며, Python이 단순하고 가독성 높은 언어로 자리 잡는 데 중요한 역할을 한다. 이를 확인하려면 Python 인터프리터에서 import this 명령어를 입력하면 된다.아래는 The Zen of Python에 나오는 19가지 원칙과 그 의미를 간략히 설명한 것이다.import thisprint(this)   2. The Zen of Python 의 1.. 2024. 11. 7.
[05] - OCR 의 데이터 포맷 UFO UFO(Universal Format for OCR) 가 무엇인가??OCR기술이 발전하면서, 다양한 데이터셋이 등장하고 있습니다. 하지만 각 데이터셋은 저마다의 형식(json, txt, xml, csv 등)을 가지고 있어 이를 통합적으로 처리하기 어려운 경우가 많습니다. 이런 문제를 해결하기 위해 UFO(Universal Format for OCR)가 등장했습니다. UFO는 다양한 파일 형식을 하나로 통합하고, 서로 다른 OCR 모듈에서도 쉽게 사용할 수 있도록 하기 위한 통합 포맷입니다. 1. UFO의 목적UFO의 주요 목적은 다양한 형식의 데이터를 하나의 표준 포맷으로 통합하여 처리하는 것입니다. 이 포맷은 특히 다음과 같은 목표를 가지고 설계되었습니다:파일 형식 통합: 각각의 Public Datas.. 2024. 10. 30.
[04] - OCR 기반 문서 이해 문서 이해와 OCR 활용 : Document Layout Analysis 문서 이해(Document Understanding)는 문서 속에 있는 텍스트뿐만 아니라 문서의 전체적인 구조와 구성 요소까지 파악하는 과정을 말한다. 전통적인 OCR(Optical Character Recognition) 기술은 이미지에서 단순히 텍스트를 인식하는 데 중점을 두었지만, 실생활에서 사용하는 문서들은 복잡한 레이아웃과 다양한 요소로 구성되어 있기 때문에 더욱 정교한 분석이 필요하다. 이를 효과적으로 처리하기 위해 Document Layout Analysis(문서 레이아웃 분석) 기술이 중요해졌다. 1. OCR의 초창기와 한계초기의 OCR 기술은 흰 바탕에 검정 글씨가 쓰인 단순한 문서에서 글자를 추출하는 데 사용되었다.. 2024. 10. 30.
[02] - OCR Tasks OCR(Optical Character Recognition)란 무엇일까? OCR, 즉 광학 문자 인식은 이미지를 분석해 그 안에 포함된 문자를 인식하고 디지털 데이터로 변환하는 기술이다. 아래의 두 가지 경우를 예로 들어 볼 수 있다.이미지에서 텍스트를 인식하는 방식(OCR): 전통적인 OCR은 종이 문서와 같은 이미지를 스캔해 그 안에 있는 글자를 인식하는 방식이다. 예를 들어, 책 페이지나 영수증을 스캔한 뒤 그 이미지에서 텍스트를 추출하여 디지털 문서로 변환하는 것이다.자연스러운 장면 속에서 텍스트를 인식하는 방식(STR): 최근의 기술 발전에 따라 자연스러운 환경에서 촬영된 이미지에서 문자 인식을 할 수 있는 기술이 개발되었다. 예를 들어, 길거리 간판, 쇼핑몰 광고판처럼 배경이 복잡하거나 글자.. 2024. 10. 30.