전체 글113 [04 Segmentation] - MMsegmentation 사용법 1. MMSegmentation이란? MMDetection과 MMSegmentation은 모두 컴퓨터 비전 분야에서 널리 사용되는 오픈소스 라이브러리이다. 특히, MMSegmentation은 주로 이미지 세그멘테이션 작업에 특화된 프레임워크로, 다양한 세그멘테이션 모델과 학습 방식을 지원한다.MMSegmentation은 OpenMMLab이라는 오픈소스 프로젝트의 일환으로 개발된 이미지 세그멘테이션을 위한 라이브러리이다. 이 프레임워크는 다양한 종류의 세그멘테이션 모델을 쉽게 구축하고 학습할 수 있도록 설계되어 있다. 대표적인 세그멘테이션 모델인 U-Net, DeepLab 시리즈, FCN(Fully Convolutional Network) 등을 지원하며, 최신 연구 결과와 알고리즘도 빠르게 반영하고 있다... 2024. 11. 9. [03 OCR] - 영수증 데이터 추가 방법 1. EAST 모델 기반 영수증 텍스트 영역 검출 프로젝트 프로젝트는 EAST 모델을 기반으로 영수증의 텍스트 영역을 더욱 정밀하게 검출하는 데 중점을 두고 있다. 목표는 텍스트 영역 검출의 precision과 recall을 최대한 높여, 영수증 내 텍스트 검출 성능을 크게 향상시키는 것이다. EAST 모델 자체의 설명은 후반부에서 다루기로 하고, 먼저 기존에 부족했던 데이터셋을 보완하기 위해 영수증 데이터를 추가하는 과정을 공유하겠다.영수증 데이터셋이 제한적이었기에, 텍스트 검출의 정확도와 성능 향상에 어려움이 있었다. 이를 해결하기 위해 추가 데이터를 활용하여 train/val 세트를 확장하였고, 그 결과 텍스트 검출의 precision 와 recall 모두 긍정적인 성능 향상을 확인할 수 있었다. .. 2024. 11. 8. The Zen of Python 1. The Zen of Python 소개Python에는 The Zen of Python이라는 철학이 있다. 이는 Python의 창시자인 Guido van Rossum의 의도와 Python 커뮤니티의 가치를 반영하여, Tim Peters가 작성한 철학적 지침이다. Python 코드를 작성할 때 지침이 되는 이 철학은 "더 나은 코드"를 위한 방향을 제시하며, Python이 단순하고 가독성 높은 언어로 자리 잡는 데 중요한 역할을 한다. 이를 확인하려면 Python 인터프리터에서 import this 명령어를 입력하면 된다.아래는 The Zen of Python에 나오는 19가지 원칙과 그 의미를 간략히 설명한 것이다.import thisprint(this) 2. The Zen of Python 의 1.. 2024. 11. 7. [05] - OCR 의 데이터 포맷 UFO UFO(Universal Format for OCR) 가 무엇인가??OCR기술이 발전하면서, 다양한 데이터셋이 등장하고 있습니다. 하지만 각 데이터셋은 저마다의 형식(json, txt, xml, csv 등)을 가지고 있어 이를 통합적으로 처리하기 어려운 경우가 많습니다. 이런 문제를 해결하기 위해 UFO(Universal Format for OCR)가 등장했습니다. UFO는 다양한 파일 형식을 하나로 통합하고, 서로 다른 OCR 모듈에서도 쉽게 사용할 수 있도록 하기 위한 통합 포맷입니다. 1. UFO의 목적UFO의 주요 목적은 다양한 형식의 데이터를 하나의 표준 포맷으로 통합하여 처리하는 것입니다. 이 포맷은 특히 다음과 같은 목표를 가지고 설계되었습니다:파일 형식 통합: 각각의 Public Datas.. 2024. 10. 30. [04] - OCR 기반 문서 이해 문서 이해와 OCR 활용 : Document Layout Analysis 문서 이해(Document Understanding)는 문서 속에 있는 텍스트뿐만 아니라 문서의 전체적인 구조와 구성 요소까지 파악하는 과정을 말한다. 전통적인 OCR(Optical Character Recognition) 기술은 이미지에서 단순히 텍스트를 인식하는 데 중점을 두었지만, 실생활에서 사용하는 문서들은 복잡한 레이아웃과 다양한 요소로 구성되어 있기 때문에 더욱 정교한 분석이 필요하다. 이를 효과적으로 처리하기 위해 Document Layout Analysis(문서 레이아웃 분석) 기술이 중요해졌다. 1. OCR의 초창기와 한계초기의 OCR 기술은 흰 바탕에 검정 글씨가 쓰인 단순한 문서에서 글자를 추출하는 데 사용되었다.. 2024. 10. 30. [02] - OCR Tasks OCR(Optical Character Recognition)란 무엇일까? OCR, 즉 광학 문자 인식은 이미지를 분석해 그 안에 포함된 문자를 인식하고 디지털 데이터로 변환하는 기술이다. 아래의 두 가지 경우를 예로 들어 볼 수 있다.이미지에서 텍스트를 인식하는 방식(OCR): 전통적인 OCR은 종이 문서와 같은 이미지를 스캔해 그 안에 있는 글자를 인식하는 방식이다. 예를 들어, 책 페이지나 영수증을 스캔한 뒤 그 이미지에서 텍스트를 추출하여 디지털 문서로 변환하는 것이다.자연스러운 장면 속에서 텍스트를 인식하는 방식(STR): 최근의 기술 발전에 따라 자연스러운 환경에서 촬영된 이미지에서 문자 인식을 할 수 있는 기술이 개발되었다. 예를 들어, 길거리 간판, 쇼핑몰 광고판처럼 배경이 복잡하거나 글자.. 2024. 10. 30. [01] Data-Centric AI 데이터 중심 AI(Data-Centric AI)란? 데이터 중심 AI(Data-Centric AI)는 인공지능 성능 향상의 핵심이 모델이 아닌 데이터의 품질에 있다는 철학에서 출발한 접근 방식입니다. 기존에는 복잡하고 정교한 모델을 개발하는 것이 AI 성능 향상의 주된 방법이었다면, 데이터 중심 AI는 모델의 복잡성을 높이는 대신, 데이터 자체를 정제하고 개선하는 데 중점을 둡니다.데이터 중심 AI에서는 고품질의 데이터를 통해 더 정확하고 신뢰할 수 있는 예측을 만들 수 있다는 점에 주목합니다. 따라서 데이터 라벨링의 일관성, 노이즈 제거, 데이터 증강, 데이터의 다양성 보장 등 데이터 자체를 개선하는 작업이 매우 중요합니다. 이 방법은 특히 작은 데이터셋이나 편향된 데이터로 인해 AI 모델이 한계를 보.. 2024. 10. 28. [02 Object Detection] - MMdetection train/val 학습 방법 지난 블로그에서는 MMDetection의 기본적인 설치와 사용 방법에 대해 다뤘습니다. 이번 포스트에서는 train/val 데이터를 나누고 학습을 진행하는 방법에 대해 알아보겠습니다. 특히, COCO 형식의 데이터셋을 사용해 객체 탐지 모델을 학습하는 방법을 중점적으로 설명하겠습니다. [02 Object Detection] - MMdetection 설치 및 기본사용법MMDetection이란?MMDetection은 OpenMMLab에서 개발한 오픈 소스 딥러닝 객체 탐지 라이브러리입니다. 다양한 최신 객체 탐지 알고리즘을 구현하고 있어, 연구 및 실험을 위한 최적의 환경을 제공합니다.ai-bt.tistory.com 1. 데이터셋 준비 및 Train/Val 분할 객체 탐지 모델을 학습할 때, 보통 학습 데.. 2024. 10. 27. [02 Object Detection] - MMdetection 설치 및 기본사용법 MMDetection이란?MMDetection은 OpenMMLab에서 개발한 오픈 소스 딥러닝 객체 탐지 라이브러리입니다. 다양한 최신 객체 탐지 알고리즘을 구현하고 있어, 연구 및 실험을 위한 최적의 환경을 제공합니다. 이 라이브러리는 COCO, VOC, ADE20K 등 다양한 데이터셋을 지원하며, 사용자 친화적인 API와 확장성이 뛰어난 구조로 되어 있습니다. MMDetection은 연구자와 개발자들이 효율적으로 딥러닝 모델을 구축하고 학습할 수 있도록 도와줍니다. 1. MMDetection 설치 과정 1) MMdection 클론하기MMDetection을 사용하기 위해서는 먼저 라이브러리를 설치해야 합니다. 설치 과정은 다음과 같습니다.우선, MMDetection의 소스 코드를 GitHub에서 클론해.. 2024. 10. 26. 이전 1 2 3 4 5 6 ··· 13 다음