[04] - FC DenseNet 이란?
·
딥러닝 (Deep Learning)/[05] - 논문 리뷰
FC DenseNet이란? FC DenseNet은 Fully Convolutional DenseNet의 약자로, Fully Convolutional Network (FCN)과 DenseNet을 결합하여 이미지 분할 (segmentation) 작업에 최적화된 모델이다. DenseNet의 특징인 Dense Block과 feature reuse를 활용하면서도, FCN의 encoder-decoder 구조를 채택해 픽셀 단위 예측을 수행한다. 이러한 구조는 주로 의료 영상과 같은 이미지 분할 작업에서 효과적으로 사용된다.  FC DenseNet의 구성 요소 DenseNet은 Dense Block이라는 구조를 통해 각 layer가 이전 layer의 출력을 연결해나가며 점진적으로 feature map을 확장한다. 예..
[03] - 빠르면서도 정확한 SegNet
·
딥러닝 (Deep Learning)/[05] - 논문 리뷰
SegNet 이란??SegNet은 특히 도로 장면을 이해하기 위해 설계된 Semantic Segmentation 모델이다. SegNet의 주요 목표는 차량, 도로, 차선, 건물, 보도, 하늘, 사람과 같은 객체들을 빠르고 정확하게 구분하는 것이다. 이 글에서는 SegNet이 어떤 발전 동기와 구조를 가지고 있으며, 유사한 네트워크와 어떤 차이점이 있는지 알아보자.  SegNet의 발전 동기SegNet은 자율 주행과 같은 Road Scene Understanding Applications를 위한 모델로 개발되었다. 이 분야에서는 다양한 객체들을 명확하게 분류할 수 있는 세그멘테이션 모델이 필수적이다. SegNet은 기존 모델들이 기능적으로 뛰어난 성능을 제공하더라도 속도가 부족한 문제를 해결하고자 개발되었..
[02] - FCN 한계점을 극복한 DeconvNet 이란??
·
딥러닝 (Deep Learning)/[05] - 논문 리뷰
FCN 의 한계점   1. 객체의 크기가 크거나 작은 경우 예측을 잘 하지 못하는 문제FCN(Fully Convolutional Network)은 객체의 크기에 따라 예측 정확도가 달라지는 문제가 있다. 특히, 큰 객체의 경우 지역적인 정보만을 사용해 예측하기 때문에 오차가 발생하기 쉽다. 위의 이미지에 상당 부분을 보면, 버스의 앞 부분을 버스로 인식하지만 유리창에 비친 자전거를 보고 자전거로 예측하는 문제가 발생하기도 한다. 이는 동일한 객체여도 부분적으로 다른 레이블이 예측될 가능성을 높인다. 작은 객체의 경우 무시되는 문제도 존재한다. 작은 객체는 이미지 내에서 충분한 정보가 제공되지 않아 삭제되거나 아예 예측이 되지 않는 경우가 발생한다. 실제로 작은 객체의 일부가 있는 이미지에서도 FCN은 이..
[01] - FCN32s, FCN16s, FCN8s 이란?
·
딥러닝 (Deep Learning)/[05] - 논문 리뷰
FCN 이란?FCN은 2015년에 처음 소개된 신경망 모델로, 이미지의 픽셀 단위 예측을 수행하여 분할(Segmentation) 작업에서 중요한 역할을 하게 되었다. 이후 많은 연구에서 기본 모델로 사용되며 다양한 발전이 이루어졌다. FCN은 기존의 이미지 분류를 위해 설계된 네트워크와 달리, 이미지 내의 각 픽셀을 개별적으로 분류할 수 있도록 설계되었다는 점에서 차별성을 가진다. FCN의 주요 구성 요소와 특징   1. VGG 네트워크 백본 사용FCN은 VGG 네트워크를 백본(Backbone)으로 사용한다. VGG 네트워크는 이미지 특징을 추출하는 데 강력한 성능을 보여주며, 이는 FCN이 이미지 내 세밀한 특징을 분석하고 분류하는 데 적합한 구조이다. 여기서 백본은 Feature Extracting ..
이미지 기반 손 뼈 EDA
·
딥러닝 (Deep Learning)/[02] - 데이터
데이터 EDA 이번 프로젝트의 목표는 X-ray 이미지를 받아 사람의 손 뼈를 분할(segmentation)하는 모델을 만드는 것이다. 향후 자동화된 진단 시스템에 사용될 가능성이 있으며, 의료 현장에서 정확한 손 뼈 분할을 통해 의사의 진단을 돕는 역할을 할 수 있을 것으로 기대된다. 1. 데이터 구성이미지는 2048 x 2048 해상도의 3채널 RGB 형태이다. 높은 해상도의 이미지를 사용함으로써 손 뼈의 세부적인 형태와 구조를 분할하는 데에 유리하다. 고해상도 이미지는 모델이 보다 세밀한 구조를 학습할 수 있는 장점이 있다.총 데이터 수: 550명으로부터 얻은 X-ray 이미지훈련 이미지: 800장 (400명의 이미지)테스트 이미지: 300장 (150명의 이미지)이렇게 제공된 데이터를 바탕으로 모델..
U-Net 의 이해
·
딥러닝 (Deep Learning)/[05] - 논문 리뷰
U-Net은 이미지 분할(Image Segmentation) 문제를 해결하기 위해 개발된 합성곱 신경망(CNN) 기반의 모델이다. 이 모델은 2015년에 Olaf Ronneberger와 그의 동료들에 의해 의료 영상 분석을 위해 제안되었으며, 주로 생물학적 이미지 분할에 사용되었다. U-Net은 그 단순하지만 강력한 구조로 인해 다양한 컴퓨터 비전 문제에 널리 사용되고 있다. U-Net: Convolutional Networks for Biomedical Image SegmentationThere is large consent that successful training of deep networks requires many thousand annotated training samples. In this..
[04 Segmentation] - MMsegmentation 사용법
·
딥러닝 (Deep Learning)/[08] - 프로젝트
1. MMSegmentation이란? MMDetection과 MMSegmentation은 모두 컴퓨터 비전 분야에서 널리 사용되는 오픈소스 라이브러리이다. 특히, MMSegmentation은 주로 이미지 세그멘테이션 작업에 특화된 프레임워크로, 다양한 세그멘테이션 모델과 학습 방식을 지원한다.MMSegmentation은 OpenMMLab이라는 오픈소스 프로젝트의 일환으로 개발된 이미지 세그멘테이션을 위한 라이브러리이다. 이 프레임워크는 다양한 종류의 세그멘테이션 모델을 쉽게 구축하고 학습할 수 있도록 설계되어 있다. 대표적인 세그멘테이션 모델인 U-Net, DeepLab 시리즈, FCN(Fully Convolutional Network) 등을 지원하며, 최신 연구 결과와 알고리즘도 빠르게 반영하고 있다...
[03 OCR] - 영수증 데이터 추가 방법
·
딥러닝 (Deep Learning)/[08] - 프로젝트
1. EAST 모델 기반 영수증 텍스트 영역 검출 프로젝트 프로젝트는 EAST 모델을 기반으로 영수증의 텍스트 영역을 더욱 정밀하게 검출하는 데 중점을 두고 있다. 목표는 텍스트 영역 검출의 precision과 recall을 최대한 높여, 영수증 내 텍스트 검출 성능을 크게 향상시키는 것이다. EAST 모델 자체의 설명은 후반부에서 다루기로 하고, 먼저 기존에 부족했던 데이터셋을 보완하기 위해 영수증 데이터를 추가하는 과정을 공유하겠다.영수증 데이터셋이 제한적이었기에, 텍스트 검출의 정확도와 성능 향상에 어려움이 있었다. 이를 해결하기 위해 추가 데이터를 활용하여 train/val 세트를 확장하였고, 그 결과 텍스트 검출의 precision 와 recall 모두 긍정적인 성능 향상을 확인할 수 있었다. ..
[05] - OCR 의 데이터 포맷 UFO
·
딥러닝 (Deep Learning)/[02] - 데이터
UFO(Universal Format for OCR) 가 무엇인가??OCR기술이 발전하면서, 다양한 데이터셋이 등장하고 있습니다. 하지만 각 데이터셋은 저마다의 형식(json, txt, xml, csv 등)을 가지고 있어 이를 통합적으로 처리하기 어려운 경우가 많습니다. 이런 문제를 해결하기 위해 UFO(Universal Format for OCR)가 등장했습니다. UFO는 다양한 파일 형식을 하나로 통합하고, 서로 다른 OCR 모듈에서도 쉽게 사용할 수 있도록 하기 위한 통합 포맷입니다. 1. UFO의 목적UFO의 주요 목적은 다양한 형식의 데이터를 하나의 표준 포맷으로 통합하여 처리하는 것입니다. 이 포맷은 특히 다음과 같은 목표를 가지고 설계되었습니다:파일 형식 통합: 각각의 Public Datas..