본문 바로가기

의료 AI/[04] - 논문 리뷰5

[01 X-ray Hand] - Maskformer MaskFormer는 이미지를 분할하기 위해 classification + segmentation의 통합 접근 방식을 제안한 모델이다. 전통적인 방식이 픽셀 단위의 분류에 초점을 맞췄다면, MaskFormer는 각 마스크를 하나의 객체로 취급하여 보다 효율적인 분할을 수행한다. 특히, 트랜스포머(Transformer)를 활용하여 객체 간의 상호작용을 학습하며, 마스크 예측(mask prediction)과 클래스 예측(class prediction)을 함께 수행한다. MaskFormer의 주요 구조MaskFormer는 크게 Pixel-Level Module, Transformer Module, 그리고 Segmentation Module로 구성된다.1. Pixel-Level Module입력 이미지를 백본(R.. 2024. 11. 27.
[01 X-ray Hand] - U-Net3++ UNet3+는 전통적인 UNet 모델의 한계를 극복하고자 제안된 세분화 모델이다. 특히 의료 이미지와 같은 고해상도 데이터에서 더욱 정교한 경계와 세부 정보를 보존하기 위해 설계되었다. 이 모델은 다중 스킵 연결(Multi-scale Skip Connection)과 복합 기능 집계(Deep Supervision)를 활용해 기존 UNet보다 뛰어난 성능을 보인다. UNet3+의 구조적 특징다중 스킵 연결 (Full-scale Skip Connection)UNet3+는 다양한 스케일의 정보를 병합하는 독창적인 스킵 연결을 도입했다. 기존 UNet은 단순히 인코더와 디코더 간의 동일한 레벨에서만 스킵 연결을 사용했지만, UNet3+는 더 많은 스케일의 피처 맵을 동시에 활용한다.이를 통해 지역적 세부 정보와 .. 2024. 11. 22.
DeepLab v1 아키텍쳐 분석 DeepLab v1 아키텍쳐DeepLab v1은 딥러닝 기반의 이미지 분할 네트워크로, Dilated Convolution과 업샘플링(Bilinear Interpolation)을 활용하여 높은 해상도를 유지하면서도 넓은 수용 영역(Receptive Field)을 확보한다. 주요 구성 요소1. conv1 ~ conv4기본적인 합성곱과 ReLU 활성화 함수로 이루어져 있다.팽창율(Dilation Rate): 1MaxPooling을 통해 공간 크기를 줄인다.2. conv5팽창율(Dilation Rate): 2넓은 수용 영역을 확보하기 위해 팽창 합성곱 사용MaxPooling과 AvgPooling 적용3. FC6와 FC7 (Fully Convolutional Layers)FC6: 팽창율(Dilation Rate.. 2024. 11. 20.
[01 X-ray Hand] - SegNet의 아키텍처 SegNet은 이미지 분할 문제를 해결하기 위해 개발된 합성곱 신경망(CNN) 기반의 모델이다. SegNet은 주로 실시간 세그멘테이션에 초점을 맞추어 설계되었으며, U-Net과 같은 목적을 지니고 있지만 더 가볍고 효율적인 구조를 가지고 있다. 이 모델은 Enet 및 FCN과 같은 다른 세그멘테이션 모델들과 비교하여, 인코더-디코더 구조를 채택하고 있으며, 이를 통해 공간 정보를 유지하면서 효율적으로 이미지 분할을 수행할 수 있다.SegNet의 아키텍처SegNet은 크게 인코더(Encoder)와 디코더(Decoder)로 구성된 아키텍처이다. 이 아키텍처는 VGG16에서 영감을 받은 인코더 구조를 사용하지만, 주로 특징을 추출한 후 그 특징을 복원하는 방식으로 설계되었다. 인코더는 이미지를 점점 작게 만.. 2024. 11. 18.