본문 바로가기

Deep Learning/Paper Review

(1) Advancing Medical Imaging Informatics by Deep Learning-Based Domain Adaptation 정리 시작

320x100
320x100

 

 

 

 Medical Image Dataset에서는 환자 케이스, 촬영 장비, 촬영 방식 등과 같은 다양한 요인에 의해 distribution-shift (also known as domain-shift) 현상이 발생한다. 그리고 이 domain-shift 현상이 모델의 성능을 꽤 많이 떨궈서 성능 문제로 이어지게 된다. Hospital A에서 수집된 데이터셋으로 개발된 모델이 AUC 0.99를 찍었다 하더라도, Hospital B 데이터셋에서는 AUC 0.7도 안 나오는 현상이 발생한다. Domain-shift 현상 때문이다. 당연하게도 이 문제점을 해결하기 위해 많은 연구들이 진행되었고, "Domain Generalization (DG)" 또는 "Domain Adaptation (DA)"의 키워드로 검색하면 된다.

 

 아주 오랜만에 쓰는 이번 글은 "Advancing Medical Imaging Informatics by Deep Learning-Based Domain Adaptation" 논문에 대한 정리 글이다. 해당 논문은 Domain Adaptation을 위해 제안된 연구들을 정리한 리뷰 논문이고, 개인적으로 알고 싶었던 내용이나 새로 알게된 내용들을 single-modality DA를 위주로 정리하고자 한다.

 

 

 


 

 

Robustness가 안 좋으면 데이터셋을 섞어서 학습시키면 되는 거 아니야?

 

 논문에서도 언급하지만 DG를 위해 데이터셋을 단순히 섞는다고 해서 해결되는 문제는 아닌 것 같다.

  Diversifying the training data by creating larger datasets is a possible solution, but recent medical imaging studies [21, 23, 24] have shown that it does not guarantee improved generalization.

 

 물론 그 반대로 모델 차원으로 Poor Robustness 문제를 해결할 수 있다고 해서 데이터 차원에서의 접근이 중요하지 않은 것도 아니다. "DG를 위해선 모델 관점과 데이터 관점에서의 접근이 병행되어야 한다"가 적절한 표현인 것 같다.

 

 

 


 

 

논문에서는 DA를 아래와 같이 크게 두 개 범주로 나누어 정리한다. 

 

 

  • Domain Transformation
    - image to imgae translation 방식
    - 단방향 변환 : source domain image를 target domain image로 변환하거나 그 반대로 변환
    - 양방향 변환 : 왔다 갔다 순환적으로 변환 / 주로 CycleGAN 개념 적용됨
    - single modality의 경우 intensity generalization을 통해 poor robustness 문제를 해결할 수 있을 거고,
    - multi modality의 경우 CTtoMRI 와 같은 변환을 시도하는데 그 이유는 제대로 파악하진 않았다.
       (Synthetic Dataset 생성을 위함이려나?)
    - image 자체를 변현하기 때문에 결과 해석은 쉽지만 그 만큼 많은 계산이 요구되는 단점도 존재
    >> [46][35][51][28] 논문은 읽어볼 필요가 있을 것 같음

  • Latent Feature Space Transformation
    - LFST transform the source domain and target domain images to a shared latent feature space
       to learn a domain-invariant feature representation.
    - The goal is to minimize domain-specific information while preserving the task-related information.
    - 하위 세 분류로 나뉨
      (1) divergence minimization
      (2) adversarial training
      (3) cross-domain reconstruction
    >> 각 개념에 대해서는 다음 글에서 다룰 예정
    >> [72][73][80] 논문은 읽어볼 필요가 있을 것 같음

 

 


 

 

 DA가 최근에야 나온 개념인 줄 알았는데 나만 몰랐던 개념이었나보다. LFST-DA에서 다루는 개념들은 전부 처음보는 것들이라.. 긴 호흡으로 하나씩 공부하면서 정리해야겠다.

 

 

[ 논문 링크 ]

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7442502/