카테고리 없음

[paper review] SimMatch: Semi-supervised Learning with Similarity Matching

Parkchanmin 2023. 7. 21. 19:47

confirmation bias : teacher의 성능을 student가 뛰어넘을수 없게되는 현상

Intro

SimMatch의 구조

우리가 아는 match 부분의 모델의 확장판으로 보면된다. 일반적으로 fixmatch다른 방법에서는 FC layer에서 나온 값을 바탕으로 pseudo label를 만든다. 

하지만 semantic 한 정보를 활용하진 않는다. 그렇기에 semantic , instance끼리 similarity를 활용하여 semi-supervised를 활용하는 방법을 사용함과 semantic, instance level의 consistency regularization의 방법을 적용한다. 

기존의 MixMatch, FixMatch, etc.. 등등 새로운 방법을 제안하는 방식이다. 

Method

논문에서는 총 3개의 loss를 사용하게 된다. 

  • label loss : $L_s$
  • unlabel loss : $L_u$
  • Similarity Matching : $L_{in}$ 

Preliminaries는 다음과 같다. 

  • Label data : $ X=\{x_b : b \in (1, ..., B)\}$
  • Augmentation function : $T_w(\cdot)$
  • encoder : $F(\cdot)$
  • class prediction : $\phi(\cdot)$

Instacne Similarity Matching

우선 가장 마지막 loss인 $L_{in}$부터 보자 이 방안의경우에서는 weakly augmentated view $g(\cdot )$ 를 두고 represnetation끼리의 similarity를 보고자 한다.

위의 그림에서 첨부한 바와 같이 labeled Memory Buffer를 준비하게 되어지며($z$) 그 이후 weak, strong augmentation을 각각 적용을 하게 되어 $z_b^w, z_b^s $를 뽑아낸다. 

그후에 memory buffer들과 $z_b^w, z_b^s $간의 similiarity를 구하게 되는데 이는 밑의 수식과같다. 

 

저자는 weak augmentatied 와 strong augmentatioied의 similirity의 distribution은 consitency하게 만드릭 위해서 .두개의 similarity를 CE를 적용하여 구하여준다. (consistency regularization과 비슷함.)

 

label propagation through simMatch

저자들은 이렇게 Similarity 사용하여서 pesubo label을 개선해주었다. 일반적인 pesudo label를 argmax를 사용하다보니 label information이 줄어드는데 이를 활용해서 개선함점이 main contribution인것같다. 

저자들은 similarity $q_i^w , q_i^s$와 output $p^w, p^s$로 표현을 해주었다. 이때 위의 첨부했던 cross방햐어럼 되어지는 과정을 격게 되어지는데 $q$와 $p$의 dimension은 다르게 되는데 이를 unfold와 aggreation으로 문제를 풀어주었다. 

unfold의 방법은 label momory buffer를 참조하여 만들었는데 해당 $p_i$와 $q_j$와 Similarity를 사용하는데 label에 적용된 Indexd의 부분만 가져와서 사용하는 것이다. 그렇게 되어지면 label memory buffer길이 만큼 $p$의 prediction의 값들이 나오게 되어지고 이를 사용하여 Similarity와 prediction의 값을 서로 곱해주게 되어진다. 

그렇다면 효과는 어떻게 되어지나? sharpening의 기법과 비슷하게 되어지지만 좀더 Similarity가 일치할떄 pesduo 의 confidence가 올라가는 효과가 나오게 된다. 이를 통해서 pesudo label를 smoothing하게 적용이 되어진다.

 

이논문의 algorithm은 밑의 그림과 같다. 

결과

반응형