최근 업무를 보면서 학습 데이터가 지속적으로 증가하는 경우가 발생하다보니 Incremental Leanring에 대해서 공부를 하는 경우가 생겼다. 그렇다보니 자연스럽게 2D object detection이외에 다른 분야에도 있을까 생각하고 찾아보다 보니 해당논문을 찾게 되어졌다.
이 논문의 경우 AAAI 2022년 Oral paper로 되어진 논문으로 3D 분야에서 처음으로 적용한 부분이다 보니 더욱 주목 받는 방법이 아닐까 생각이든다.
아래의 그림처럼 Incremental Learning의 기조를 따라가다 보니 Novel Class에 대해서 객체를 찾게 되어지고 기본 Base Classes에서도 여전히 찾게 되어지는것을 볼 수 있다.
그렇다면 이 논문의 핵심 아이디어의 핵심은 새로운 Task에 적용한것 말고 어떤것이 있을까?
저자는 새로운 아디이어로 Pesudo Labeling을 방식을 제안했다. 일반적인 방식이 있을수도 있지만 이전의 Task에서 만들어진 모델을 바탕으로 새로운 Novel에 기존의 Base의 class에 Pesudo labeling을 같이 넣어서 학습을 시키는것이다.
그렇게 되면 Pesudo labeling의 중요성이 높아지는데 이를 해결하기 위해서 Techer Student Model을 들고왔고, Static & Dynamic 이라는 두개의 Teacher를 들고오면서 해당 문제를 해결했다고 한다.
그러면 자세하게 이 논문이 어떤 방식으로 문제를 풀었는지 살펴보자.
방법
Baseline Model
3D에 접근하기 위해서는 저자는 Point Clould Object Detection의 기본이 되어지는 모델일 VoteNet을 수정해서 개선이 되었다고 한다.
VoteNet의 경우 아래의 그림과 같이 있는데 $X$라는 XYZ를 가지는 좌표값을 넣어 Featuer를 추가한 $S$라는 seeds를 뽑아낸다. 이 과정까지는 일반적인 방법이지만 Voting Module이라는 방식을 통해서 Point들을 대표할수 있는 지점을 뽑고 그 주위의 Point들을 구성해서 새롭게 만들어낸다. 이를 통해서 $V$라는 point들이 최정적으로 나오게 되어진다.
이 point들을 바탕으로 Detection이 수행이 되어진다.
SDCOT 모델방식
Pesudo Label Generation
이전에 말했던것처럼 이 논문의 경우 Peusdo label을 만드는것에 아디어를 더했다고 한다.
Novel Class를 학습할때 Base Class로 학습 했던 모델을 Novel Class에 Peusdo labeling을 만들어서 적용했다고 한다.
이 Peusdo labeling을 만드는건 생각보다 너무 쉬운데 Low-confidence box 부분을 지웠고 그리고 Classification 의 확률값과 바탕으로 낮은 Prob을 가진 Class도 Pesudo labeing이 넣지 않는 방식을 선택했다.
그럼에도 불구하고 부정확한 결과가 나온다는데 이를 해결하기 위해서 아래의 새로운 방법을 사용한다.
Static-Dynamic Co-Teaching
저자는 부정확한 결과를 개선하기 위해서 Static Teacher과 Dynamic Teacher를 2개를 만들어서 작업을 하는데 각각의 Teacher의 하는 역할은 다음과 같이 나뉘어진다.
Static Teacher의 경우는 Base Class로 학습한후 Freeze되어진 모델이며 이 Teacher의 역할은 Peusdo labeling을 만들어 내는 역할을 하며 Distillation을 Student에 하는 역할로 보면되어진다.
Dynmaic Teacher의 경우는 기존의 Student에 대해서 EMA가 진행이 되어짐과 동시게 Input에 대해서 Consistency를 유지하기 위한 역할을 수행한다.
전체적인 흐름은 아래의 그림과 같이 되어진다.
그러면 각각의 Loss는 아래와 같이 되어진다.
Distillation Loss의 경우는 Student와 Static Teacher의 SoftMax이전의 Logit의 값의 차이를 최소화하는 작업을 말한다. 그럴경우 이전의 Knwoledge를 Distiliation하는 효과가 있다.
Supervised Loss의 경우는 기존의 CE로 적용이 되어지면 Novel Class를 추가해서 BaseL Class와 함께 재 학습을 하는데 이때 Base Class의 경우는 Static Teacher에서 나온 Pesudo label로 적용이 되어서 학습이 되어진다.
Consistency Loss의 경우에서는 SimCLR와 같은 Loss를 사용한다고 보면된다.
방법은 너무 단순하지만 효과적으로 나오며 기존에 접근하지 않았던 새로운 방법이라 확실히 성능적인 면은 효과가 있다.
'Dummy' 라는 도스게임이 있다. 이 게임에는 뱀이 나와서 기어다니는데, 사과를 먹으면 뱀 길이가 늘어난다. 뱀이 이리저리 기어다니다가 벽 또는 자기자신의 몸과 부딪히면 게임이 끝난다.
게임은 NxN 정사각 보드위에서 진행되고, 몇몇 칸에는 사과가 놓여져 있다. 보드의 상하좌우 끝에 벽이 있다. 게임이 시작할때 뱀은 맨위 맨좌측에 위치하고 뱀의 길이는 1 이다. 뱀은 처음에 오른쪽을 향한다.
뱀은 매 초마다 이동을 하는데 다음과 같은 규칙을 따른다.
먼저 뱀은 몸길이를 늘려 머리를 다음칸에 위치시킨다.
만약 벽이나 자기자신의 몸과 부딪히면 게임이 끝난다.
만약 이동한 칸에 사과가 있다면, 그 칸에 있던 사과가 없어지고 꼬리는 움직이지 않는다.
만약 이동한 칸에 사과가 없다면, 몸길이를 줄여서 꼬리가 위치한 칸을 비워준다. 즉, 몸길이는 변하지 않는다.
사과의 위치와 뱀의 이동경로가 주어질 때 이 게임이 몇 초에 끝나는지 계산하라.
입력
첫째 줄에 보드의 크기 N이 주어진다. (2 ≤ N ≤ 100) 다음 줄에 사과의 개수 K가 주어진다. (0 ≤ K ≤ 100)
다음 K개의 줄에는 사과의 위치가 주어지는데, 첫 번째 정수는 행, 두 번째 정수는 열 위치를 의미한다. 사과의 위치는 모두 다르며, 맨 위 맨 좌측 (1행 1열) 에는 사과가 없다.
다음 줄에는 뱀의 방향 변환 횟수 L 이 주어진다. (1 ≤ L ≤ 100)
다음 L개의 줄에는 뱀의 방향 변환 정보가 주어지는데, 정수 X와 문자 C로 이루어져 있으며. 게임 시작 시간으로부터 X초가 끝난 뒤에 왼쪽(C가 'L') 또는 오른쪽(C가 'D')로 90도 방향을 회전시킨다는 뜻이다. X는 10,000 이하의 양의 정수이며, 방향 전환 정보는 X가 증가하는 순으로 주어진다.
출력
첫째 줄에 게임이 몇 초에 끝나는지 출력한다.
예제 입력 1복사
6
3
3 4
2 5
5 3
3
3 D
15 L
17 D
예제 출력 1복사
9
예제 입력 2복사
10
4
1 2
1 3
1 4
1 5
4
8 D
10 D
11 D
13 L
예제 출력 2복사
21
예제 입력 3복사
10
5
1 5
1 3
1 2
1 6
1 7
4
8 D
10 D
11 D
13 L
예제 출력 3복사
13
문제방법
1. 문제대로 차근차근이 읽으면서 경우의 수를 생각해서 예외처리해주면됨
2. 큐의 형태로 생각하면서 문제를 풀자.
from collections import deque
import sys
inputs = sys.stdin.readline
N = int(inputs())
maps = [[0]*N for _ in range(N)]
K = int(inputs())
apple_index = [list(map(int,inputs().split())) for _ in range(K)]
for y,x in apple_index:
maps[y-1][x-1] = -1 # 사과 있음
D = int(inputs())
directions = {}
for i in range(D):
x, c = input().split()
directions[int(x)] = c
move = [[0,1],[1,0],[0,-1],[-1,0]] #오하왼상
## 몇초안에 끝나는지.. 계속 길이가 길어지고 있음 & 큐로 푸는것임.. 구현문제도 맞는듯..
def rotate_direction(curr_dir, move_idx):
if curr_dir == 'L':
move_idx -= 1
elif curr_dir == 'D':
move_idx += 1
return move_idx%4
# 너무 어렵게 생각하지말자.뱀의 길이가 이전의 길이에 따라오면 되는 것이 핵심 아이디어도
y, x, curr_dir = 0,0,0
start_time = 0
q = deque()
q.append((y,x))
while True :
start_time += 1
dy, dx = move[curr_dir] # 초기 방향설정
ny, nx = y + dy, x + dx # 다음길이로 이동
if ny < 0 or ny >= N or nx < 0 or nx >= N or (ny,nx) in q: # 벽에 부딧치거나 꼬리에 부딧치면 게임 끝
break
# 사과를 먹지 못한다면 꼬리가 따라다님
if maps[ny][nx] != -1:
ty,tx = q.popleft()
maps[ty][tx]=0
# 지나갈때마다 경로를 체크
y, x = ny, nx
maps[ny][nx] = 1
q.append((ny, nx))
# 시간에 해당하는 방향전환 정보가 있을 경우
if start_time in directions.keys():
curr_dir = rotate_direction(directions[start_time], curr_dir)
print(start_time)
크기가 N×M인 지도가 존재한다. 지도의 오른쪽은 동쪽, 위쪽은 북쪽이다. 이 지도의 위에 주사위가 하나 놓여져 있으며, 주사위의 전개도는 아래와 같다. 지도의 좌표는 (r, c)로 나타내며, r는 북쪽으로부터 떨어진 칸의 개수, c는 서쪽으로부터 떨어진 칸의 개수이다.
2
4 1 3
5
6
주사위는 지도 위에 윗 면이 1이고, 동쪽을 바라보는 방향이 3인 상태로 놓여져 있으며, 놓여져 있는 곳의 좌표는 (x, y) 이다. 가장 처음에 주사위에는 모든 면에 0이 적혀져 있다.
지도의 각 칸에는 정수가 하나씩 쓰여져 있다. 주사위를 굴렸을 때, 이동한 칸에 쓰여 있는 수가 0이면, 주사위의 바닥면에 쓰여 있는 수가 칸에 복사된다. 0이 아닌 경우에는 칸에 쓰여 있는 수가 주사위의 바닥면으로 복사되며, 칸에 쓰여 있는 수는 0이 된다.
주사위를 놓은 곳의 좌표와 이동시키는 명령이 주어졌을 때, 주사위가 이동했을 때 마다 상단에 쓰여 있는 값을 구하는 프로그램을 작성하시오.
주사위는 지도의 바깥으로 이동시킬 수 없다. 만약 바깥으로 이동시키려고 하는 경우에는 해당 명령을 무시해야 하며, 출력도 하면 안 된다.
입력
첫째 줄에 지도의 세로 크기 N, 가로 크기 M (1 ≤ N, M ≤ 20), 주사위를 놓은 곳의 좌표 x, y(0 ≤ x ≤ N-1, 0 ≤ y ≤ M-1), 그리고 명령의 개수 K (1 ≤ K ≤ 1,000)가 주어진다.
둘째 줄부터 N개의 줄에 지도에 쓰여 있는 수가 북쪽부터 남쪽으로, 각 줄은 서쪽부터 동쪽 순서대로 주어진다. 주사위를 놓은 칸에 쓰여 있는 수는 항상 0이다. 지도의 각 칸에 쓰여 있는 수는 10 미만의 자연수 또는 0이다.
마지막 줄에는 이동하는 명령이 순서대로 주어진다. 동쪽은 1, 서쪽은 2, 북쪽은 3, 남쪽은 4로 주어진다.
출력
이동할 때마다 주사위의 윗 면에 쓰여 있는 수를 출력한다. 만약 바깥으로 이동시키려고 하는 경우에는 해당 명령을 무시해야 하며, 출력도 하면 안 된다.
예제 입력 1복사
4 2 0 0 8
0 2
3 4
5 6
7 8
4 4 4 1 3 3 3 2
예제 출력 1복사
0
0
3
0
0
8
6
3
예제 입력 2복사
3 3 1 1 9
1 2 3
4 0 5
6 7 8
1 3 2 2 4 4 1 1 3
예제 출력 2복사
0
0
0
3
0
1
0
6
0
문제풀이
1. 구현문제이기때문에 3차원에서 주사위가 굴러갈때 변경되는 값을 저장해놓으면 쉽다.
2. 그외에 시작점이나 변수선언에 유의해서 작성하자
import sys
inputs = sys.stdin.readline
N,M,y,x,K = list(map(int, inputs().split()))
maps = [list(map(int, inputs().split())) for i in range(N)]
direction = list(map(int, inputs().split()))
dice = [0,0,0,0,0,0]
move = [[0,1],[0,-1],[-1,0],[1,0]] #동서북남
sy,sx = y,x
def flip(dice, direct):
a,b,c,d,e,f = dice
if direct == 1: #동
dice = d,b,a,f,e,c
elif direct == 2: #서
dice = c,b,f,a,e,d
elif direct == 3 : #북
dice = e,a,c,d,f,b
elif direct == 4: #남
dice = b,f,c,d,a,e
return list(dice)
#주사위 문제로써 구현문제라고 볼 수 있다.
answer = []
for direct in direction:
dy,dx = move[direct-1]
ny, nx = sy+dy, sx+dx
if 0<=ny<N and 0<=nx<M: #범위안에서만 동작한다. 주사위가 돌아갔으며 위치도 위치도 이동함
sy, sx = ny, nx
dice = flip(dice, direct)
if maps[ny][nx] == 0 : # 바닥면이 0이면 주사위의 값이 복사가 되어진다.
maps[ny][nx] = dice[-1]
else: # 아닐경우 바닥면에 주사위의 밑으로 복사가 되어짐
dice[-1] = maps[ny][nx]
maps[ny][nx] = 0 # 바닥은 0으로 변경됨
print(dice[0])
스타트링크에서 판매하는 어린이용 장난감 중에서 가장 인기가 많은 제품은 구슬 탈출이다. 구슬 탈출은 직사각형 보드에 빨간 구슬과 파란 구슬을 하나씩 넣은 다음, 빨간 구슬을 구멍을 통해 빼내는 게임이다.
보드의 세로 크기는 N, 가로 크기는 M이고, 편의상 1×1크기의 칸으로 나누어져 있다. 가장 바깥 행과 열은 모두 막혀져 있고, 보드에는 구멍이 하나 있다. 빨간 구슬과 파란 구슬의 크기는 보드에서 1×1크기의 칸을 가득 채우는 사이즈이고, 각각 하나씩 들어가 있다. 게임의 목표는 빨간 구슬을 구멍을 통해서 빼내는 것이다. 이때, 파란 구슬이 구멍에 들어가면 안 된다.
이때, 구슬을 손으로 건드릴 수는 없고, 중력을 이용해서 이리 저리 굴려야 한다. 왼쪽으로 기울이기, 오른쪽으로 기울이기, 위쪽으로 기울이기, 아래쪽으로 기울이기와 같은 네 가지 동작이 가능하다.
각각의 동작에서 공은 동시에 움직인다. 빨간 구슬이 구멍에 빠지면 성공이지만, 파란 구슬이 구멍에 빠지면 실패이다. 빨간 구슬과 파란 구슬이 동시에 구멍에 빠져도 실패이다. 빨간 구슬과 파란 구슬은 동시에 같은 칸에 있을 수 없다. 또, 빨간 구슬과 파란 구슬의 크기는 한 칸을 모두 차지한다. 기울이는 동작을 그만하는 것은 더 이상 구슬이 움직이지 않을 때 까지이다.
보드의 상태가 주어졌을 때, 최소 몇 번 만에 빨간 구슬을 구멍을 통해 빼낼 수 있는지 구하는 프로그램을 작성하시오.
입력
첫 번째 줄에는 보드의 세로, 가로 크기를 의미하는 두 정수 N, M (3 ≤ N, M ≤ 10)이 주어진다. 다음 N개의 줄에 보드의 모양을 나타내는 길이 M의 문자열이 주어진다. 이 문자열은 '.', '#', 'O', 'R', 'B' 로 이루어져 있다. '.'은 빈 칸을 의미하고, '#'은 공이 이동할 수 없는 장애물 또는 벽을 의미하며, 'O'는 구멍의 위치를 의미한다. 'R'은 빨간 구슬의 위치, 'B'는 파란 구슬의 위치이다.
입력되는 모든 보드의 가장자리에는 모두 '#'이 있다. 구멍의 개수는 한 개 이며, 빨간 구슬과 파란 구슬은 항상 1개가 주어진다.
출력
최소 몇 번 만에 빨간 구슬을 구멍을 통해 빼낼 수 있는지 출력한다. 만약, 10번 이하로 움직여서 빨간 구슬을 구멍을 통해 빼낼 수 없으면 -1을 출력한다.
1. 구조를 하나씩 나눠서 생각하자. (공은 함께 움직임으로 같이 묶어서 생각, 공이 벽에 부딧칠경우, 공이 만날경우 등등..)
2. (), []는 아예 구조가 다름으로 visited할때 유의 하자.
import time
from collections import deque
import sys
inputs = sys.stdin.readline
N,M = list(map(int,inputs().split()))
maps = []
for i in range(N):
row = list(inputs().strip())
maps.append(row)
if 'R' in row:
ry, rx = [i, row.index('R')]
if 'B' in row:
by, bx = [i, row.index('B')]
move = [[-1,0],[1,0],[0,-1],[0,1]]
q = deque()
q.append([ry, rx, by, bx])
visited = [] # 방문여부를 판단하기 위한 리스트
visited.append((ry, rx, by, bx))
s = time.time()
# find start point
def bfs(q, maps):
cnt = 0
while q:
for _ in range(len(q)):
ry, rx, by, bx = q.popleft()
# print(ry,rx,by,bx)
if cnt > 10: # 조건에서는 10번 이하로 움직이라고 하였음.
print(-1)
return
if maps[ry][rx] == 'O':
print(cnt)
return
for dy, dx in move :
nry, nrx = ry, rx # 빨간색 공
nby, nbx = by, bx # 파란색 공
while True : # 계속 해당 방향으로 쭉 가기
nry += dy
nrx += dx
if maps[nry][nrx] == '#': #벽에 부딧치면 나오기
nry -= dy
nrx -= dx
break
if maps[nry][nrx] == 'O': # 빨간공이 들어가버린다면
break
while True : # 계속 해당 방향으로 쭉 가기
nby += dy
nbx += dx
if maps[nby][nbx] == '#': #벽에 부딧치면 나오기
nby -= dy
nbx -= dx
break
if maps[nby][nbx] == 'O': # 만약에 파란공이 들어가버린다면?
break
if maps[nby][nbx] == 'O':
continue
if nry == nby and nrx == nbx: #만약에 가다가 만났다면!!
if abs(nrx - rx) + abs(nry - ry) > abs(nbx - bx) + abs(nby - by):
nry -= dy
nrx -= dx
else:
nby -= dy
nbx -= dx
if (nry, nrx, nby, nbx) not in visited: # 방문해본적이 없는 위치라면 새로 큐에 추가 후 방문 처리
q.append((nry, nrx, nby, nbx))
visited.append((nry, nrx, nby, nbx))
# print(time.time()-s)
cnt += 1 # 다음큐가 벽에 부딧쳤을떄 시작한다.
print(-1)
bfs(q, maps)
작업 개수에 걸린 시간과 그에 따른 시간을 측정해서 최종 시간을 return하는 문제이다.
내가 푼 방법은 Stack으로 풀었기 떄문에 그방법을 공유해본다
import math
def solution(progresses, speeds):
## 일단 progress당 걸리는 시간을 미리 계산해보자.
work_days = [math.ceil((100 - progress)/work_time) \
for progress, work_time in zip(progresses, speeds)] # 소요시간 미리 계싼
if len(work_days) == 1: # 만약에 하나라면 지금 걸리는 시간 출력
return [work_days[0]]
front = 0
answer = []
for idx, _ in enumerate(work_days):
if work_days[idx] > work_days[front]: # 앞으로 온다음에 CUT!!!
answer.append(idx-front)
front = idx
answer.append(len(work_days) - front)
return answer
그림으로 그리면 Stack의 형태로 그려진다.
만약 `Work_days` 라는 변수가 [7,3,9]라고 나온다고 하면 최종 return 은 [2,1]로 나온다.
트럭 여러 대가 강을 가로지르는 일차선 다리를 정해진 순으로 건너려 합니다. 모든 트럭이 다리를 건너려면 최소 몇 초가 걸리는지 알아내야 합니다. 다리에는 트럭이 최대 bridge_length대 올라갈 수 있으며, 다리는 weight 이하까지의 무게를 견딜 수 있습니다. 단, 다리에 완전히 오르지 않은 트럭의 무게는 무시합니다.
예를 들어, 트럭 2대가 올라갈 수 있고 무게를 10kg까지 견디는 다리가 있습니다. 무게가 [7, 4, 5, 6]kg인 트럭이 순서대로 최단 시간 안에 다리를 건너려면 다음과 같이 건너야 합니다.
경과 시간다리를 지난 트럭다리를 건너는 트럭대기 트럭
따라서, 모든 트럭이 다리를 지나려면 최소 8초가 걸립니다.
solution 함수의 매개변수로 다리에 올라갈 수 있는 트럭 수 bridge_length, 다리가 견딜 수 있는 무게 weight, 트럭 별 무게 truck_weights가 주어집니다. 이때 모든 트럭이 다리를 건너려면 최소 몇 초가 걸리는지 return 하도록 solution 함수를 완성하세요.
제한 조건
bridge_length는 1 이상 10,000 이하입니다.
weight는 1 이상 10,000 이하입니다.
truck_weights의 길이는 1 이상 10,000 이하입니다.
모든 트럭의 무게는 1 이상 weight 이하입니다.
입출력 예
문제풀이
중요한건 다리를 큐로 생각하고 진행한다는점
from collections import deque
def solution(bridge_length, weight, truck_weights):
# 2개의 큐 구조를 사용해서 문제를 풀어보자.
q = deque(truck_weights)
weight_q = deque([0] * bridge_length) # 다리를 큐 모양으로 만들자.
curr_weigth = 0
answer = 0
while q : # bright 작동
answer += 1
curr_weigth -= weight_q.popleft()
if curr_weigth + q[0] <= weight:
curr_weigth += q[0]
weight_q.append(q.popleft())
else:
weight_q.append(0)
answer += bridge_length
return answer
이전에서는 Unsupervised Domain Adaptation(UDA)의 방법이 많이 제안이 되었습니다. UDA의 3개의 paradigms으로 접근을 하는데 첫번째의 경우에서는 statistical moments를 다른 feature distribution을 가깝게 하는 방법과, 두번째의 경우에서는 adversarial training을 통해서 추가적인 discriminator를 만드는 방법 그리고 마지막으로는 다양한 regularization을 target network에 넣어 self-training또는 entropy를 조절 하는 방법이 있습니다.
위의 방법을 motivation으로 이번 paper에서는 Source free domain Adaptation(SFDA)에 적용을 하였습니다. 이전의 SFDA의 일반적인 방법으로는 pseudo label을 만들어서 feature strcuture이나 모델의 예측을 내어서 target domain에 대해서 나타내었지만 이는 decision bounday에 noisy가 많이 있는 단점이 있습니다.
이를 통해 저자는 training에 label refinery할수 있는 Proxy based mixup(ProxyMixup)을 제안하였습니다. 이 방법의 경우 간단하게 source domain 과 traget domain에서 보지 못하였던 (unseen)데이터의 gap을 줄여주기 위해서 첫번째로 target domain에서 source image와 유사한 이미지를 뽑아내서어 proxy source domain에 만들어냅니다. 구체적으로 source classifier에 weight로 프로타입을 구하며 이를 중심으로 가까운 거리에 있는 image를 proxy source domain으로 구성하게 되어지게 되어집니다.
Pseudo label의 신뢰도를 올리기 위해서 frequency-weighted aggregation pseudo-labeling strategy(FA)를 제안을 하였으며 이는 sharpening, re-weighted, aggreation을 사용하여 Pseudo label을 만든 방법이며 ambiguous한 것에 대해서는 sharen하고 reweight를 하는 방식으로 변경하고 aggregation를 적용하여 unlabel에 대해서 label을 적용하게 되어진다
Method
Proxy Source Domain Construction by Prototypes
핵심 방법의 경우 SHOT의 paper와 모델과 유사하게 되어지며 source domain의 image는 접근 할 수 없음으로 source model의 weight를 바탕으로 prototype들을 뽑아내어지며 이를 바탕으로 proxy-domain을 만들어낸다. prototype과 마찬가지로 source classifier를 바탕으로 나온 target domain의 sample들도 함께 새로운 proxy-domain에 포함이 되어진다.
이떄 다른 점은 각 prototype과 가장 distance가 가까운 N개의 sample을 뽑아내고 class마다 똑같은 수의 sample를 찾아낸다. 그리고 같은 수의 sample맏 CE를 적용한다.
Proxy Source Domain Construction by Prototypes (FA)
Pseudo labeling를 적용했을 경우에서는 noisy가 많으며 특히나 unsupervised에서는 domain에 대한 dsitribution을 모르기 때문에 class가 imbalance하게 다른 class로 예측이 되어지는 경우도 많다. 이를 완화하기 위해서 저자는 새로운 pesudo label refinery strategy를 제안하였다.
이 전략중 하나는 soft Pesudo label를 사용하여서 접근을 하였으며 각 sample주위의 예측값의 평균을 하여 label를 refine을 한다. 이렇게 뽑은 데이터를 바탕으로 sharping을 하여 probability의 비중을 키우게 되어집니다.
Domain Alignment by Mixup Training
위의 proxy domain과 target domain에서 나온 sample들을 domain을 mixup을 하게 되어진다.
이때 proxy domain과 target domain을 과 mixup을 하였을때 inter domain이라고 부르며 target domain과 target domain간의 mixup을 하는 건 intra domain이라고 부른다.
Expermient
Office-home에 대한 결과는 다음과 같다.
office-31의 경우도 다음과 같다.
또한 기존의 pesudo label과의 차이를 비교를 하였으며 aggreation을 사용하고 난 전후의 성능 변화도 비교하였다.
Conclusion
이전의 방법과 비교하여 단순한 방법으로 적용을 하였으며 다른 domain으로 하여 mixup을 하였다는 novelty가 있음.
Transformer의 발전으로 인해서 NLP에서는 foundation modal 이 많아지고 있다.
특히나 최근 Large Language Model(LLM)처럼 좋은 성능을 도출하는 모델이 많다.
이렇게 고도화되어진 모델들을 downstream task로 하여 문제를 풀어내는데 특히나 vision에서도 많이 사용된다.
대표적으로 downstream을 하기 위해서는 fine tuning을 사용하게 되어지는데 이때 문제가 발생이 되어진다.
transformer를 사용하여 만든 VIT의 경우 Huge모델은 632만개의 파라미터가 사용하여 full fine tuning할때에서는 cost가 크게 발생한다는 것이다.
저자는 이러한 문제를 위해서 효율적이고 효과적으로 downstream task를 trasnformer에 fine tunig 하는 방법에 대해서 방법을 제안한다.
Related work
이전에 제안되었던 fine tuning의 방법에 대해서는 어떠한 방법들이 있는가 살펴보도록 하겠다.
첨부되었던 위의 그림에서 보는것과 같이 (a)에 존재하는 이전의 tuning의 방법의 경우에서는 classifier head나 bias term에 subset만 학습하는 방법이 많이 사용되었다. 또는 adapter라는 영역 또는 추가적인 head를 넣어서 tuning을 하였는데 이러한 벙법은 under-perform 즉 성능이 기존의 방법보다 좋게 되어지진 않았다.
이에 저자는 그림(b)에 보이는 방법처럼 transformer에 input부분을 수정하여 새로운 접근법을 제안을 하였다. 이 제안한 방법의 이름은 Visual Prompt Tuning(VPT)라고 불린다. 이 방법은 그림에서 적은 양의 learnable parameter만 사용하여 학습을 하고 transformer backbone의 경우에서는 학습할때 freeze를 하게 되어진다. 그리고 마지막 head에 부분에서는 learnable하게 사용하게 되어진다.
이렇게 단순하게 접근을 하였을때 결과는 어떻게 되어질까? 저자는 24번의 recognition(classificaiton) task를 다른 도메인에서 실험을 하였으며 full tuning의 경우 20case에서 적용하여 비교분석을 하였다. 저자가 제안한 방법의 경우에서는 단 1%의 parameter만 학습이 되어졌으며 기존의 fine tuning의 방법에 비해 parmeter은 적고 성능의 차이는 적게 나타나는 것을 볼 수 있다.
그림(a)에서 보면 Related work로써 NLP에서 transfer learning을 하기 위해서 대푭적인 2가지의 방법이 기존에 존재하였다.
하나는 Adapters라는 방법이고 하나는 BitFit이라는 방법이다.
Adaptaters라는 방법은 transformer layer안에 가벼운 modules들을 넣어서 학습하는 방식으로 module안에서는 nonlinear activation function과 linear up projection이 함께 들어있어 tuning을 하게 되어진다.
Bitfit의 경우에서는 LLM tuning의 효과적인 technique들이 정리되어있다.
계속해서 realted work를 보면 제목도 그렇고 prompting 이라는 표현이 자주 나온다. 이 표현은 한국말로 지시라는 단어표현인데 이 방법을 LLM에 적용하면 pretrained된 LLM에 task에 이해할수 있도록 Input text를 잘 넣어주는 역할이라고 보면 된다. 이에 최근에는 LLM에서 GPT-3같이 generalization이 잘된 model을 downstream-task에 few-shot, zero-shot transfer learning을 하는 방법이 있다. 최근에는 Prompting text를 잘 만들어주는 방법으로 task-specific하게 contious vector를 넣어주며 fine-tuing을 하는 방법이 있으며 이를 Prompt Tuning이라고 한다.
이렇듯 prompt tuning의 장점은 적은 paramter로 optimize를 시키는 방법인데 vision-language model에서도 적용하고 있지만 vision과 language의 domain의 차이가 있어 연구가 많이 되어지고 있으며 이번 논문에서는 vision encoder에 prompt tuning을 적용하여 recognition task를 해결을 제안하는 방법이다.
Method
Vision Transformer(ViT)
본격적으로 Visual-Prompt Tuning(VPT)에 기존이 되어지는 vision transformer(ViT) 방법에 대해서 보도록 하겠다.
기존의 ViT의 모델의 경우 image를 잘라서 embedding에 넣어서 recognition을 적용하여 진행을 하게 되어지며
저자가 사용하였던 방법은 deep, shallow한 tuning의 방법을 제안하였다.
VIT의 경우 N개의 layer로 되어있으며 patch로 잘라진 이미지($I$)와 positional encdoing이 들어가기 때문에 아래의 식과 같이 나온다 . $$e_o^j = Embed(I_j)$$
이렇게 patch embedding을 모으면 $E_i = \{ e_i^j \in \mathbb{R}^d | j \in \mathbb{N}, 1 \le j \le m\} $로 되어지게 되어지며 이때 i의 의미는 ViT의 i 번째 layer가 되어진다. 최종적으로 ViT의 모델을 수식화를 하게 되어지면 아래의 수식과 같이 되어진다. $$[x_i, E_i ] = L_i ([X_{i-1}, E_{i-1} ]), y = Head(x_N)$$
이러한 ViT의 구조는 Multihead Self-Attention (MSA)와 LayerNorm과 함꼐 Feed-Forward Network(FFN)로 구성이 되어있다.
Visal-Prompt Tuning(VPT)
VPT-Shallow의 방법을 먼저 살펴보자. 이 방법의 경우 첫번째 Transformer layer($L_1$)에 Prompt($p$)를 함께 넣어서 학습을 진행하게 되어지는데 이수식은 아래와 같다.
4. loss.backward()의 경우도 DDP로 되어지는 경우도 있음으로 accelerator.backward(loss)로 되어져야 한다.
Config
accelerate를 사용하게 되어질때 이전의 multi GPU나 mixed precision이나 선택해야될때가 있는데
이것에 따른 config를 설정해주기 위해서 accelerate config라는 명령어가 있다.
아래와 같이 입력하면 각종 setting들을 쉽게 만들어준다.
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------In which compute environment are you running?
This machine
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------Which type of machine are you using?
multi-GPU
How many different machines will you use (use more than 1 for multi-node training)? [1]: 2
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------What is the rank of this machine?
0
What is the IP address of the machine that will host the main process? ---
What is the port you will use to communicate with the main process? ---
Are all the machines on the same local network? Answer `no` if nodes are on the cloud and/or on different network hosts [YES/no]: ㅜno
What rendezvous backend will you use? ('static', 'c10d', ...): static
Do you wish to optimize your script with torch dynamo?[yes/NO]:no
Do you want to use DeepSpeed? [yes/NO]: no
Do you want to use FullyShardedDataParallel? [yes/NO]: no
Do you want to use Megatron-LM ? [yes/NO]: no
How many GPU(s) should be used for distributed training? [1]:2
What GPU(s) (by id) should be used for training on this machine as a comma-seperated list? [all]:1,2
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------Do you wish to use FP16 or BF16 (mixed precision)?
fp16
accelerate configuration saved at ~/.cache/huggingface/accelerate/default_config.yaml
위의 같은 명령어로 만들어주면 yaml파일이 만들어지며
이렇게 설정된 config는 ~/.cache/huggingface/accelerate/default_config.yaml 에 있음으로 확인설정을 할수 있다.