semantic segmentation + object detection으로 된 문제로써 좀 더 풀기 어렵다
일반적으로 semantic segmentation에 대해서는 정확한 localization과 recognition이 필요함과 더불어서 segmentation에 대한 computational cost가 좀 더 효율적이 여야 된다.
또한 object detection의 경우에서는 feature representation이 잘되어저야 하는데 기존에는 SIFT, HOG 등 local descriptor를 사용한 방법을 많이 사용하거나 Fisher Vector처럼 exploring 한 접근 법도 많이 사용하고 있었다
detection의 경우는 inference time과 accurate detection과의 trade off이기도 하며 image scale에 대해서도 많은 challenge가 필요하다.
이를 합친 instance segmentation에서는 small object에 대해서는 issue를 유발하고 있으며 CNN layers로 찾는 게 challenge가 되고 있음. (receptive field, dilated convolution )
추가적으로 geometric transformation과 occlusions에 취약하다는 좀더 해당이 된다.