Did it change? Learning to Detect Point-of-Interest Changes for Proactive Map Updates

Question

Did it change? Learning to Detect Point-of-Interest Changes for Proactive Map Updates

Opened this issue 2 years ago · 0 comments

kimtomato commented 2 years ago

Abstract

지도는 중요한 도구이지만 수동 입력에 의존
지도 업데이트 process를 능동적으로 만드는 것이 논문의 목표
특히 실내 POI 변화를 자동으로 감지하는것에 초점을 둠
실험을 위해 대형 쇼핑 센터 두 곳의 POI 데이터를 구축 → 서로 다른 시간에 캡처된 두 이미지를 비교
여러 loss function을 이용하여 metric learning을 실험해보고 POI 변화 감지 목표에 맞는 메트릭을 학습

Introduction

POI는 사용자과 관심을 가지는 지점으로 레스토랑, 카페, 은행 등 모든 종류의 가게들이 될 수 있음

이전까지 이러한 POI의 대부분은 map DB에 수동으로 입력됌

→ 문제 1. 이러한 과정은 비용이 많이 들고 반복적인 작업임

→ 문제 2. POI는 시간에 따라 계속 변화함

→ 문제 3. 오래된 POI (업데이트되지 않은)의 경우 사용자에게 많은 불편함을 초래함

해당 논문의 목표

Computer vision을 이용하여 Map을 자동적으로 업데이트 하는 것 + POI 변화를 감지하는 것

= POI가 새로 만들어지거나, 다른 POI로 변화하거나, 없어지는 경우 DB에 이를 반영

해당 Task를 위해 서로 다른 시간에 캡처된 두 image set을 비교

유의할 점

비교를 위해서는 노이즈(그림자, 빛 등)에 robust해야함
계절의 변화, 특별 판매등으로 인해 POI에 상당히 intrinsic한 변화가 나타날 수 있음

해당 논문의 contribution

해당 Task에 맞는 데이터셋 구성

이전까지 해당 task에 대한 적절한 benchmark가 없었음
두 개의 대형 쇼핑몰에서 서로 다른 시간대에 캡처된 사진으로 수백개의 POI로 구성 → indoor dataset으로 구성
POI 변화 데이터를 image level과 geo level로 각각 구성

POI 변화 감지에 대한 일반적인 접근방식

3개의 단계로 구성
1. Pose가 같다면, 시간적으로 먼 이미지들이 짝을 이루도록 매칭
2. 각각의 이미지 쌍에서 POI 변화 인지
3. pairwise 예측은 전체 장소의 scale에서 통합(?)
Logo나 표지가 없어도 변화 감지가 가능

이미지를 비교하는 단계(변화를 인지하는 부분)에 대한 benchmark

다양한 loss함수들을 이용해서 검증

→ triplet loss를 통해 train된 embedding을 기반으로 한 것이 가장 좋은 결과를 보임

Related work

change detection in images

이미지에서 변화를 감지하는 것은 의료, 항공 등 여러 분야에서 오래전부터 관심 분야이며

해당 과제의 Task와 유사하게 실외 이미지의 구조적인 변화를 감지하는 Task들이 등장하고 있음

이러한 방식들은 서로 다른 시점에 같은 장소에서 찍힌 사진의 binary pixel mask(도로 공사같은 구조적 변화를 나타냄)를 예측하는 것을 목표로 함

위의 방식들은 이미지 쌍에 3D reconstruction 기법을 사용

문제

복잡하고 오류가 발생하기 쉬움
변화의 특성을 보지 못함 → 구조적 변화가 없는 POI 변화를 감지하지 못할 수 있음 (ex, 간판만 바뀜)
크리스마스 같은 특별한 이벤트로 인한 구조 변화 감지 X
픽셀 수준의 meric 최적화는 Map update 목표에 적합하지 않음

→ 해당 논문에서는 3D reconstruction 기법을 사용하지 않고, POI 변화를 geographical scale에서 인지

Logo and franchise detection

로고나 franchise에 초점을 맞춰 POI를 인지

최근 로고 감지와 관련하여 큰 데이터들이 수집되고, 좋은 성능을 보이고 있지만 한계점이 존재

매일 새로운 브랜드의 등장
로고의 변경, 로고가 없는 경우 인지 X
어떤 franchise에도 속하지 않는 개인 매장

→ 해당 논문에서는 이러한 한계를 극복하고 POI 변화를 정확하게 감지하는 프레임워크 제시

image retrieval and metric learning

시간, 계절, 조명등 외부 환경의 변화에도 정확하게 장소를 인식해야 하는 문제

→ image retrieval 문제

image Retrieval 이란?

이미지 쿼리가 주어지면 large collection에서 유사한 이미지를 검색할 수 있도록 이미지 사이의 거리를 측정하는 방식을 정의하는 것

해당 거리 측정 기준은 외부 변화(의미론적으로 무의미한 변화)에 불변해야함

최근 인물 식별, 장소 인식, 3D 객체 검색에 엄청난 성능을 보이고 있음

deep metric learning

original feature space를 거리 계산하기 쉬운 embedding space로 mapping 하는 embedding 함수를 학습
contrastive, double- margin, triplet, and quadruplet losses등의 Loss 함수들이 있음

→ 공통점 임베딩 공간에서 서로 다른 클래스에 속하는 점을 밀어내며, 동일한 레이블을 가진 점을 끌어당김

The MallScape dataset

POI 변화 인지 Task를 위해 구성된 데이터셋
실내 쇼핑 센터에서 캡처된 사진
LIDAR를 통해 얻은 6-DoF localization pose 제공
서로 다른 시간에 캡처
장치가 가까이 있어도 잘찍힐 수 있도록 POI가 약간 위로 향한 방향으로 사진 캡처

Mall-A

281개의 POI로 구성, 지상 5층 건물
6개월의 시차로 데이터 구성
7m마다 360도 파노라마 영상 촬영
각각 70도 85도의 수평 시야

Mall-B

지하 1층에 297개의 POI를 포함
약 17000장 사진이 3개월 간격으로 캡처
fish-eye 렌즈가 장착된 카메라 사용, 107도 70도의 수평 및 수직 시야를 가진 가로 모드로 사진 캡처

→ 각 이미지에 나타나는 POI의 레이블을 데이터 셋과 함께 제공

전체 데이터셋은 578개의 POI와 22개의 POI change가 포함되어 있음

POI Change Detection

Problem formulation

특정 지역내의 POI에 대해 일정 기간동안 POI가 변화되었는지를 자동으로 확인하는 것이 목표
D^t : 시간 t일때 캡처된 이미지 데이터셋 , D^t’ : 시간 t’일때 캡처된 이미지 데이터셋 (t’ > t)
I : 이미지, Θ : 6-DoF 카메라 포즈
ς : 두 이미지 간의 similarity를 예측하는 함수

목표 : 두 이미지의 유사성을 예측하는 함수 ς 를 학습하는 것

두 이미지가 동일한 POI를 나타낼 때 유사성이 높고, 그렇지 않은 경우 낮도록 함수를 설계
최종 목표는 각 POI의 변화 정도를 수치화 하는것

g : POI change scoring 함수
P : 위도, 경도, 및 높이 → 좌표 공간
ς 유사성 함수에서 도출한 이미지 쌍별 유사성 점수를 max pooling하여 g 함수를 직접 구현

V^t(p)는 p를 직접 볼 수 있는 이미지 포즈 {Θti }i의 집합
함수 g(p)는 p가 높은 유사성을 갖는 이미지 쌍이 아닐 경우 POI가 변화했다고 예측
주어진 map spot p의 POI가 변화했는지의 최종 결정은 g(p)와 임계값 τ 를 비교하여 정함
noise 제거를 위해 spatial radius σ = 2m인 가우스 커널을 사용하여 g 함수를 사전에 평활화 시킴

Visibility sets and pose-based contraints

Learning similarity function

metric learning: 이미지 간의 유사성을 학습하는 것

→ 이미지 임베딩 함수 f(I)를 학습하는 방식

similarity s 은 두 임베딩 사이의 내부 곱으로 계산됌

임베딩 함수 학습하기

yi = {o1 ... omi} , yj = {o1 ... omj} : 이미지 Ii, Ij 에서 볼 수 있는 POI 집합

*Ground-truth Similarity Y(i,j)

두 이미지가 동일한 POI를 적어도 하나 이상 가지고 있지않으면 유사하지 않다고 판단
아래 그림은 유사하다고 판단된 이미지 쌍

*Loss Function

Ground-truth Y와 현재 유사도에 따라 반복해서 gradient 계산
적절한 Loss function을 사용하는 것이 중요

Contrastive loss = Lc

positive pairs (Y (i, j) = 1))는 끌어당기고 negative pairs는 밀어냄
τc 값은 Loss가 영향을 미치지 못하는 음의 쌍사이의 유사성 임계값

Double margin pairwise loss = Ldm

함수 g (POI change scoring 함수)를 τ로 임계값하여 변화했는지 아닌지 구분하려고 하는데 이때 가장 direct한 방식 → 이러한 행동에서 벗어나는 모든 이미지쌍에 penelty를 주는 것
m : 조정할 수 있는 마진값

triplet Loss = Lt

이미지 세쌍을 반복적으로 샘플링(랜덤하게)하고 각각에 대한 Loss를 계산하는 것
Loss가 0이 아닌 경우 gradient가 계산되고 network의 weight 갱신
균형을 맞추기 위해 negatice pair만큼 positive pair도 샘플링함

Experimental results

Protocol and metrics

평가 지표와 프로토콜

*Ground - truth

이미지 쌍에 대한 similarity 측정은 아래의 식에 의해 평가

geographical level에 대해서는 potential POI location 집합으로 표기된 P에서 실제 POI change가 일어난 경우 positive(1), 아닌경우 negative(0)로 표기

*ROC 커브

Y(p)=1일 때 변화, Y(p)=0일때 변화없음 → 이진 분류
ROC 커브를 사용하여 이진 분류기 성능 측정

*AP ( 평균 정밀도 )

AP를 사용하여 시스템의 성능 측정
이미지 쌍에 대한 AP = pAP
geographical - level AP = gAP

*train and test split

데이터셋 이미지는 많지만 POI 변경 instance는 상대적으로 적음

→ 노이즈 분산 증가

성능을 위해 한 장소와 다른 장소에서 차례로 교육하고 테스트 후 최종 결과를 평균화
MallScape-A에서 훈련하고 MallScape-B에서 테스트, MallScape-B에서 훈련하고 MallScape-A에서 테스트

Quantitative results

Resnet-101 백본 사용
Embedding dimension N = 2048
weight decay 0, learning rate=10^-5
standard data augmentation 사용
각 Loss 에 대해 margin과 임계값을 임의의 조정

*Result (기존 다른 연구들과 비교)

SIFT 기반 local descriptor → POI 탐지와 관련된 의미 변화 분석 불가능
Logo Detector : 의미론적 측면에 초점을 두지만 imagenet baseline보다 성능 떨어짐

→ 실제 POI에서 알려진 프랜차이즈, 브랜드 로고는 매우 작은 부분을 차지함

Deep metric learning 성능이 가장 우수 : 특히 triplet Loss

Conclusion

Deep metric learning 기반으로 POI 변화를 감지하는 새로운 방식 제시
Triplet Loss가 해당 Task에서 가장 적합
추가적으로 POI 변화 감지를 위한 데이터셋을 구성

한계점

하나의 사진에 여어 POI가 포함되어 있는지, 포함되어 있다면 경계를 무엇으로 할 것 인지에 대한 논의 부족