Image Matching Challenge 2025 振り返り会で発表してきた
7/14 に開催された Image Matching Challenge 2025 振り返り会で発表してきました。 Image Matching Challenge 2025 (IMC’25) は CVPR 2025 workshop 併設コンペティションとして、Kaggle 上で開催されました。
振り返り会では IMC’25 上位チームの発表があり、私も7位チームとして発表してきました。発表資料は以下 Speakerdeck にアップロードしています。(社内勉強会用に資料をアップデートしているため、当日の発表資料とは異なる部分があります。)
一番言ったかったこと
発表でしゃべりたかったことは RANSAC の 1981年の論文にある近似確率で実装されていた OSS 実装が多々あるなか、これを厳密確率に変えたというの話でした。
Fixing the RANSAC Stopping Criterion
For several decades, RANSAC has been one of the most commonly used robust estimation algorithms for many problems in computer vision and related fields. The main contribution of this paper lies in addressing a long-standing error baked into virtually any system building upon the RANSAC algorithm. Since its inception in 1981 by Fischler and Bolles, many variants of RANSAC have been proposed on top of the same original idea relying on the fact that random sampling has a high likelihood of generating a good hypothesis from minimal subsets of measurements. An approximation to the sampling probability was originally derived by the paper in 1981 in support of adaptively stopping RANSAC and is, as such, used in the vast majority of today's RANSAC variants and implementations. The impact of this approximation has since not been questioned or thoroughly studied by any of the later works. As we theoretically derive and practically demonstrate in this paper, the approximation leads to severe undersampling and thus failure to find good models. The discrepancy is especially pronounced in challenging scenarios with few inliers and high model complexity. An implementation of computing the exact probability is surprisingly simple yet highly effective and has potentially drastic impact across a large range of computer vision systems.

非復元抽出を考慮しない近似確率から、数行の実装変更によって厳密確率に変更したという修正についてレポートが上がっています。よく気づいたな!
どんな感じだったか
振り返り会では多くの学びを得ることができました。特に、
- シーンの種類(outdoor, indoor, natural)ごとに有効なアプローチに違いがあった
- MASt3R のマッチング結果に加えて、RDD や GIM のマッチング結果を組み合わせることで大きな改善余地があった
という点が印象的でした。まだまだ深堀りの余地がたくさんありそうです。オープニングではワークショップの運営のメンバーである Dmytro Mishkin 氏からサプライズの温かいメッセージをいただきました。もし来年も開催されるならば、その時はもっと面白い結果を報告できるようにしたいとモチベーションが爆上がりしました。
3D基盤モデル、作りたいですよね?
懇親会ではシーンの種類ごとに傾向が異なるならばデータセットを作ってモデルを学習させればいいんじゃね?といった雑談などしていました。しかし全てのシーンでうまくいくわけではなく、当然ながら学習に使われたデータの傾向や、評価対象の難易度によって結果は大きく変わります。
過去のIMCでは出題されて今年のIMCでは扱われなかった(と思われる)シーンとして、航空写真の鳥瞰図的な視点の画像とのマッチングがあります。AerialMageDepth のように応用にあわせてモデルをファインチューニングする事例もあり、データセット構築から独自の3D基盤モデルを作りたみがあります。
AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis
We explore the task of geometric reconstruction of images captured from a mixture of ground and aerial views. Current state-of-the-art learning-based approaches fail to handle the extreme viewpoint variation between aerial-ground image pairs. Our hypothesis is that the lack of high-quality, co-registered aerial-ground datasets for training is a key reason for this failure. Such data is difficult to assemble precisely because it is difficult to reconstruct in a scalable way. To overcome this challenge, we propose a scalable framework combining pseudo-synthetic renderings from 3D city-wide meshes (e.g., Google Earth) with real, ground-level crowd-sourced images (e.g., MegaDepth). The pseudo-synthetic data simulates a wide range of aerial viewpoints, while the real, crowd-sourced images help improve visual fidelity for ground-level images where mesh-based renderings lack sufficient detail, effectively bridging the domain gap between real images and pseudo-synthetic renderings. Using this hybrid dataset, we fine-tune several state-of-the-art algorithms and achieve significant improvements on real-world, zero-shot aerial-ground tasks. For example, we observe that baseline DUSt3R localizes fewer than 5% of aerial-ground pairs within 5 degrees of camera rotation error, while fine-tuning with our data raises accuracy to nearly 56%, addressing a major failure point in handling large viewpoint changes. Beyond camera estimation and scene reconstruction, our dataset also improves performance on downstream tasks like novel-view synthesis in challenging aerial-ground scenarios, demonstrating the practical value of our approach in real-world applications.

衛星画像や航空写真が好きな身としてはワクワクが止まりません。余裕ができたら GPU 借りてでも最強のモデルを作っていきたい。