ランキング(注目度スコア)
スコア算出日: 2026-06-21
合計スコア = √(HF Upvotes) + √(GitHub Stars) + cvFactor + venueBonus(HF・Stars が 0 のとき各 √ 項は 0、cvFactor は LLM による 100 点満点、venueBonus は学会採択加点)(算定方法の詳細)
2025年 注目論文ランキング
本レポートは、Spatial Computing Weekly の創刊にあたり、3D再構築・空間認識分野における2025年の技術潮流を網羅的に調査した初回の集大成です。
2025年のトレンドを一言で表せば、「生成AIと幾何学的一貫性の完全なる融合」です。従来の単一タスク(深度推定のみ、あるいは形状復元のみ)から、カメラパラメータ、点群、動画一貫性を同時に扱う「3D基盤モデル(Foundation Models)」へとパラダイムが大きくシフトしています。また、3D Gaussian Splatting(3DGS)を核としたリアルタイム性と、拡散モデルによる高品質な生成能力の統合が、インタラクティブな3D世界構築を現実のものとしつつあります。本レポートでは、これらの最先端知見を凝縮したトップ20論文をお届けします。
トップ5の深掘り
【第1位】VGGT: Visual Geometry Grounded Transformer
概要
VGGTは、単一から数百枚の画像入力から、カメラパラメータ、点群マップ、深度マップ、3Dポイントトラックといった主要な3D属性を直接推論するフィードフォワード型のニューラルネットワークです。
新規性
従来のモデルが単一のタスク(例:深度推定のみ)に特化していたのに対し、VGGTは幾何学的な整合性を保ちながら多角的な3D属性を同時に解く「統合型基盤モデル」としての性質を持っています。
なぜ選ばれたか(スコア内訳)
合計スコア227.22という圧倒的な数値が示す通り、GitHubでの13,450★という爆発的な支持とCVPR 2025への採択が、その技術的衝撃を裏付けています。
関連リンク
arXiv | Hugging Face | GitHub
【第2位】FoundationStereo: Zero-Shot Stereo Matching
概要
ステレオマッチングにおけるゼロショット汎化性能の実現を目指した基盤モデルです。100万組の合成データセットを用いた大規模学習により、未知のドメインでも高精度な視差推定を可能にします。
新規性
特定のデータセットに過学習しがちな従来のディープステレオに対し、汎用的な「Foundation Model」としての性質を確立しました。
なぜ選ばれたか(スコア内訳)
合計スコア162.35。CVPR 2025への採択に加え、ステレオマッチングにおける汎用性の突破口として高い評価を得ています。
関連リンク
arXiv | Hugging Face | GitHub
【第3位】Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis
概要
拡散モデル(Diffusion Models)の強力な生成能力を、画像解析タスク(深度推定等)に転用するための手法です。
新規性
テキストから画像を生成するモデルの事前学習知識を、幾何学的な解析に「安価かつ効果的」に適応させる手法を提案しています。
なぜ選ばれたか(スコア内訳)
合計スコア158.45。CVPR 2024採択論文であり、生成モデルを解析に使うという逆転の発想が、研究者コミュニティから高い関心を集めました。
関連リンク
arXiv | Hugging Face | GitHub
【第4位】HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels
概要
テキストや画像から、探索可能でインタラクティブな3D世界を生成するモデルです。
新規性
動画ベースの多様性と、3Dベースの幾何学的整合性の両立を目指し、メモリ効率と一貫性を極限まで追求しています。
なぜ選ばれたたか(スコア内訳)
合計スコア157.39。Hugging Faceでの高いUpvote数(143件)が示す通り、次世代の「世界生成」への期待値が非常に高い論文です。
関連リンク
arXiv | Hugging Face | GitHub
【第5位】GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control
概要
精密なカメラ制御と時間的な3D一貫性を備えた、動画生成モデルです。
新規性
「3Dキャッシュ」を用いることで、カメラが動いても物体が消えたり形状が変わったりする問題(ポップイン現象)を抑制し、物理的に正しい動画生成を実現します。
なぜ選ばれたか(スコア内訳)
合計スコア145.96。CVPR 2025採択。動画生成における「3D的な正しさ」への挑戦が、高い評価に繋がりました。
関連リンク
arXiv | Hugging Face | GitHub
第6位〜第20位 クイックレビュー
【第6位】Video Depth Anything: Consistent Depth Estimation for Super-Long Videos
超長時間動画において、時間的な揺らぎを抑えた一貫性のある深度推定を実現。
関連リンク: arXiv | Hugging Face | GitHub
【第7位】Matrix-3D: Omnidirectional Explorable 3D World Generation
全方位的な探索が可能な、没入型3D世界の生成手法を提案。
関連リンク: arXiv | Hugging Face | GitHub
【第8位】LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos
カメラ位置情報のないカジュアルな長尺動画から、ロバストな3DGSを構築。
関連リンク: arXiv | Hugging Face | GitHub
【第9位】ReDepth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting
自己教師ありのリライティング技術を用い、テスト時に深度を精緻化する手法。
関連リンク: arXiv | Hugging Face | GitHub
【第10位】TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting
3DGSを活用し、AR向けにリアルタイムで動作する高精細なフルボディ・トーキングアバターを生成。
関連リンク: arXiv | Hugging Face | GitHub
【第11位】From Editor to Dense Geometry Estimator
画像編集モデルの知識を、高密度な幾何形状推定へと転用するアプローチ。
関連リンク: arXiv | Hugging Face
【第12位】A Recipe for Generating 3D Worlds From a Single Image
単一画像から完全な3D世界を構築するための、効率的なパイプラインの提案。
関連リンク: arXiv | Hugging Face
【第13位】QuickSplat: Fast 3D Surface Reconstruction via Learned Gaussian Initialization
学習ベースの初期化により、3DGSの表面再構成を高速化。
関連リンク: arXiv | Hugging Face | GitHub
【第14位】AD-GS: Alternating Densification for Sparse-Input 3D Gaussian Splatting
疎な入力データに対しても、高精度な再構成を可能にする交互密度化手法。
関連リンク: arXiv | Hugging Face
【第15位】FACT-GS: Frequency-Aligned Complexity-Aware Texture Reparameterization for 2D Gaussian Splatting
周波数整合性と複雑度を考慮した、2DGSのテクスチャ再パラメータ化技術。
関連リンク: arXiv | Hugging Face | GitHub
【第16位】GASPACHO: Gaussian Splatting for Controllable Humans and Objects
人間や物体の制御が可能な、Gaussian Splattingを用いた表現手法。
関連リンク: arXiv | Hugging Face
【第17位】$π^3$: Permutation-Equivariant Visual Geometry Learning
置換等価性を備えた、高度な幾何学的学習フレームワーク。
関連リンク: arXiv | Hugging Face
【第18位】AHA! Animating Human Avatars in Diverse Scenes with Gaussian Splatting
多様なシーンにおいて、3DGSを用いて人間アバターを自然にアニメーション化。
関連リンク: arXiv | Hugging Face
【第19位】DCHM: Depth-Consistent Human Modeling for Multiview Detection
多視点検知のために、深度一貫性を保った人間モデリングを実現。
関連リンク: arXiv | Hugging Face | GitHub
【第20位】Generative Gaussian Splatting: Generating 3D Scenes with Video Diffusion Priors
ビデオ拡散モデルの事前知識を利用して、高品質な3Dシーンを生成。
関連リンク: arXiv | Hugging Face
編集後記
今回の調査を通じて、3D技術が「静的な形状の復元」という枠組みを超え、「動的でインタラクティブな世界そのものの生成」へと進化していることが鮮明になりました。特に、TransformerやDiffusionモデルといった強力な基盤技術が、幾何学的な制約と見事に融合し始めている点は、今後の発展を予感させるものです。
Spatial Computing Weekly では今後、週刊ランキング形式で最新論文の動向を追跡していきます。技術の激流に飲み込まれるのではなく、その潮流を読み解くための羅針盤となるべく、精緻な調査と分析を続けてまいります。次回のレポートもご期待ください。