ランキング(注目度スコア)
スコア算出日: 2026-06-21
合計スコア = √(HF Upvotes) + √(GitHub Stars) + cvFactor + venueBonus(HF・Stars が 0 のとき各 √ 項は 0、cvFactor は LLM による 100 点満点、venueBonus は学会採択加点)(算定方法の詳細)
2026年上半期 注目論文ランキング
本レポートは、Spatial Computing Weekly の創刊にあたり、2026年上半期(1月〜6月)に発表された3D再構築・空間認識分野の最先端論文を遡及調査したものです。
この半年間、研究の潮流は単なる「静止画からの3D復元」から、物理法則を内包した「ワールドモデル(世界モデル)」へと劇的なシフトを見せました。特に3D Gaussian Splatting (3DGS) を基盤とした、生成・シミュレーション・ナビゲーションが統合されたフレームワークが次々と登場しています。本レポートでは、技術的インパクトとコミュニティの注目度を両立させたトップ12を選出しました。
トップ5の深掘り
【第1位】HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds
概要 テキスト、単一視点画像、多視点画像、ビデオなど、多様な入力モードに対応するマルチモーダル・ワールドモデル・フレームワークです。入力に基づき、ナビゲーション可能な高精度な3D Gaussian Splatting (3DGS) シーンを生成します。
新規性 パノラマ生成から3Dシーン構築までを4段階のプロセスで行うことで、単なる形状復元に留まらない「シミュレーション可能な3D世界」の構築を実現した点が画期的です。
なぜ選ばれたか(スコア内訳) 合計スコア153.71という圧倒的な数値に加え、GitHub Star数2255★というコミュニティへの爆発的な影響力が評価の決め手となりました。
- 関連リンク: arXiv | Hugging Face | GitHub
【第2位】InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields
概要 従来の離散的な画像グリッドによる深度推定の限界を打破するため、深度をニューラル暗黙場(Neural Implicit Fields)として表現する手法です。
新規性 ローカルな暗黙的デコーダーを導入することで、任意の解像度でのクエリを可能にし、極めて微細な幾何学的詳細の復元を実現しました。
なぜ選ばれたか(スコア内訳) 合計スコア130.23。高精度な深度推定が求められる空間認識分野における、理論的かつ実用的なブレイクスルーとして高く評価されました。
- 関連リンク: arXiv | Hugging Face | GitHub
【第3位】Genie Sim PanoRecon: Fast Immersive Scene Generation from Single-View Panorama
概要 単一視点のパノラマ画像から、ロボット操作シミュレーション用の高精度かつ低コストな3Dシーンを高速に生成する、フィードフォワード型のGaussian Splattingパイプラインです。
新規性 パノラマを6つのキューブマップ面へと分解・並列処理し、深度を考慮した融合戦略を用いることで、幾何学的整合性を保ったまま一貫性のある3Dシーンを生成します。
なぜ選ばれたか(スコア内訳) 合計スコア129.12。GitHub Star数1032★を記録し、ロボティクスにおけるシミュレーション環境構築の新たなスタンダードを提示しました。
- 関連リンク: arXiv | Hugging Face | GitHub
【第4位】PanoVGGT: Feed-Forward 3D Reconstruction from Panoramic Imagery
概要 パノラマ画像特有の歪みを克服し、カメラ姿勢推定、深度マップ、3D点群を単一のフォワードパスで同時に予測するTransformerフレームワークです。
新規性 置換等価的な(Permutation-equivariant)設計により、パノラマ特有の非ピンホール歪みに左右されず、広角視点からの一貫した3D再構築を可能にしました。
なぜ選ばれたか(スコア内訳) 合計スコア124.32。CVPR 2026への採択という学術的権威と、実用的な汎用性の高さが評価されました。
- 関連リンク: arXiv | Hugging Face | GitHub
【第5位】SonoWorld: From One Image to a 3D Audio-Visual Scene
概要 単一の画像から、360度パノラマへの拡張、3Dシーン化、そして音響配置までを行う「3Dオーディオ・ビジュアル・シーン」生成フレームワークです。
新規性 視覚的な没入感だけでなく、言語ガイドによる音響アンカー配置とアンビソニックスレンダリングを統合し、聴覚的な空間体験までをも生成プロセスに組み込んだ点が極めて独創的です。
なぜ選ばれたか(スコア内訳) 合計スコア118.83。CVPR 2026採択論文であり、視覚と聴覚の融合という次世代の空間認識の方向性を示しました。
- 関連リンク: arXiv | Hugging Face | GitHub
第6位〜第12位 クイックレビュー
【第6位】RT-Splatting: Joint Reflection-Transmission Modeling with Gaussian Splatting Gaussian Splattingにおいて、反射と透過の物理モデルを統合。CVPR 2026採択。
- 関連リンク: arXiv | Hugging Face | GitHub
【第7位】VidSplat: Gaussian Splatting Reconstruction with Geometry-Guided Video Diffusion Priors ビデオ拡散モデルの事前知識を活用し、幾何学的に整合したGS再構築を実現。SIGGRAPH 2026採択。
- 関連リンク: arXiv | Hugging Face | GitHub
【第8位】DVD: Deterministic Video Depth Estimation with Generative Priors 生成的な事前知識を用い、決定論的なビデオ深度推定を行う手法。安定した動画の幾何復元に貢献。
- 関連リンク: arXiv | Hugging Face | GitHub
【第9位】WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories ビデオ生成とシーン再構築を「3D幾何学的メモリ」で橋渡しする革新的なアプローチ。
- 関連リンク: arXiv | Hugging Face | GitHub
【第10位】4DGS360: 360° Gaussian Reconstruction of Dynamic Objects from a Single Video 単一のビデオから、動的なオブジェクトの360度全方位4D Gaussian再構築を実現。
- 関連リンク: arXiv | Hugging Face | GitHub
【第11位】PanoWorld: Towards Spatial Supersensing in 360$^\circ$ Panorama World 360度パノラマにおける、空間的な「超感覚(Supersensing)」を目指した高度な認識フレームワーク。
- 関連リンク: arXiv | Hugging Face | GitHub
【第12位】Unlocking Dense Metric Depth Estimation in VLims VLM(視覚言語モデル)を活用し、高密度かつメトリックな深度推定を解き放つ研究。
- 関連リンク: arXiv | Hugging Face | GitHub
編集後記
今回の調査を通じて、3D再構築の主戦場が「単一視点の精緻化」から「広域・多感覚なワールド生成」へと完全に移行したことが明確になりました。特に、Gaussian Splattingが単なるレンダリング手法を超え、シミュレーションやロボティクスの基盤へと進化している点は目を見張るものがあります。
今後は、これらの技術がどのように実世界(エッジデバイスやロボット)へと実装されていくのかを注視していく必要があります。次週からは、より専門的な技術解説に踏み込んだ「週刊ランキング」を開始する予定です。どうぞご期待ください。