ランキング(注目度スコア)
スコア算出日: 2026-06-21
合計スコア = √(HF Upvotes) + √(GitHub Stars) + cvFactor + venueBonus(HF・Stars が 0 のとき各 √ 項は 0、cvFactor は LLM による 100 点満点、venueBonus は学会採択加点)(算定方法の詳細)
2024年 注目論文ランキング
Spatial Computing Weekly の創刊にあたり、私たちはコンピュータビジョンの歴史において極めて重要な転換点となった「2024年」の技術動向を遡及調査しました。
2024年は、従来のNeRF(Neural Radiance Fields)から、より高速かつ高精細なレンダリングを可能にする**3D Gaussian Splatting (3DGS)**へと技術の主軸が劇的にシフトした年でした。同時に、大規模な未ラベルデータを用いた「Foundation Model(基盤モデル)」が単眼深度推定や幾何学的再構築の領域に革命をもたらし、デジタル空間と現実世界の境界を曖昧にする技術が次々と発表されました。
本レポートでは、膨大な論文の中から、学術的な貢献度と実装への影響力の両面から厳選したトップ20をお届けします。
トップ5の深掘り
【第1位】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
概要 あらゆる画像に対して頑健な単眼深度推定を実現する、極めて実用的な基盤モデルです。特定のモジュールを複雑化させるのではなく、データスケーリングによって汎用性を獲得することに焦点を当てています。
新規性 独自のデータエンジンを設計し、約6,200万枚という大規模な未ラベルデータを自動アノテーションして収集。これにより、データカバレッジを劇的に広げ、未知の環境における汎化誤差を大幅に低減させることに成功しました。
なぜ選ばれたか(スコア内訳) 合計スコア205.13(HF 64 / ★8123 / cvFactor 92 / venueBonus 15)という圧倒的な数値が示す通り、CVPR 2024採択論文として、その実用性とコミュニティへの影響力が極めて高いと評価されました。
関連リンク: arXiv | Hugging Face | GitHub
【第2位】Sapiens: Foundation for Human Vision Models
概要 2Dポーズ推定、ボディセグメンテーション、深度推定、法線予測といった、人間中心の4つの主要なビジョンタスクをカバーする基盤モデルファミリーです。
新規性 3億枚以上の実世界の人間画像を用いて事前学習されており、1Kの高解像度推論をネイティブにサポートしています。少量のファインチューニングだけで、個別のタスクへ容易に適応可能です。
なぜ選ばれたか(スコア内訳) 合計スコア173.04(HF 93 / ★5387 / cvFactor 75 / venueBonus 15)を記録。ECCV 2024採択論文として、人間モデルの汎用性を一段階引き上げた点が評価されました。
関連リンク: arXiv | Hugging Face | GitHub
【第3位】gsplat: An Open-Source Library for Gaussian Splatting
概要 Gaussian Splatting手法のトレーニングと開発に特化した、オープンソースの強力なライブラリです。
新規性 PyTorchと互換性のあるPythonフロントエンドと、高度に最適化されたCUDAカーネルによるバックエンドを兼ね備えています。学習速度、メモリ効率、収束時間の最適化において優れた機能を提供します。
なぜ選ばれたか(スコア内訳) 合計スコア151.53(HF 17 / ★5243 / cvFactor 75 / venueBonus 0)を達成。研究者がGS手法を迅速に実装・実験するための標準ツールとしての価値が認められました。
関連リンク: arXiv | Hugging Face | GitHub
【第4位】2D Gaussian Splatting for Geometrically Accurate Radiance Fields
概要 従来の3D Gaussian Splatting (3DGS) が抱えていた、サーフェス(表面)の幾何学的表現の不正確さを解決するための手法です。
新規性 3Dボリュームを、一連の2D指向性平面へと「崩壊(collapse)」させることで、多視点間での整合性が高い幾何学的に正確なラディアンスフィールドの再構築を可能にしました。
なぜ選ばれたか(スコア内訳) 合計スコア150.20(HF 31 / ★3207 / cvFactor 88 / venueBonus 0)。3DGSの弱点であった幾何学的な欠陥を克服した革新的なアプローチとして注目されました。
関連リンク: arXiv | Hugging Face | GitHub
【第5位】Metric3Dv2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface Normal Estimation
概要 単一の画像から、ゼロショットで「メートル単位の正確な深度」と「表面法線」を推定する、汎用的な幾何学的基盤モデルです。
新規性 従来の単眼深度推定が「相対的な深さ」の推定に留まっていたのに対し、実世界のスケール(メートル単位)を復元できる幾何学的整合性を実現しています。
なぜ選ばれたか(スコア内訳) 合計スコア149.25(HF 0 / ★2233 / cvFactor 92 / venueBonus 10)。TPAMI(IEEE Transactions on Pattern Analysis and Machine Intelligence)掲載論文として、その学術的・実用的価値が極めて高く評価されました。
関連リンク: arXiv | Hugging Face | GitHub
第6位〜第20位 クイックレビュー
【第6位】DepthSplat: Connecting Gaussian Splatting and Depth Gaussian Splattingと深度推定を融合させ、高品質な再構築を目指す手法です。 関連リンク: arXiv | Hugging Face | GitHub
【第7位】Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation Prompting技術を用いて、Depth Anythingを4K解像度かつ高精度なメートル単位の深度推定へ拡張します。 関連リンク: arXiv | Hugging Face | GitHub
【第8位】Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation and Reconstruction 拡散モデルにGaussian Splattingを組み込み、高速かつスケーラブルな単一ステージのImage-to-3D生成を実現します。 関連リンク: arXiv | Hugging Face | GitHub
【第9位】GaussianObject: High-Quality 3D Object Reconstruction from Four Views with Gaussian Splatting わずか4枚の視点から、高品質な3Dオブジェクト再構築をGaussian Splattingで行う手法です。 関連リンク: arXiv | Hugging Face | GitHub
【第10位】DepthFM: Fast Monocular Depth Estimation with Flow Matching Flow Matching技術を導入し、高速かつ高精度な単眼深度推定を実現するモデルです。 関連リンク: arXiv | Hugging Face | GitHub
【第11位】Shape of Motion: 4D Reconstruction from a Single Video 単一のビデオから、動的な形状の変化を捉える4D再構築を実現する研究です。 関連リンク: arXiv | Hugging Face | GitHub
【第12位】InstantSplat: Sparse-view Gaussian Splatting in Seconds 極めて少ない視点から、わずか数秒でGaussian Splattingの再構築を行う超高速手法です。 関連リンク: arXiv | Hugging Face | GitHub
【第13位】DNGaussian: Optimizing Sparse-view 3D Gaussian Radiance Fields with Global-Local Depth Normalization 深度と法線のグローバル・ローカルな正規化を用いて、疎な視点からのGS最適化を改善します。 関連リンク: arXiv | Hugging Face | GitHub
【第14位】Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation パースペクティブ蒸留を用い、360度全天球画像における単眼深度推定の精度を高める手法です。 関連リンク: arXiv | Hugging Face | GitHub
【第15位】DrivingForward: Feed-forward 3D Gaussian Splatting for Driving Scene Reconstruction from Flexible Surround-view Input 車載カメラの全周囲入力から、フィードフォワード形式で走行シーンの3DGS再構築を行います。 関連リンク: arXiv | Hugging Face | GitHub
【第16位】Head360: Learning a Parametric 3D Full-Head for Free-View Synthesis in 360° 360度全方位の自由視点合成を可能にする、パラメータ化された3Dフルヘッドモデルの学習手法です。 関連リンク: arXiv | Hugging Face | GitHub
【第17位】MVPGS: Excavating Multi-view Priors for Gaussian Splatting from Sparse Input Views 疎な入力視点から多視点プライア(事前知識)を抽出し、GSの精度を高める手法です。 関連リンク: arXiv | Hugging Face | GitHub
【第18位】SpatialTracker: Tracking Any 2D Pixels in 3D Space 3D空間における任意の2Dピクセルの動きを追跡する、高度なトラッキング技術です。 関連リンク: arXiv | Hugging Face
【第19位】Gaussian Frosting: Editable Complex Radiance Fields with Real-Time Rendering リアルタイムレンダリングを維持しつつ、編集可能な複雑なラディアンスフィールドを実現します。 関連リンク: arXiv | Hugging Face | GitHub
【第20位】3DSceneEditor: Controllable 3D Scene Editing with Gaussian Splatting Gaussian Splattingを用いた、制御可能な3Dシーン編集のためのフレームワークです。 関連リンク: arXiv | Hugging Face | GitHub
編集後記
2024年の調査を通じて、3D再構築技術が「静止した美しい画像の生成」から「動的で幾何学的に正確な、実世界に即した空間理解」へと進化していることが鮮明になりました。特にGaussian Splattingの爆発的な普及は、研究から実用フェーズへの移行を加速させています。
今後は、これらの高度なモデルがウェアラブルデバイスや自動運転、メタバースといった現実のアプリケーションにどのように統合されていくのかを注視する必要があります。次週からは、より特定の技術領域(例:Gaussian Splattingの最新進化)に焦点を当てた週刊ランキングを開始する予定です。
お楽しみに。