作品一覧

  • コンピュータビジョン最前線 Summer 2025
    -
    1巻3,300円 (税込)
    【最新動向サーベイ】 ・イマドキノ物体検出:物体検出は、画像認識の中でも重要なタスクの一つである。従来の典型的な物体検出の技術は成熟してきており、研究者はより発展的なタスク設定に取り組むことが増えている。一方で、物体検出は、実応用や他のコンピュータビジョンタスクで活用されることが多いが、それらの応用に物体検出は不要なのではないかという説が議論されるようになった。本記事では、最新の動向に焦点を当て、物体検出の広がり、そして終わりの可能性について紹介する。 ・イマドキノ局所特徴点マッチング:画像局所特徴とは、画像内の局所的なパターンなどの特徴を特徴ベクトルとして記述し、2画像間のマッチングに用いる手法である。本記事では、画像局所特徴として一世を風靡したSIFT について、どのような背景下で生まれ、どのように深層学習に至るまで発展を遂げたのかを振り返る。 ・イマドキノ3次元復元:撮影された画像からシーンの3 次元構造を推定するタスクはコンピュータビジョンにおける重要な研究分野であり、幅広い分野において活用されている。本記事では、大規模な3D データセットを学習し、2 枚の入力画像から3 次元点マップを推論するアプローチと、学習時に明示的な3D 教師データを必要としない、1 枚の入力画像から3 次元表現を推論するアプローチの2 種類を紹介する。 ・イマドキノ偏光CV:光は電磁波の一部であり、人間はそのさらに一側面しか知覚できない。一方で、偏光には、反射時のふるまいが電磁気学から理論的に導出できるなど、可視光にはない特徴がある。本記事では、偏光の基礎からその取り扱い方、最新研究など、現在の偏光CV を取り巻く状況を解説する。 【チュートリアル】 ・ニュウモン3D Gaussian Splatting:近年のグラフィックスハードウェアや自動微分フレームワークの進歩に伴い、NeRFや3D Gaussian Splatting(3DGS)などの新規視点合成技術が著しい発展を遂げている。3DGSは、高解像度の視点合成をリアルタイムで行うことができ、その高い表現能力と柔軟性から、形状復元や動的シーンのモデリングなど様々なタスクに応用されている。本記事では3DGS の原理およびその利点と課題を包括的に解説する。 そのほかに、最近研究者たちの間で密かなブームを呼んでいるモデルマージの手法をミライとユメの双子姉妹が案内する「叡智の図書館II」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Spring 2025
    -
    1巻3,300円 (税込)
    【最新動向サーベイ】「イマドキノロボット基盤モデル」大規模言語モデルや視覚言語モデルなどの基盤モデルの発展に伴って、ロボティクスにおいても認識や制御の部分で基盤モデルを活用する事例、また、ロボティクス領域での基盤モデルを構築しようとする事例が見られるようになってきた。本稿では、ロボティクス領域での基盤モデル、すなわち、ロボット基盤モデルを構築することを目的とした研究事例を中心に紹介する。/「イマドキノCV for Earth」環境問題の解決に向けて、画像認識技術がどのように利用されているのか、生物多様性と動物保護、森林保護、廃棄物・汚染管理、持続可能な農業と食糧生産の4つの分野に焦点を当てて紹介。それぞれの分野において研究者たちがどのように課題と向き合い、データをとり、手法を適用していったのかを解説する。/「イマドキノ音声合成」ニューラルネットワークを用いた大規模言語モデルの進展に伴い、音声の離散表現に基づくテキスト音声合成(TTS)手法が数多く提案されている。これらの手法は、単に高品質なTTS を実現するだけでなく、数秒から数分の限られた音声から、モデルの再学習を必要とせずにその声質や話し方を忠実に再現するゼロショットTTS を可能にしている。本稿では、これまでのTTS 手法の変遷について紹介し、近年提案されている言語モデルに基づくTTS の研究動向の解説をする。/「イマドキノマルチエージェント経路計画」グラフ上の複数エージェントに対し、互いに衝突のない経路を計算する問題はマルチエージェント経路計画(MAPF)と呼ばれ、多数の魅力的な応用がある。人工知能・ロボティクス分野で大きな注目を集めているMAPF 研究について、その経緯と最新の動向を紹介する。 【チュートリアル】「ニュウモン実世界情報と基盤モデル」Vision and Language 技術の進展により、画像認識とテキスト理解の双方が求められる画期的な手法やデータセットが開発され、これまでの画像とテキストの理解を超えて、画像、3D、そしてロボティクスを言語モダリティと結合する機運が高まっている。本稿では、大規模言語モデルや視覚言語モデルについて、その性質や課題を参照表現理解などの視点から解説し、3D 理解や実世界理解、ロボット基盤モデルなどのより複雑なモダリティの理解およびインタラクションの研究へのアプローチについて議論する。 そのほか、国内外から注目を集めているSakana AIのインタビュー記事や、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」、漫画「電脳探偵メタデンコ」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Winter 2024
    -
    1巻3,300円 (税込)
    【最新動向サーベイ】「イマドキノDNNの枝刈り」高性能で軽量なDNN(deep neural network)を作成するために、既存の大規模モデルの性能を維持しつつ、DNNのモデルサイズを圧縮する試みがある。そのアプローチの一つが、DNNの重みに対する枝刈りである。本稿では枝刈りに焦点を当て、モデルサイズを圧縮するための枝刈り技術の代表的な手法を紹介するとともに、より低い計算量で枝刈りを行うイマドキノ試みについても紹介。/「イマドキノマルチモーダルLLM」マルチモーダルLLM(MM-LLM)の包括的なサーベイを、最近の進歩に焦点を当てて紹介。モデルアーキテクチャを5つの構成要素に分類し、一般的な設計定式化と訓練パイプラインの概要を示したのち、様々な最先端のMM-LLMをそれぞれ特有の定式化により分けて解説する。 【論文フカヨミ】「フカヨミマルチカメラBEV認識」3次元のシーン理解を行うための認識技術の一例として、マルチカメラによるBEV(bird’s eye view; 鳥瞰視点)認識技術を解説。自動運転分野におけるBEV 認識の定義について筆者なりの解釈を述べ、マルチカメラBEV認識を理解に欠かせないコア技術として、画像をBEVに変換する視点変換のアプローチについて、いくつかの潮流に分けて説明。次にマルチカメラBEV認識の代表的な手法BEVDetとBEVFormerの2つを解説し、最新の技術動向をもとに今後の展望について議論する。/「フカヨミ計画指向End-to-End自動運転」自動運転システムにおけるDNNベースのアプローチで特に注目を集めているのがビジョンベースのEnd-to-End自動運転フレームワークである。UniAD は、End-to-Endフレームワークを発展させ、経路計画を念頭において設計を行う計画指向哲学を提案した研究である。本稿では、計画指向なEnd-to-End自律走行モデルについての研究動向と、UniADモデルの詳細について解説する。 【チュートリアル】「ニュウモン一人称ビジョン」『コンピュータビジョン Winter2023』掲載の「イマドキノ一人称ビジョン」に続く「一人称ビジョン」記事第2弾。本稿では、『Winter 2023』で扱いきれなかった個々の手法の詳細に重点を置いて解説。一人称視点映像を用いたタスクに取り組むためのテクニックや具体的なデータセット・モデルに焦点を当てた、より実践的な入門ガイドを提供する。 そのほか、マルチタスクをスピーディにこなすためのツールと仕事術を紹介する「CV人材のための作業効率アップ研究所(後編)」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」、漫画「Happy AI」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Autumn 2024
    -
    1巻3,300円 (税込)
    【最新動向サーベイ】「イマドキノ微分可能レンダリング」イマドキノ微分可能レンダリングのうち、大きなブレイクスルーとなったGaussian Splattingを紹介。本記事により、NeRFやGaussian Splattingの性能の優劣ではなく、解きたいタスクで微分可能レンダリングが何をできるか、シーンに何が仮定できるのか、それによりどんな表現が適しているのかを、根拠をもって考えるきっかけを提供する。/「イマドキノ論文サーベイ」大規模言語モデルの応用方法の1つであるRetrieval-Augmented Generation(RAG)を活用した、論文サーベイツール“Crux”の開発と使用例について紹介。Cruxを使用することで、膨大な数の研究論文から必要な情報を効率的に抽出できる。 【論文フカヨミ】「フカヨミ正規化フロー」2024年2月に公開されたStable Diffusion 3は正規化フローの派生であるRectified Flowを用いており、生成タスクにおいて正規化フローの利用が加速すると予想される。そこで本稿では、正規化フローの基礎について解説し、正規化フローが用いられている最新研究を紹介。/「フカヨミ3D医療解析」3D医療画像分野におけるコア技術である事前学習について、昨今の基盤モデルの潮流も含めて解説。各手法についての詳細な説明というより、分野全体における網羅的なトレンドを“深読み”していくことを目的とする。 【チュートリアル】「ニュウモンイベントカメラ」“動きがあったこと(イベント)”の検出に特化した新しいデバイスであるイベントカメラ(event camera)について、その仕組みを含む基礎から始まり、多種多様な応用研究、実際に利用する際のコツについて解説。 そのほか、マルチタスクをスピーディにこなすためのツールと仕事術を紹介する「CV人材のための作業効率アップ研究所(前編)」、漫画「がんばれ!堀田くん」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Summer 2024
    -
    1巻3,300円 (税込)
    ★特集:生成AI★ 最新動向サーベイ記事を3本に拡大してお届けする、生成AI特別号!! 日本語言語モデル、ロボティクス基盤モデル、生成AI開発&利用における法的留意点、それぞれのイマドキとは!? 【最新動向サーベイ】 ・イマドキノLLM構築:近年のLLMの進展を概観のうえ、LLMの事前学習からチューニングまでの各ステップにおける、経験的な知見や研究報告を紹介。 ・イマドキノRobot Learning:ロボティクス分野においても大きく注目されている「基盤モデル」がロボットマニピュレーションの発展にどの程度寄与するのかについて読み解く。 ・イマドキノ生成AIの法律問題:生成AIの開発段階および利用段階において、法的に留意すべき事項として特に重要となる(1)著作権の帰属・侵害、(2)肖像権・パブリシティ権の侵害、(3)個人情報を含むパーソナルデータの不適切利用、(4)秘密情報の漏えいの4点について、開発・学習段階と生成・利用段階に分けて解説。これら留意点を意識しさえすれば、生成AI開発・利用を踏み留まるほどの大きなリスクは見当たらないといっても過言ではないだろう。 【論文フカヨミ】 ・フカヨミテキストからの動作生成:近年、言語を用いた動作の検索、さらには生成までの研究が行われてきている。本稿では1人の動作生成について取り上げたうえで、筆者らによるテキストから2人の共同動作を生成する研究について紹介。 【チュートリアル】 ・ニュウモン自己教師あり学習による事前学習:自己教師あり学習による事前学習として、自己教師あり学習の概要と代表的な評価方法に加え、現在の主流となっている対照学習とMasked Image Modelingを中心とした代表的な手法について解説する。 そのほか、異分野へのCV技術応用を紹介する「コンピュータビジョンの学際研究」、Embodied AIについてミライとユメの双子姉妹が案内する「叡智の図書館」、マンガ「三次の国のアリス」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Spring 2024
    -
    1巻3,300円 (税込)
    【最新動向サーベイ】 ・イマドキノデザイン生成:コンピュータグラフィックス領域の技術が多分に活用されているグラフィックデザインの理解と生成において、個別の対象ごとにどのようなタスクが存在し、どういったアプローチが取られているのかを研究事例ベースで広く紹介。 【論文フカヨミ】 ・フカヨミ様々な入力と人物状態推定:人物の姿勢や形状などの様々な状態を推定するタスクである人物状態推定に関する研究を紹介。特に、計測対象人物(ユーザ)が計測用デバイスやマーカーなどを身につける必要がない非侵襲的な計測に基づき、かつ、一般的なRGB 動画像を入力としないものについて概説する。 ・フカヨミレイアウト生成:レイアウトと呼ばれる構図表現について紹介。まずレイアウトに関する基礎知識を述べた後に、利用者の意図に沿いながらレイアウトそのものを自動生成する研究の最近の動向と課題を紹介。そして筆者がCVPR2023 で発表した、LayoutDMという、 単一のモデルで様々な手がかりからのレイアウト生成を実現する手法について解説。 ・フカヨミAIに潜むバイアス:特にビジョンと言語の話題に的を絞り、DNN が持つバイアスについて議論する。まず、モデルが持つバイアスとは一体どのようなものなのかを明らかにし、その上で画像のキャプショニング(画像とテキストのペア) やVQA のデータセット自体が内包するバイアスを例示。その上で、画像のキャプショニングのタスクにおいてある種のバイアスを低減する手法を紹介する。 【チュートリアル】 ・ニュウモンData-Centric AI:Data-Centric AI(DCAI)が注目を集めるきっかけとなったAndrew Ng氏の講演「A Chat with Andrew on MLOps:From Model-Centric to Data-Centric AI」の概要について述べた後、DCAIにおける取り組みの中からデータセットの拡大と改善という2つの大きなテーマにフォーカスし、それぞれの代表的な手法を紹介。 その他、新たに参画したジュニア編集委員による「ココカラ研究者紹介」、漫画「ロット谷への降下」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 winter2023
    -
    1巻3,300円 (税込)
    【最新動向サーベイ】 ・イマドキノ一人称ビジョン:人の身体に軽量小型のウェアラブルカメラを装着し、装着者自身の視点から見た映像を撮影することで自身およびその周辺の環境を理解する一人称ビジョンについて、浅く広く、応用や実践も含めて紹介。 【論文フカヨミ】 ・フカヨミStable Diffusionと脳活動:Stable Diffusionと名付けられた潜在拡散モデルの各要素やプロセスが、脳内の活動とどのように対応しているかを探ることで、生物学的に拡散モデルの解釈を試みた研究について紹介。加えて、新たな深層学習モデルの訓練を必要としないシンプルなデコーディングの枠組みも提案。 ・フカヨミ音響情報のCV応用:本稿では音と画像を活用した研究をおおまかに、意味情報をもつ音響信号を用いて人物姿勢や画像を生成するモデルと、反響音から室内の3次元空間情報を推定するモデルに大別し、それぞれの代表的な研究について解説。 ・フカヨミ潜在空間で画像編集:表現空間における座標系に注目し、生成される画像を高品質に編集できる手法deep curvilinear editing (DeCurvEd) を紹介。 【チュートリアル】 ・ニュウモン拡散モデル:前々号(Summer 2023)掲載の「イマドキノ拡散モデル」では、拡散モデルの基礎を踏まえつつも、最新の研究動向を体系的に広く紹介することに主眼に置いた。今回はチュートリアル記事として前回よりさらに大きく紙面を割き、爆発的な進展の中で登場した数多くの技術の中でも特に広く使われているものを中心に、そのアイデアや技術の詳細を紹介。 その他、漫画「君も魔法をかけてみよう!」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー

新規会員限定 70%OFFクーポンプレゼント!