作品一覧

  • Data-centric AI入門
    5.0
    1巻3,520円 (税込)
    ※この商品はタブレットなど大きいディスプレイを備えた端末で読むことに適しています。また、文字だけを拡大することや、文字列のハイライト、検索、辞書の参照、引用などの機能が使用できません。 ◆高品質なデータを設計・開発する技術◆  Data-centric AIとは、機械学習の権威でありGoogleのAI研究チームを率いたAndrew Ngが2021年に提唱した、モデルよりもデータに主眼を置くというAI開発のアプローチです。過去数十年にわたりAI開発においては、固定されたデータセットに対してニューラルネットワークをはじめとしたモデルを適用し、そのモデルを改善することに関心が寄せられていました。しかし、このモデルを中心としたアプローチでは、データセットへの過度な依存やデータセットが抱える課題への無意味な適合により、実用において期待ほどモデルの性能が改善しないといった問題が指摘されています。そのため近年はモデルを固定したうえで、データ拡張、アノテーションの効率化や一貫性の担保、能動学習といったデータに工夫を加えることによってモデルの性能を向上させるアプローチに注目が集まっています。本書では、Data-centric AIの概要を解説したあとに、画像認識、自然言語処理、ロボットといった分野におけるデータを改善するための具体的なアプローチを解説します。最終章では、企業における実践的な取り組みを紹介します。 ■こんな方におすすめ ・データセットの作成、データの学習方法に興味のある方 ・基盤モデルに興味がある方 ■目次 ●第1章 Data-centric AIの概要 ・1.1 Data-centric AIとは ・1.2 データセットのサイズとモデルの性能の関係 ・1.3 データの品質の重要性 ・1.4 おわりに ●第2章 画像データ ・2.1 画像認識におけるData-Centric AIとは ・2.2 画像認識モデルの基礎知識 ・2.3 データを拡張、生成する技術 ・2.4 不完全なアノテーションからの学習 ・2.5 画像と言語ペアの関係性を学習した基盤モデル ・2.6 能動学習 ・2.7 おわりに ●第3章 テキストデータの収集と構築 ・3.1 言語モデルの事前学習 ・3.2 事前学習データの収集 ・3.3 ノイズ除去のためのフィルタリング ・3.4 データからの重複除去 ・3.5 テキストデータ収集の限界 ・3.6 おわりに ●第4章 大規模言語モデルのファインチューニングデータ ・4.1 ファインチューニングとは ・4.2 Instruction Data ・4.3 Preference Data ・4.4 ファインチューニングモデルの評価 ・4.5 日本語における大規模言語モデルのファインチューニング ・4.6 おわりに ●第5章 ロボットデータ ・5.1 はじめに ・5.2 RTシリーズの概要 ・5.3 多様なロボット ・5.4 ロボットにおけるデータ収集 ・5.5 データセット ・5.6 データ拡張 ・5.7 おわりに ●第6章 Data-centric AIの実践例 ・6.1 テスラ ・6.2 メタ ・6.3 チューリング ・6.4 LINEヤフー ・6.5 GO ・6.6 コンペティションとベンチマーク ・6.7 Data-centric AI実践のためのサービス ・6.8 おわりに ■著者プロフィール 片岡裕雄(かたおかひろかつ):2014年 慶應義塾大学大学院 博士(工学)。2024年現在、産業技術総合研究所 上級主任研究員、オックスフォード大学 Academic Visitor および cvpaper.challenge 主宰。時空間モデルのベースライン3D ResNetの研究開発,実データ不要の事前学習法 数式ドリブン教師あり学習(Formula-Driven Supervised Learning; FDSL)を提案。2019/2022年度AIST Best Paper、2020年 ACCV 2020 Best Paper Honorable Mention Award、2023年 BMVC 2023 Best Industry Paper Finalist。研究はMIT Technology Reviewや日経等メディアにて掲載。本書の監修を担当。
  • コンピュータビジョン最前線 Winter 2021
    3.0
    1巻3,300円 (税込)
    コンピュータビジョン研究の最先端をゆくトップランナーたちが織り成す季刊シリーズ創刊!! cvpaper.challengeおよびCVIM研究会全面協力のもと,最新トレンドのサーベイ,いま注目の最重要論文深読み,肝となる技術や理論のチュートリアルの3本柱で,実用性・信頼性のある最先端情報を,毎号ディープに解説。 創刊号のWinter 2021では,まず最新トレンドサーベイ記事「イマドキノCV」で近年のコンピュータビジョン分野において最重要と位置付けられる「データラベルの利活用」や「認識モデルの構築」を扱う。次に論文「フカヨミ」記事を3本掲載し,それぞれ,新規視点画像生成分野で2020年に登場したNeRF,画像処理分野の基本タスクである物体検出技術,いま最も伸びている3D認識アプローチのカテゴリレベル姿勢推定について取り上げる。最後に,チュートリアル記事「ニュウモンVision & Language」で,深層学習の発展とともに盛り上がりを増しているVision & Language(V&L)分野の概要と,現在どのような深層学習手法とその関連手法が使われているかを中心に詳しく紹介する。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Summer 2025
    -
    1巻3,300円 (税込)
    【最新動向サーベイ】 ・イマドキノ物体検出:物体検出は、画像認識の中でも重要なタスクの一つである。従来の典型的な物体検出の技術は成熟してきており、研究者はより発展的なタスク設定に取り組むことが増えている。一方で、物体検出は、実応用や他のコンピュータビジョンタスクで活用されることが多いが、それらの応用に物体検出は不要なのではないかという説が議論されるようになった。本記事では、最新の動向に焦点を当て、物体検出の広がり、そして終わりの可能性について紹介する。 ・イマドキノ局所特徴点マッチング:画像局所特徴とは、画像内の局所的なパターンなどの特徴を特徴ベクトルとして記述し、2画像間のマッチングに用いる手法である。本記事では、画像局所特徴として一世を風靡したSIFT について、どのような背景下で生まれ、どのように深層学習に至るまで発展を遂げたのかを振り返る。 ・イマドキノ3次元復元:撮影された画像からシーンの3 次元構造を推定するタスクはコンピュータビジョンにおける重要な研究分野であり、幅広い分野において活用されている。本記事では、大規模な3D データセットを学習し、2 枚の入力画像から3 次元点マップを推論するアプローチと、学習時に明示的な3D 教師データを必要としない、1 枚の入力画像から3 次元表現を推論するアプローチの2 種類を紹介する。 ・イマドキノ偏光CV:光は電磁波の一部であり、人間はそのさらに一側面しか知覚できない。一方で、偏光には、反射時のふるまいが電磁気学から理論的に導出できるなど、可視光にはない特徴がある。本記事では、偏光の基礎からその取り扱い方、最新研究など、現在の偏光CV を取り巻く状況を解説する。 【チュートリアル】 ・ニュウモン3D Gaussian Splatting:近年のグラフィックスハードウェアや自動微分フレームワークの進歩に伴い、NeRFや3D Gaussian Splatting(3DGS)などの新規視点合成技術が著しい発展を遂げている。3DGSは、高解像度の視点合成をリアルタイムで行うことができ、その高い表現能力と柔軟性から、形状復元や動的シーンのモデリングなど様々なタスクに応用されている。本記事では3DGS の原理およびその利点と課題を包括的に解説する。 そのほかに、最近研究者たちの間で密かなブームを呼んでいるモデルマージの手法をミライとユメの双子姉妹が案内する「叡智の図書館II」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Spring 2025
    -
    1巻3,300円 (税込)
    【最新動向サーベイ】「イマドキノロボット基盤モデル」大規模言語モデルや視覚言語モデルなどの基盤モデルの発展に伴って、ロボティクスにおいても認識や制御の部分で基盤モデルを活用する事例、また、ロボティクス領域での基盤モデルを構築しようとする事例が見られるようになってきた。本稿では、ロボティクス領域での基盤モデル、すなわち、ロボット基盤モデルを構築することを目的とした研究事例を中心に紹介する。/「イマドキノCV for Earth」環境問題の解決に向けて、画像認識技術がどのように利用されているのか、生物多様性と動物保護、森林保護、廃棄物・汚染管理、持続可能な農業と食糧生産の4つの分野に焦点を当てて紹介。それぞれの分野において研究者たちがどのように課題と向き合い、データをとり、手法を適用していったのかを解説する。/「イマドキノ音声合成」ニューラルネットワークを用いた大規模言語モデルの進展に伴い、音声の離散表現に基づくテキスト音声合成(TTS)手法が数多く提案されている。これらの手法は、単に高品質なTTS を実現するだけでなく、数秒から数分の限られた音声から、モデルの再学習を必要とせずにその声質や話し方を忠実に再現するゼロショットTTS を可能にしている。本稿では、これまでのTTS 手法の変遷について紹介し、近年提案されている言語モデルに基づくTTS の研究動向の解説をする。/「イマドキノマルチエージェント経路計画」グラフ上の複数エージェントに対し、互いに衝突のない経路を計算する問題はマルチエージェント経路計画(MAPF)と呼ばれ、多数の魅力的な応用がある。人工知能・ロボティクス分野で大きな注目を集めているMAPF 研究について、その経緯と最新の動向を紹介する。 【チュートリアル】「ニュウモン実世界情報と基盤モデル」Vision and Language 技術の進展により、画像認識とテキスト理解の双方が求められる画期的な手法やデータセットが開発され、これまでの画像とテキストの理解を超えて、画像、3D、そしてロボティクスを言語モダリティと結合する機運が高まっている。本稿では、大規模言語モデルや視覚言語モデルについて、その性質や課題を参照表現理解などの視点から解説し、3D 理解や実世界理解、ロボット基盤モデルなどのより複雑なモダリティの理解およびインタラクションの研究へのアプローチについて議論する。 そのほか、国内外から注目を集めているSakana AIのインタビュー記事や、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」、漫画「電脳探偵メタデンコ」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Winter 2024
    -
    1巻3,300円 (税込)
    【最新動向サーベイ】「イマドキノDNNの枝刈り」高性能で軽量なDNN(deep neural network)を作成するために、既存の大規模モデルの性能を維持しつつ、DNNのモデルサイズを圧縮する試みがある。そのアプローチの一つが、DNNの重みに対する枝刈りである。本稿では枝刈りに焦点を当て、モデルサイズを圧縮するための枝刈り技術の代表的な手法を紹介するとともに、より低い計算量で枝刈りを行うイマドキノ試みについても紹介。/「イマドキノマルチモーダルLLM」マルチモーダルLLM(MM-LLM)の包括的なサーベイを、最近の進歩に焦点を当てて紹介。モデルアーキテクチャを5つの構成要素に分類し、一般的な設計定式化と訓練パイプラインの概要を示したのち、様々な最先端のMM-LLMをそれぞれ特有の定式化により分けて解説する。 【論文フカヨミ】「フカヨミマルチカメラBEV認識」3次元のシーン理解を行うための認識技術の一例として、マルチカメラによるBEV(bird’s eye view; 鳥瞰視点)認識技術を解説。自動運転分野におけるBEV 認識の定義について筆者なりの解釈を述べ、マルチカメラBEV認識を理解に欠かせないコア技術として、画像をBEVに変換する視点変換のアプローチについて、いくつかの潮流に分けて説明。次にマルチカメラBEV認識の代表的な手法BEVDetとBEVFormerの2つを解説し、最新の技術動向をもとに今後の展望について議論する。/「フカヨミ計画指向End-to-End自動運転」自動運転システムにおけるDNNベースのアプローチで特に注目を集めているのがビジョンベースのEnd-to-End自動運転フレームワークである。UniAD は、End-to-Endフレームワークを発展させ、経路計画を念頭において設計を行う計画指向哲学を提案した研究である。本稿では、計画指向なEnd-to-End自律走行モデルについての研究動向と、UniADモデルの詳細について解説する。 【チュートリアル】「ニュウモン一人称ビジョン」『コンピュータビジョン Winter2023』掲載の「イマドキノ一人称ビジョン」に続く「一人称ビジョン」記事第2弾。本稿では、『Winter 2023』で扱いきれなかった個々の手法の詳細に重点を置いて解説。一人称視点映像を用いたタスクに取り組むためのテクニックや具体的なデータセット・モデルに焦点を当てた、より実践的な入門ガイドを提供する。 そのほか、マルチタスクをスピーディにこなすためのツールと仕事術を紹介する「CV人材のための作業効率アップ研究所(後編)」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」、漫画「Happy AI」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Autumn 2024
    -
    1巻3,300円 (税込)
    【最新動向サーベイ】「イマドキノ微分可能レンダリング」イマドキノ微分可能レンダリングのうち、大きなブレイクスルーとなったGaussian Splattingを紹介。本記事により、NeRFやGaussian Splattingの性能の優劣ではなく、解きたいタスクで微分可能レンダリングが何をできるか、シーンに何が仮定できるのか、それによりどんな表現が適しているのかを、根拠をもって考えるきっかけを提供する。/「イマドキノ論文サーベイ」大規模言語モデルの応用方法の1つであるRetrieval-Augmented Generation(RAG)を活用した、論文サーベイツール“Crux”の開発と使用例について紹介。Cruxを使用することで、膨大な数の研究論文から必要な情報を効率的に抽出できる。 【論文フカヨミ】「フカヨミ正規化フロー」2024年2月に公開されたStable Diffusion 3は正規化フローの派生であるRectified Flowを用いており、生成タスクにおいて正規化フローの利用が加速すると予想される。そこで本稿では、正規化フローの基礎について解説し、正規化フローが用いられている最新研究を紹介。/「フカヨミ3D医療解析」3D医療画像分野におけるコア技術である事前学習について、昨今の基盤モデルの潮流も含めて解説。各手法についての詳細な説明というより、分野全体における網羅的なトレンドを“深読み”していくことを目的とする。 【チュートリアル】「ニュウモンイベントカメラ」“動きがあったこと(イベント)”の検出に特化した新しいデバイスであるイベントカメラ(event camera)について、その仕組みを含む基礎から始まり、多種多様な応用研究、実際に利用する際のコツについて解説。 そのほか、マルチタスクをスピーディにこなすためのツールと仕事術を紹介する「CV人材のための作業効率アップ研究所(前編)」、漫画「がんばれ!堀田くん」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Summer 2024
    -
    1巻3,300円 (税込)
    ★特集:生成AI★ 最新動向サーベイ記事を3本に拡大してお届けする、生成AI特別号!! 日本語言語モデル、ロボティクス基盤モデル、生成AI開発&利用における法的留意点、それぞれのイマドキとは!? 【最新動向サーベイ】 ・イマドキノLLM構築:近年のLLMの進展を概観のうえ、LLMの事前学習からチューニングまでの各ステップにおける、経験的な知見や研究報告を紹介。 ・イマドキノRobot Learning:ロボティクス分野においても大きく注目されている「基盤モデル」がロボットマニピュレーションの発展にどの程度寄与するのかについて読み解く。 ・イマドキノ生成AIの法律問題:生成AIの開発段階および利用段階において、法的に留意すべき事項として特に重要となる(1)著作権の帰属・侵害、(2)肖像権・パブリシティ権の侵害、(3)個人情報を含むパーソナルデータの不適切利用、(4)秘密情報の漏えいの4点について、開発・学習段階と生成・利用段階に分けて解説。これら留意点を意識しさえすれば、生成AI開発・利用を踏み留まるほどの大きなリスクは見当たらないといっても過言ではないだろう。 【論文フカヨミ】 ・フカヨミテキストからの動作生成:近年、言語を用いた動作の検索、さらには生成までの研究が行われてきている。本稿では1人の動作生成について取り上げたうえで、筆者らによるテキストから2人の共同動作を生成する研究について紹介。 【チュートリアル】 ・ニュウモン自己教師あり学習による事前学習:自己教師あり学習による事前学習として、自己教師あり学習の概要と代表的な評価方法に加え、現在の主流となっている対照学習とMasked Image Modelingを中心とした代表的な手法について解説する。 そのほか、異分野へのCV技術応用を紹介する「コンピュータビジョンの学際研究」、Embodied AIについてミライとユメの双子姉妹が案内する「叡智の図書館」、マンガ「三次の国のアリス」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Spring 2024
    -
    1巻3,300円 (税込)
    【最新動向サーベイ】 ・イマドキノデザイン生成:コンピュータグラフィックス領域の技術が多分に活用されているグラフィックデザインの理解と生成において、個別の対象ごとにどのようなタスクが存在し、どういったアプローチが取られているのかを研究事例ベースで広く紹介。 【論文フカヨミ】 ・フカヨミ様々な入力と人物状態推定:人物の姿勢や形状などの様々な状態を推定するタスクである人物状態推定に関する研究を紹介。特に、計測対象人物(ユーザ)が計測用デバイスやマーカーなどを身につける必要がない非侵襲的な計測に基づき、かつ、一般的なRGB 動画像を入力としないものについて概説する。 ・フカヨミレイアウト生成:レイアウトと呼ばれる構図表現について紹介。まずレイアウトに関する基礎知識を述べた後に、利用者の意図に沿いながらレイアウトそのものを自動生成する研究の最近の動向と課題を紹介。そして筆者がCVPR2023 で発表した、LayoutDMという、 単一のモデルで様々な手がかりからのレイアウト生成を実現する手法について解説。 ・フカヨミAIに潜むバイアス:特にビジョンと言語の話題に的を絞り、DNN が持つバイアスについて議論する。まず、モデルが持つバイアスとは一体どのようなものなのかを明らかにし、その上で画像のキャプショニング(画像とテキストのペア) やVQA のデータセット自体が内包するバイアスを例示。その上で、画像のキャプショニングのタスクにおいてある種のバイアスを低減する手法を紹介する。 【チュートリアル】 ・ニュウモンData-Centric AI:Data-Centric AI(DCAI)が注目を集めるきっかけとなったAndrew Ng氏の講演「A Chat with Andrew on MLOps:From Model-Centric to Data-Centric AI」の概要について述べた後、DCAIにおける取り組みの中からデータセットの拡大と改善という2つの大きなテーマにフォーカスし、それぞれの代表的な手法を紹介。 その他、新たに参画したジュニア編集委員による「ココカラ研究者紹介」、漫画「ロット谷への降下」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 winter2023
    -
    1巻3,300円 (税込)
    【最新動向サーベイ】 ・イマドキノ一人称ビジョン:人の身体に軽量小型のウェアラブルカメラを装着し、装着者自身の視点から見た映像を撮影することで自身およびその周辺の環境を理解する一人称ビジョンについて、浅く広く、応用や実践も含めて紹介。 【論文フカヨミ】 ・フカヨミStable Diffusionと脳活動:Stable Diffusionと名付けられた潜在拡散モデルの各要素やプロセスが、脳内の活動とどのように対応しているかを探ることで、生物学的に拡散モデルの解釈を試みた研究について紹介。加えて、新たな深層学習モデルの訓練を必要としないシンプルなデコーディングの枠組みも提案。 ・フカヨミ音響情報のCV応用:本稿では音と画像を活用した研究をおおまかに、意味情報をもつ音響信号を用いて人物姿勢や画像を生成するモデルと、反響音から室内の3次元空間情報を推定するモデルに大別し、それぞれの代表的な研究について解説。 ・フカヨミ潜在空間で画像編集:表現空間における座標系に注目し、生成される画像を高品質に編集できる手法deep curvilinear editing (DeCurvEd) を紹介。 【チュートリアル】 ・ニュウモン拡散モデル:前々号(Summer 2023)掲載の「イマドキノ拡散モデル」では、拡散モデルの基礎を踏まえつつも、最新の研究動向を体系的に広く紹介することに主眼に置いた。今回はチュートリアル記事として前回よりさらに大きく紙面を割き、爆発的な進展の中で登場した数多くの技術の中でも特に広く使われているものを中心に、そのアイデアや技術の詳細を紹介。 その他、漫画「君も魔法をかけてみよう!」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Autumn 2023
    -
    1巻3,300円 (税込)
    【最新動向サーベイ】 ・イマドキノバーチャルヒューマン:XR分野におけるバーチャルヒューマンにかかわる技術の中でも、人間の全身構造や形状の把握に主眼を置いた代表的な研究について紹介。今後の見通しについても触れる。 【論文フカヨミ】 ・フカヨミオープンワールド物体検出:筆者らがECCV2022で提案したオープンワールド物体検出のための手法LDETについて解説。既存手法の欠点を克服するためのデータ拡張、および学習フレームワークを提案し、さらなる発展についても言及。 ・フカヨミマルチフレーム超解像:シングルイメージ超解像を含む超解像分野全体の概観から始め、マルチフレーム超解像に関する最新の研究について紹介。 ・フカヨミ深層単画像カメラ校正:1枚の入力画像のみで歪みと傾きを高精度に校正する深層単画像カメラ校正の研究動向を紹介し、高精度な深層単画像カメラ校正を実現した論文をフカヨミ。 【チュートリアル】 ・ニュウモンAutoML:深層学習のためのAutoMLとして、ニューラル構造探索(NAS)とハイパーパラメータ最適化(HPO)について、代表的な手法を取り上げて解説。 その他、漫画「訳わかめフューチャー」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Summer 2023
    -
    1巻3,300円 (税込)
    【最新動向サーベイ】 ・イマドキノ拡散モデル:拡散モデルに関する最近の研究動向を紹介。基本技術、条件付き生成への拡張、生成の高速化について述べ、拡散モデルを学ぶうえで役立つリソースを紹介。 【論文フカヨミ】 ・フカヨミCLIP:2020年にOpenAIの研究グループによって提案されて以降、さまざまなタスクで利用される基盤モデルとなっているCLIPについてフカヨミ。 ・フカヨミマテリアル画像キャプション生成:近年の代表的な画像キャプション生成手法の概要と課題、そしてその課題を解決するために筆者らがECCV2022で提案した高速かつ高精度な画像キャプション生成手法“GRIT”について解説。 ・フカヨミジェスチャー動画生成:これまでのジェスチャー動作生成手法に関する研究を分類しながら、主要技術と残された課題に触れ、その課題に取り組んだDisCoについての論文およびBEATについての論文の2本をフカヨミ。 【チュートリアル】 ・ニュウモン深層照度差ステレオ法:照度差ステレオ法の基本的な原理と、照度差ステレオ法の研究で現在主流となっているデータ駆動型の手法をわかりやすく解説。 その他、4コマ漫画「ふたり大学生」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー
  • 図解即戦力 画像センシングのしくみと開発がこれ1冊でしっかりわかる教科書
    -
    1巻2,860円 (税込)
    ※この商品はタブレットなど大きいディスプレイを備えた端末で読むことに適しています。また、文字だけを拡大することや、文字列のハイライト、検索、辞書の参照、引用などの機能が使用できません。 CASEやIoT技術の中核を担う画像センシング技術について、わかりやすいフルカラー図解で解説する入門書です。センサーやプロセッサなどのハードウェア面から画像処理・画像認識を行うソフトウェア面まで、画像センシング技術の全体像をこれ1冊で把握できます。ものづくりの最前線で働きたい就活生や転職希望者に役立つ情報が満載です。
  • コンピュータビジョン最前線 Spring 2023
    -
    1巻3,300円 (税込)
    【最新動向サーベイ】 ・イマドキノ植物とCV:植物分野にとってCVは非常に重要な要素技術であり、隣接分野の1つともいえる。本稿では植物分野におけるCVの現状を紹介しつつ、植物特有の興味深い挑戦性から生み出される新たなCV研究の方向性について考える。 【論文フカヨミ】 ・フカヨミEmbodied AI:言語と視覚情報を同時に扱いながら行動に結び付けるEmbodied AI のタスクの中でも難易度の高い、もの探しタスク(ObjectNav)について解説。 ・フカヨミマテリアルセグメンテーション:車両の自動運転・運転支援という文脈においては、マルチモーダル計測を活用した統計的機械学習に基づく素材認識は行われておらず、そのためのデータセットも存在していない。このような現状を打破すべく、マルチモーダル計測を備えた新たなMCubeSデータセットと、それを活用した素材認識ネットワークMCubeSNetを紹介。 ・フカヨミデータ拡張:画像データにおける一般的なデータ拡張から、モデルやデータに合わせて適切なデータ拡張方法を探索し、最適化するデータ拡張探索/手法について解説。 【チュートリアル】 ・ニュウモンニューラル3次元復元:ニューラル3次元復元の大きな枠組み、すなわちフレームワークを理解できるようになることを主な目標し、入力と出力の関係や要素技術の利点、問題点を整理する。その上で、それらのフレームワークを使いながら、どのように要素技術を組み合わせるべきなのかを解説。 その他、4コマ漫画「不思議な鏡」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Winter 2022
    -
    1巻3,300円 (税込)
    【最新動向サーベイ】 ・イマドキノ敵対的学習:敵対的学習とはどのような技術か、最新の敵対的学習ではどのような工夫がなされているか、などを、さまざまな応用手法を踏まえてわかりやすく解説。 【論文フカヨミ】 ・フカヨミ点群解析:3次元点群データがどのようなものであるか、また、点群データを解析する際に考慮しなければならない3つの性質について解説し、近年の点群解析手法がこれらの課題をどう解決しようとしているかを紹介。 ・フカヨミ数式ドリブン点群事前学習:3次元点群を用いた3D物体認識に焦点を置き、CVPR2022で提案された数式ドリブン点群事前学習であるPoint Cloud Fractal Database(PC-FractalDB)についてフカヨミ。 ・フカヨミ3次元物体姿勢推定:物体のRGB画像を用いた3次元物体姿勢推定と精緻化に主眼を当てながら、近年大きな進展を遂げている深層学習ベースの手法について解説。 【チュートリアル】 ・ニュウモン点群深層学習:深層学習を用いて点群データを処理する方法について、基礎となる技術・アイデアを解説し、それらに関する関連研究を俯瞰する。3次元点群を用いたアプリケーションについても簡単に紹介。 その他、4コマ漫画「みかんちゃんの日常」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー
  • Vision Transformer入門
    -
    ※PDF版をご希望の方は Gihyo Digital Publishing (https://gihyo.jp/dp/ebook/2022/978-4-297-13059-6)も合わせてご覧ください。 自然言語処理分野におけるブレイクスルーとなったTransformerをコンピュータビジョンに応用したモデルがVision Transformer(ViT)です。さまざまなコンピュータビジョンのタスクにおいて,ディープラーニングではスタンダードとなっているRNN,CNN,および既存手法を用いた処理精度を上回ることが確認されています。 本書は注目のViTの入門書です。Transformerの成り立ちからはじめ,その理論と実装を解説していきます。今後のViTの活用が期待される応用タスク,ViTから派生したモデルを紹介したあと,TransoformerとViTを分析し,その謎を解明していきます。今後も普及が期待されるViTを盛りだくさんでお届けします。
  • コンピュータビジョン最前線 Autumn 2022
    -
    1巻3,300円 (税込)
    【最新動向サーベイ】 ・イマドキノNeural Fields:なぜNeural Fields はこのような盛り上がりを見せているのか? 従来の信号表現に比べてNeural Fields は何が面白いのか? などの問いについて、技術的な視点からわかりやすく解説。 【論文フカヨミ】 ・フカヨミ非グリッド特徴を用いた画像認識:CNNの内部ではシーンの表現に一様なグリッド状の特徴マップが用いられているが、実世界のシーンを特徴ベクトルの集合で表現する際は、グリッド状の均一な配置ではなく、情報の濃淡に応じた不均一な配置になるのが自然に思われる。このような発想に基づき、グリッドによらない特徴表現によってシーンを認識する手法を紹介。 ・フカヨミ一般化ドメイン適応:教師なしドメイン適応(UDA)の研究動向として近年数多く提案されている派生問題について述べたうえで、多様化するUDAの派生問題を統一的に扱う枠組みとして提案された一般化ドメイン適応(GDA)について、GDA提案者自らが丁寧に解説。 ・フカヨミバックボーンモデル:Vision Transformerもさまざまなタスクを解くためのバックボーンモデルとして活用されつつある。本稿ではVision Transformerを物体検出タスクなどのバックボーンモデルとして活用する手法をフカヨミ。 【チュートリアル】 ・ニュウモン微分可能レンダリング:微分可能レンダリングとはどのような発想に基づくものなのか、「微分可能」であることにどのような価値があるのかを説明し、具体的な応用を幅広く例示したうえで、微分可能レンダリングそのものの技術的課題と解決法、および微分可能レンダリング機能を提供するライブラリを紹介。 その他、4コマ漫画「えーあい*けんきゅうしつ」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Summer 2022
    -
    1巻3,300円 (税込)
    コンピュータビジョン研究の最先端をゆくトップランナーたちが織り成す季刊シリーズ第3号。最新動向のサーベイ、いま注目の最重要論文の深読み、肝となる技術や理論のチュートリアルの3本柱で、実用性・信頼性のある最先端情報を、体系的・網羅的にディープに解説。 最新動向サーベイ記事、「イマドキノ基盤モデル」では、Bommasaniらによって提案された基盤モデル(foundation model)の概念と、自然言語処理やコンピュータビジョン分野の基盤モデルを紹介し、基盤モデルの課題についても解説する。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Spring 2022
    -
    1巻3,300円 (税込)
    コンピュータビジョン研究の最先端をゆくトップランナーたちが織り成す季刊シリーズ第2号。最新動向のサーベイ,いま注目の最重要論文の深読み,肝となる技術や理論のチュートリアルの3本柱で,実用性・信頼性のある最先端情報を,体系的・網羅的にディープに解説。 第2号では,まず,最新動向サーベイ「イマドキノ動画認識」にて,畳み込みニューラルネットワーク(CNN)の動画認識への適用,Transformerをベースにした認識モデルについて紹介。論文フカヨミ記事3本では,単一の画像を入力とする単眼超解像(single image SR; SISR),ディープニューラルネットワーク(DNN)における課題となっている敵対的サンプル,画像を扱うためのTransformerであるVision Transformer(ViT)のそれぞれについて,基礎から分野のトレンドまで,重要論文を紐解きながら詳しく解説。最後にチュートリアル記事「ニュウモンVisual SLAM」にて,以前にも増して注目を集めているVisual SLAMについて(本記事では単眼カメラのVisual SLAMを取り上げる),発展の歴史と基礎を丁寧に解説する。

    試し読み

    フォロー

ユーザーレビュー

新規会員限定 70%OFFクーポンプレゼント!