片岡裕雄作品一覧

  • Vision Transformer入門
    -
    ※PDF版をご希望の方は Gihyo Digital Publishing (https://gihyo.jp/dp/ebook/2022/978-4-297-13059-6)も合わせてご覧ください。 自然言語処理分野におけるブレイクスルーとなったTransformerをコンピュータビジョンに応用したモデルがVision Transformer(ViT)です。さまざまなコンピュータビジョンのタスクにおいて,ディープラーニングではスタンダードとなっているRNN,CNN,および既存手法を用いた処理精度を上回ることが確認されています。 本書は注目のViTの入門書です。Transformerの成り立ちからはじめ,その理論と実装を解説していきます。今後のViTの活用が期待される応用タスク,ViTから派生したモデルを紹介したあと,TransoformerとViTを分析し,その謎を解明していきます。今後も普及が期待されるViTを盛りだくさんでお届けします。
  • コンピュータビジョン最前線 Winter 2021
    3.0
    コンピュータビジョン研究の最先端をゆくトップランナーたちが織り成す季刊シリーズ創刊!! cvpaper.challengeおよびCVIM研究会全面協力のもと,最新トレンドのサーベイ,いま注目の最重要論文深読み,肝となる技術や理論のチュートリアルの3本柱で,実用性・信頼性のある最先端情報を,毎号ディープに解説。 創刊号のWinter 2021では,まず最新トレンドサーベイ記事「イマドキノCV」で近年のコンピュータビジョン分野において最重要と位置付けられる「データラベルの利活用」や「認識モデルの構築」を扱う。次に論文「フカヨミ」記事を3本掲載し,それぞれ,新規視点画像生成分野で2020年に登場したNeRF,画像処理分野の基本タスクである物体検出技術,いま最も伸びている3D認識アプローチのカテゴリレベル姿勢推定について取り上げる。最後に,チュートリアル記事「ニュウモンVision & Language」で,深層学習の発展とともに盛り上がりを増しているVision & Language(V&L)分野の概要と,現在どのような深層学習手法とその関連手法が使われているかを中心に詳しく紹介する。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Winter 2022
    -
    【最新動向サーベイ】 ・イマドキノ敵対的学習:敵対的学習とはどのような技術か、最新の敵対的学習ではどのような工夫がなされているか、などを、さまざまな応用手法を踏まえてわかりやすく解説。 【論文フカヨミ】 ・フカヨミ点群解析:3次元点群データがどのようなものであるか、また、点群データを解析する際に考慮しなければならない3つの性質について解説し、近年の点群解析手法がこれらの課題をどう解決しようとしているかを紹介。 ・フカヨミ数式ドリブン点群事前学習:3次元点群を用いた3D物体認識に焦点を置き、CVPR2022で提案された数式ドリブン点群事前学習であるPoint Cloud Fractal Database(PC-FractalDB)についてフカヨミ。 ・フカヨミ3次元物体姿勢推定:物体のRGB画像を用いた3次元物体姿勢推定と精緻化に主眼を当てながら、近年大きな進展を遂げている深層学習ベースの手法について解説。 【チュートリアル】 ・ニュウモン点群深層学習:深層学習を用いて点群データを処理する方法について、基礎となる技術・アイデアを解説し、それらに関する関連研究を俯瞰する。3次元点群を用いたアプリケーションについても簡単に紹介。 その他、4コマ漫画「みかんちゃんの日常」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 winter2023
    -
    【最新動向サーベイ】 ・イマドキノ一人称ビジョン:人の身体に軽量小型のウェアラブルカメラを装着し、装着者自身の視点から見た映像を撮影することで自身およびその周辺の環境を理解する一人称ビジョンについて、浅く広く、応用や実践も含めて紹介。 【論文フカヨミ】 ・フカヨミStable Diffusionと脳活動:Stable Diffusionと名付けられた潜在拡散モデルの各要素やプロセスが、脳内の活動とどのように対応しているかを探ることで、生物学的に拡散モデルの解釈を試みた研究について紹介。加えて、新たな深層学習モデルの訓練を必要としないシンプルなデコーディングの枠組みも提案。 ・フカヨミ音響情報のCV応用:本稿では音と画像を活用した研究をおおまかに、意味情報をもつ音響信号を用いて人物姿勢や画像を生成するモデルと、反響音から室内の3次元空間情報を推定するモデルに大別し、それぞれの代表的な研究について解説。 ・フカヨミ潜在空間で画像編集:表現空間における座標系に注目し、生成される画像を高品質に編集できる手法deep curvilinear editing (DeCurvEd) を紹介。 【チュートリアル】 ・ニュウモン拡散モデル:前々号(Summer 2023)掲載の「イマドキノ拡散モデル」では、拡散モデルの基礎を踏まえつつも、最新の研究動向を体系的に広く紹介することに主眼に置いた。今回はチュートリアル記事として前回よりさらに大きく紙面を割き、爆発的な進展の中で登場した数多くの技術の中でも特に広く使われているものを中心に、そのアイデアや技術の詳細を紹介。 その他、漫画「君も魔法をかけてみよう!」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Autumn 2022
    -
    【最新動向サーベイ】 ・イマドキノNeural Fields:なぜNeural Fields はこのような盛り上がりを見せているのか? 従来の信号表現に比べてNeural Fields は何が面白いのか? などの問いについて、技術的な視点からわかりやすく解説。 【論文フカヨミ】 ・フカヨミ非グリッド特徴を用いた画像認識:CNNの内部ではシーンの表現に一様なグリッド状の特徴マップが用いられているが、実世界のシーンを特徴ベクトルの集合で表現する際は、グリッド状の均一な配置ではなく、情報の濃淡に応じた不均一な配置になるのが自然に思われる。このような発想に基づき、グリッドによらない特徴表現によってシーンを認識する手法を紹介。 ・フカヨミ一般化ドメイン適応:教師なしドメイン適応(UDA)の研究動向として近年数多く提案されている派生問題について述べたうえで、多様化するUDAの派生問題を統一的に扱う枠組みとして提案された一般化ドメイン適応(GDA)について、GDA提案者自らが丁寧に解説。 ・フカヨミバックボーンモデル:Vision Transformerもさまざまなタスクを解くためのバックボーンモデルとして活用されつつある。本稿ではVision Transformerを物体検出タスクなどのバックボーンモデルとして活用する手法をフカヨミ。 【チュートリアル】 ・ニュウモン微分可能レンダリング:微分可能レンダリングとはどのような発想に基づくものなのか、「微分可能」であることにどのような価値があるのかを説明し、具体的な応用を幅広く例示したうえで、微分可能レンダリングそのものの技術的課題と解決法、および微分可能レンダリング機能を提供するライブラリを紹介。 その他、4コマ漫画「えーあい*けんきゅうしつ」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Autumn 2023
    -
    【最新動向サーベイ】 ・イマドキノバーチャルヒューマン:XR分野におけるバーチャルヒューマンにかかわる技術の中でも、人間の全身構造や形状の把握に主眼を置いた代表的な研究について紹介。今後の見通しについても触れる。 【論文フカヨミ】 ・フカヨミオープンワールド物体検出:筆者らがECCV2022で提案したオープンワールド物体検出のための手法LDETについて解説。既存手法の欠点を克服するためのデータ拡張、および学習フレームワークを提案し、さらなる発展についても言及。 ・フカヨミマルチフレーム超解像:シングルイメージ超解像を含む超解像分野全体の概観から始め、マルチフレーム超解像に関する最新の研究について紹介。 ・フカヨミ深層単画像カメラ校正:1枚の入力画像のみで歪みと傾きを高精度に校正する深層単画像カメラ校正の研究動向を紹介し、高精度な深層単画像カメラ校正を実現した論文をフカヨミ。 【チュートリアル】 ・ニュウモンAutoML:深層学習のためのAutoMLとして、ニューラル構造探索(NAS)とハイパーパラメータ最適化(HPO)について、代表的な手法を取り上げて解説。 その他、漫画「訳わかめフューチャー」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Summer 2022
    -
    コンピュータビジョン研究の最先端をゆくトップランナーたちが織り成す季刊シリーズ第3号。最新動向のサーベイ、いま注目の最重要論文の深読み、肝となる技術や理論のチュートリアルの3本柱で、実用性・信頼性のある最先端情報を、体系的・網羅的にディープに解説。 最新動向サーベイ記事、「イマドキノ基盤モデル」では、Bommasaniらによって提案された基盤モデル(foundation model)の概念と、自然言語処理やコンピュータビジョン分野の基盤モデルを紹介し、基盤モデルの課題についても解説する。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Summer 2023
    -
    【最新動向サーベイ】 ・イマドキノ拡散モデル:拡散モデルに関する最近の研究動向を紹介。基本技術、条件付き生成への拡張、生成の高速化について述べ、拡散モデルを学ぶうえで役立つリソースを紹介。 【論文フカヨミ】 ・フカヨミCLIP:2020年にOpenAIの研究グループによって提案されて以降、さまざまなタスクで利用される基盤モデルとなっているCLIPについてフカヨミ。 ・フカヨミマテリアル画像キャプション生成:近年の代表的な画像キャプション生成手法の概要と課題、そしてその課題を解決するために筆者らがECCV2022で提案した高速かつ高精度な画像キャプション生成手法“GRIT”について解説。 ・フカヨミジェスチャー動画生成:これまでのジェスチャー動作生成手法に関する研究を分類しながら、主要技術と残された課題に触れ、その課題に取り組んだDisCoについての論文およびBEATについての論文の2本をフカヨミ。 【チュートリアル】 ・ニュウモン深層照度差ステレオ法:照度差ステレオ法の基本的な原理と、照度差ステレオ法の研究で現在主流となっているデータ駆動型の手法をわかりやすく解説。 その他、4コマ漫画「ふたり大学生」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Spring 2022
    -
    コンピュータビジョン研究の最先端をゆくトップランナーたちが織り成す季刊シリーズ第2号。最新動向のサーベイ,いま注目の最重要論文の深読み,肝となる技術や理論のチュートリアルの3本柱で,実用性・信頼性のある最先端情報を,体系的・網羅的にディープに解説。 第2号では,まず,最新動向サーベイ「イマドキノ動画認識」にて,畳み込みニューラルネットワーク(CNN)の動画認識への適用,Transformerをベースにした認識モデルについて紹介。論文フカヨミ記事3本では,単一の画像を入力とする単眼超解像(single image SR; SISR),ディープニューラルネットワーク(DNN)における課題となっている敵対的サンプル,画像を扱うためのTransformerであるVision Transformer(ViT)のそれぞれについて,基礎から分野のトレンドまで,重要論文を紐解きながら詳しく解説。最後にチュートリアル記事「ニュウモンVisual SLAM」にて,以前にも増して注目を集めているVisual SLAMについて(本記事では単眼カメラのVisual SLAMを取り上げる),発展の歴史と基礎を丁寧に解説する。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Spring 2023
    -
    【最新動向サーベイ】 ・イマドキノ植物とCV:植物分野にとってCVは非常に重要な要素技術であり、隣接分野の1つともいえる。本稿では植物分野におけるCVの現状を紹介しつつ、植物特有の興味深い挑戦性から生み出される新たなCV研究の方向性について考える。 【論文フカヨミ】 ・フカヨミEmbodied AI:言語と視覚情報を同時に扱いながら行動に結び付けるEmbodied AI のタスクの中でも難易度の高い、もの探しタスク(ObjectNav)について解説。 ・フカヨミマテリアルセグメンテーション:車両の自動運転・運転支援という文脈においては、マルチモーダル計測を活用した統計的機械学習に基づく素材認識は行われておらず、そのためのデータセットも存在していない。このような現状を打破すべく、マルチモーダル計測を備えた新たなMCubeSデータセットと、それを活用した素材認識ネットワークMCubeSNetを紹介。 ・フカヨミデータ拡張:画像データにおける一般的なデータ拡張から、モデルやデータに合わせて適切なデータ拡張方法を探索し、最適化するデータ拡張探索/手法について解説。 【チュートリアル】 ・ニュウモンニューラル3次元復元:ニューラル3次元復元の大きな枠組み、すなわちフレームワークを理解できるようになることを主な目標し、入力と出力の関係や要素技術の利点、問題点を整理する。その上で、それらのフレームワークを使いながら、どのように要素技術を組み合わせるべきなのかを解説。 その他、4コマ漫画「不思議な鏡」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー
  • コンピュータビジョン最前線 Spring 2024
    -
    【最新動向サーベイ】 ・イマドキノデザイン生成:コンピュータグラフィックス領域の技術が多分に活用されているグラフィックデザインの理解と生成において、個別の対象ごとにどのようなタスクが存在し、どういったアプローチが取られているのかを研究事例ベースで広く紹介。 【論文フカヨミ】 ・フカヨミ様々な入力と人物状態推定:人物の姿勢や形状などの様々な状態を推定するタスクである人物状態推定に関する研究を紹介。特に、計測対象人物(ユーザ)が計測用デバイスやマーカーなどを身につける必要がない非侵襲的な計測に基づき、かつ、一般的なRGB 動画像を入力としないものについて概説する。 ・フカヨミレイアウト生成:レイアウトと呼ばれる構図表現について紹介。まずレイアウトに関する基礎知識を述べた後に、利用者の意図に沿いながらレイアウトそのものを自動生成する研究の最近の動向と課題を紹介。そして筆者がCVPR2023 で発表した、LayoutDMという、 単一のモデルで様々な手がかりからのレイアウト生成を実現する手法について解説。 ・フカヨミAIに潜むバイアス:特にビジョンと言語の話題に的を絞り、DNN が持つバイアスについて議論する。まず、モデルが持つバイアスとは一体どのようなものなのかを明らかにし、その上で画像のキャプショニング(画像とテキストのペア) やVQA のデータセット自体が内包するバイアスを例示。その上で、画像のキャプショニングのタスクにおいてある種のバイアスを低減する手法を紹介する。 【チュートリアル】 ・ニュウモンData-Centric AI:Data-Centric AI(DCAI)が注目を集めるきっかけとなったAndrew Ng氏の講演「A Chat with Andrew on MLOps:From Model-Centric to Data-Centric AI」の概要について述べた後、DCAIにおける取り組みの中からデータセットの拡大と改善という2つの大きなテーマにフォーカスし、それぞれの代表的な手法を紹介。 その他、新たに参画したジュニア編集委員による「ココカラ研究者紹介」、漫画「ロット谷への降下」、CV分野の学会・研究会・国際会議の開催日程や投稿日が一挙にわかる「CVイベントカレンダー」を掲載。

    試し読み

    フォロー
  • 図解即戦力 画像センシングのしくみと開発がこれ1冊でしっかりわかる教科書
    -
    ※この商品はタブレットなど大きいディスプレイを備えた端末で読むことに適しています。また、文字だけを拡大することや、文字列のハイライト、検索、辞書の参照、引用などの機能が使用できません。 CASEやIoT技術の中核を担う画像センシング技術について、わかりやすいフルカラー図解で解説する入門書です。センサーやプロセッサなどのハードウェア面から画像処理・画像認識を行うソフトウェア面まで、画像センシング技術の全体像をこれ1冊で把握できます。ものづくりの最前線で働きたい就活生や転職希望者に役立つ情報が満載です。

最近チェックした本