自然言語処理の教科書
著:小町 守
出版社:技術評論社
Input 自然言語 ⇒ 処理??? ⇒ Output ??? という本である。
■処理について
① Input 日本語 ⇒ 機械翻訳 ⇒ Output 英語
② Input メール ⇒ 文書分類 ⇒ Output スパム? yes/no
③ Input 文字列 ⇒ 単語分割 ⇒ Output 単語列
④ Input 作文 ⇒ 品質推定 ⇒ Output 添削後の作文
■アプローチ
①ルールベース
②統計ベース
③機械学習ベース
教師あり学習
教師なし学習
クラスタリング
トピックモデル
半教師あり学習
遠距離教師あり学習
弱教師あり学習
データプログラミング
④深層学習ベース 大規模言語モデル LLM
エンコーダ・デコーダモデル
リカレントニューラルネットワーク
自己教師あり学習
事前学習モデル
プロンプトエンジニアリング
機械学習 ⇒ GPUの性能向上、多層(4段以上)のニューラルネットワークの計算 ⇒ 深層学習
■データ
辞書
コーパス
メタデータ(データを説明するための付属情報)
■分類・回帰問題
① Input 文章 ⇒ 評価 ⇒ Output yes/no
② Input 文書 ⇒ 文書分類 ⇒ Output ラベル(アニメ、小説等)
③ Input 文章 ⇒ 品質推定 ⇒ Output カバー率(86%等)
■系列ラベリング問題
① Input リスト ⇒ 評価 ⇒ Output ラベル
② Input 文字列 ⇒ 単語分割 ⇒ Output 単語単位に分割
③ Input 単語 ⇒ 品詞推定 ⇒ Output 品詞
④ Input 文章 ⇒ 誤り検出 ⇒ Output スペリングミス、文法ミスを修正した文章
■系列ラベリング問題
① Input 文書類 ⇒ 文書要約 ⇒ Output 要約文
② Input 日本語 ⇒ 機械翻訳 ⇒ Output 英語
③ Input 問いかけ ⇒ チャットボット ⇒ Output 返事
■言語資源
辞書
アノテーション(メタデータを付与:単語にコメントを付ける)
コーパス
ツール
目次
はじめに
第1章 自然言語処理システムのデザイン
1-1 入力と出力を決定する
1-2 アプローチ:どのように解くか決定する
1-3 データ:辞書やコーパス
1-4 評価:評価尺度とエラー分析
1-5 フロー:自然言語処理システムの開発サイクル
1-6 まとめ
第2章 分類・回帰問題の解き方
2-1 評価極性分析:ポジネガを判定する
2-2 文書分類:記事の自動分類
2-3 文章の品質推定:人手で書いた文章の品質を推定する
2-4 演習:品質推定
2-5 まとめ
第3章 系列ラベリング問題の解き方
3-1 固有表現認識:固有表現を見つける
3-2 形態素解析:単語分割・品詞推定・見出し語化
3-3 誤り検出:誤り箇所の検出と訂正
3-4 演習:文法誤り検出・訂正
3-5 まとめ
第4章 言語生成問題の解き方
4-1 文書要約:長い文章の要点をまとめる
4-2 機械翻訳:同じ意味の別の言語で表現する
4-3 対話:チャットのやり取りをする
4-4 演習:機械翻訳
4-5 まとめ
第5章 言語資源のつくり方
5-1 言語資源の入手方法
5-2 言語資源構築のデザイン:継続的な品質管理
5-3 辞書作成
5-4 コーパス作成
5-5 ツールキット作成
5-6 演習:フレーズ分類ラベルアノテーション
5-7 まとめ
参考文献
関連論文
あとがき
索引
著者プロフィール