西田圭介のレビュー一覧
-
Posted by ブクログ
最近(というほど最近でもないかもしれないけど)、BigDataなるキーワードが脚光を浴びているので、事前知識を得るために読んでみました。
ざっくりと概念的に、Google検索がどういうことをやっているのかということがわかるとともに、GFS、MapReduceという大規模分散データ処理を扱う仕組みがわかりました。
また、本書では基本的にざっくりとした構造・仕組みの説明をしているのですが、随所に原典論文URLが書かれていて、詳しく調べるのにも便利だと思います。(自分は、たぶんそこまで読み込まないけどw)
わかりやすく、内容も適度な詳細さですので、私はかなりの良書だと思います。 -
Posted by ブクログ
最初に本書の内容はほぼ全てgoogleの発表した論文にあり、英語が読めない人にとってはいい本。
googceのシステムがどのようにして、分散化システムを構築し、そのハードウエアの持てるパワーをいかにひきだしているかがわかる。Googleの検索能力の早さは使用している人ならわかるが、それを支える技術力というのは想像を絶する。
中でも興味深いのは、Googleは
一度検索するとコーヒー2杯分のお湯が沸くといわれるほど電力消費が激しいと言われているが、そのサーバの電力は緻密に計算された上での、最低限の電力消費であり、最高に高いの電力効率で運営されている事がわかる。 -
Posted by ブクログ
現在のIT業界を牽引するとも言える企業のGoogle。
そのGoogleのビジネスの根底にあるものは当然ITとしての基盤と技術。
それを公開されている確かなる情報を基に、
丁寧にわかりやすく解説、まとめてくれている。
クラウドコンピュータから、CPUの電源効率まで、一挙大公開。
元々がまとまっているから、要約しにくい・・・。
以下ほぼ単語抜粋。
○Google的意味のあるページの評価基準(今は昔)
−PageRank:ページリンクを得点する
−アンカーテキスト:アンカーされていたら得点する
○インデックス構造:文字を数値にすることで二つのメリット
−コンパクトになり、ディスクのシー -
Posted by ブクログ
一通りデータ処理する基盤構成はわかった。
具体的にデータ分析基盤を作り込むときに、どのような製品を使用するか/どう作り込むかのイメージはまだつかない。
たとえば、
・データレイク/データウェアハウス/データマートのそれぞれの概念はわかったが、それにあたる製品/ツールのマッピングや作り込み方、それぞれの連携のさせ方はイメージがつかない。
・ETLはデータ加工するという概念的なものだと思うが、どのように加工するものなのかわからない(非構造化データを構造化データにすることなのか、それ以外の何かしらの加工も含むのか、、)
など。
実際に手を動かしてみないと、イメージは掴めなそう。 -
Posted by ブクログ
googleの検索レスポンスは恐ろしく速い。私は仕事柄、どんなソフトを見ても、なんとなくその構造を想像できるが、googleだけは全くわからない。なぜ、あれほど堅牢に、あれほど正確、あれほど速いのか?それに答えるのが本書である。 まず、最初に一般的な検索サイトの技術要件をて定義し、googleの検索システムの概要説明を行う。大枠のアーキテクチャがなんとなくわかったところで、システムの重要な概念、モジュールであるgfs、bigtabel、MapReduceなどの詳細を解説。ここでのキーワードは、「大容量」である。googleのシステムは、全世界からダウンロードしてきた大量データに特化したアーキテ
-
Posted by ブクログ
ネタバレ「ハードディスクはいつ壊れるか」
年間平均故障率(AFR)…いつどこで作られたかが重要
利用頻度には相関がみられない
温度は低い方が故障しやすい傾向(25℃以下)
故障率に大きく影響するSMART値
①スキャンエラー、②リアロケーション数、③オフラインリアロケーション、④リアロケーション前のセクタ数(ProbationalCount)
SMART値に関係なくいきなり壊れるものもある。
すべてを予測するのは難しく、壊れる前提での設計が必要。
「Googleのソフトウェア開発」
小人数(2~6人)のプロジェクトチーム
就業時間の20%を新しいことに費やす20%ルール
コードレビューを通じてコーデ -
Posted by ブクログ
ネタバレフォトリーディングNo.53
目的:Google技術をおさらい
トリガーワード:Web検索エンジン、インデックス、クローラ、ランキング、データセンター、クラスタ、分散、GFS、マスタ、チャンクサーバ、クライアント、レコード、スナップショット、障害対策、ビッグテーブル、タブレットサーバ、キャッシュ、コミットログChubby、バックアップ、ロック、イベント、MapReduce、キー、値、シャッフル、分散、grep、分散ソート、アグリゲータ、電力、クロック周波数、SMART値、開発、コードレビュー
質問:①インデックスをどのようにつくって使うのか?
②Googleの初見重要そうな技術は?
~