目次
データマイニングとか、スクレイピングに関する記事を見てると、必ず数式が出てくる
まえの記事で、ビットコインやFXの売買についてやってみようかなーとおもったんですが、やはり投資やチャートの動き、社会情勢などいろいろ勉強する必要があると思ったので、優先度を落として他のことをやすことにしました。
どうせ勉強しなきゃいけないなら、統計学やデータ処理について学びたいと思いましたので、勉強したいと思います。
スクレイピングした情報を加工する際に、必ずなんらかの数式が出てきます。
「うっ」と思ってそこで思考が止まってしまうことが多かったので、せっかく暇な今の時期に勉強してしまおうと思いました。
本屋に行って見てビックリしたのですが、統計学の本ってめちゃくちゃ多いんですね!
100種類ぐらいあるし、確率やらその他細分化された関連書籍もそれぞれ同じくらいの種類がある・・・。
それだけ需要があるし、売れるし、習得し難いんだろうな・・・と思いました。
本を選ぶよ
文系でも仕事に使える統計学はじめの一歩【電子書籍】[ 本丸諒 ] 価格:1,728円 |
価格:1,706円 |
統計学が最強の学問である データ社会を生き抜くための武器と教養 [ 西内啓 ] 価格:1,728円 |
これらを買ってきました。
今から読みまくります。
ちょっと読んだのでメモしていくよ
ちょっと読んだのでメモしていきます。
以下はテキトーにメモしてるだけなので、正確な情報が欲しい人は本を読んだ方がいいです。
統計学って何
データをうまいこと使うための知識って感じでした。
・全数調査しなくても、サンプリングでも問題ない。
・少ないデータから数値を推測することも可能
・感覚でなく、データから正しいと思われる結論を導ける。
値がいっぱいありすぎても扱いにくい。
「代表値」を使う。
平均値
全ての数値を足して、個数でわる。
中央値
個数だけ見て真ん中の値。(奇数の場合は中央2つの値の平均をとる)
(飛び抜けて少ない、多い値がある場合に強い)
最頻値
もっとも多く出てきた数値
(データ的には扱いにくい)
四分位数/箱ひげ図
データ個数で四分割して、データのばらつきを表現するための方法
偏差
数値の平均値との差を表したもの。
偏差を全て合計すると、0になる。
平均偏差
偏差をすべて正の値ににして足して個数で割ったもの。
ばらつきを示す数字。ただし、下の標準偏差が一般的に使われ、こちらはあまり出てこない。
分散
正の値にするために数値を二乗して合計し、個数で割ってでてくる値。
ばらつきを表す一般的な値。
分散の公式
わけわからん文だけど、大したことはやってないってのがわかりました。
標準偏差
分散の二乗をもとにもどしたやつ
正規分布
山形のヒストグラムを描くやつら
平均、標準偏差でグラフが動く。変わる。
正規分布表の面積で確率を得ることができる。