データ分析入門

View the Project on GitHub ayumu-tanaka/QSS

1. イントロダクション

1.1 本書の概要
1.2 本書の使い方
1.3 R 入門
- 1.3.1 算術演算
- 1.3.2 オブジェクト
- 1.3.3 ベクトル
- 1.3.4 関数
- 1.3.5 データファイル
- 1.3.6 オブジェクトの保存
- 1.3.7 パッケージ
- 1.3.8 プログラミングと学習のヒント

2. 因果関係

2.1 労働市場における人種差別
2.2 R でデータを部分集合化する
- 2.2.2 関係演算子
- 2.2.3 部分集合化
- 2.2.4 単純な条件文
- 2.2.5 因子変数
2.3 因果効果と反事実
2.4 ランダム化比較試験
2.5 観察研究
- 2.5.1 最低賃金と失業
- 2.5.2 交絡バイアス
- 2.5.3 前後比較デザインと差の差 (DiD) デザイン
2.6 1変数の記述統計
- 2.6.1 分位数
- 2.6.2 標準偏差

3. 測定

3.1 戦時における民間人の被害を測定する
3.2 R で欠損データを扱う
3.3 1変量分布の視覚化
- 3.3.1 棒グラフ
- 3.3.2 ヒストグラム
- 3.3.3 箱ひげ図
3.4 標本調査
- 3.4.1 無作為化の役割
- 3.4.2 無回答とその他のバイアス
3.5 政治的分極化を測定する
3.6 2変量関係の要約
- 3.6.1 散布図
- 3.6.2 相関
- 3.6.3 分位数-分位数 (Q-Q) プロット
3.7 クラスター化
- 3.7.2 R のリスト形式
- 3.7.3 k-means アルゴリズム

4. 予測

4.1 選挙結果の予測
- 4.1.1 R でのループ処理 (for 文)
- 4.1.2 R での一般的な条件文 (if 文)
- 4.1.3 世論調査による予測
4.2 線形回帰
- 4.2.1 顔の外見と選挙結果
- 4.2.2 相関と散布図
- 4.2.3 最小二乗法
- 4.2.4 平均への回帰
- 4.2.5 R でのデータセットの結合 (merge)
- 4.2.6 モデルの適合度
4.3 回帰と因果関係
- 4.3.1 無作為化実験
- 4.3.2 複数の予測変数を用いた回帰 (重回帰)
- 4.3.3 異質な処置効果
- 4.3.4 回帰不連続デザイン (RDD)

5. 発見

5.1 テキストデータ
- 5.1.1 「フェデラリスト・ペーパーズ」の著者不明問題
- 5.1.3 トピックの発見
- 5.1.4 著者推定
- 5.1.5 交差妥当性
5.2 ネットワークデータ
- 5.2.1 ルネサンス期フィレンツェの婚姻ネットワーク
- 5.2.2 無向グラフと中心性指標
- 5.2.3 Twitter のフォローネットワーク
- 5.2.4 有向グラフと中心性
5.3 空間データ
- 5.3.1 1854年のコレラ流行の再訪
- 5.3.2 R での空間データ
- 5.3.3 R での色指定
- 5.3.4 米国大統領選挙
- 5.3.5 ウォルマートの拡大

6. 確率

6.1 確率
- 6.1.1 頻度主義 vs ベイズ主義
- 6.1.2 定義と公理
- 6.1.3 順列
- 6.1.4 復元抽出と非復元抽出
- 6.1.5 組合せ
6.2 条件付き確率
- 6.2.1 条件付き確率、周辺確率、結合確率
- 6.2.2 独立性
- 6.2.4 苗字と居住地を用いた人種の推定
6.3 確率変数と確率分布
- 6.3.1 確率変数
- 6.3.2 ベルヌーイ分布と一様分布
- 6.3.3 二項分布
- 6.3.4 正規分布
- 6.3.5 期待値と分散
- 6.3.6 不確実性を伴う選挙結果の予測
6.4 大標本定理
- 6.4.1 大数の法則
- 6.4.2 中心極限定理

7. 不確実性

7.1 推定
- 7.1.1 不偏性と一致性
- 7.1.2 標準誤差
- 7.1.3 信頼区間
- 7.1.4 世論調査における許容誤差とサンプルサイズの計算
- 7.1.5 無作為化比較試験の分析
- 7.1.6 t分布に基づく分析
7.2 仮説検定
- 7.2.1 紅茶テイスティング実験
- 7.2.2 一般的な枠組み
- 7.2.4 2標本検定
- 7.2.5 仮説検定の落とし穴
- 7.2.6 検出力分析
7.3 不確実性を伴う線形回帰モデル
- 7.3.1 生成モデルとしての線形回帰
- 7.3.2 推定係数の不偏性
- 7.3.3 推定係数の標準誤差
- 7.3.4 係数に関する推論
- 7.3.5 予測に関する推論

8. 次の一歩

8.1 再現可能な研究
8.2 研究レポートの執筆
8.3 倫理
8.4 終わりに