構造推定をしたい匿名学生の実地体験ルポ (2) 火のない所に煙は立たぬ。第二章～データを集めるまで（前前前処理パート）

下記の

第二章～データを集めるまで（前前前処理パート）

に関する手記が届いたので公開する。

ohtanilson.hatenablog.com

構造推定を最終目標としたとき、データをどのように集めまとめるか、という（前前前処理パート）をできるだけ構造的に書いてみる。この段階では、すでに研究プロポーザルがある程度固まって、データにもあてがある状態。なので、準備不足ならば第一章～データを得るまで（制度知識＋経済理論パート）に戻る。

ohtanilson.hatenablog.com

第二章～データを集めるまで（前前前処理パート）

まず

難所1. データセットはどういう形でどういう範囲でどういう観察単位で集められるか、スクレイピングなりアナログなりどんな手法で集めるか（前処理の前処理の前処理）

難所2.上で作ったraw dataをどういうtidydataに処理するか（前処理の前処理）

をどのように対処するか。

第一に、観察単位と収集手法はデータソースに依存するので適宜対応するしかないが、クローリング、OCR、スクレイピング等でできるだけ自動化できることが望ましい。できない場合は、この時点で人を雇うコストが死ぬほどかかる。以後のcleaned dataに落とし込むステップを想定した集め方をする必要があるので、ここでも次のステップからbackwardで前処理しやすいかつ収集ミスしにくいフォーマットで集める必要がある。

第二に「raw dataをどういうtidydataに処理するか」の最適解は「input dataはraw dataの状態をできるだけフォーマットもそのままcsvにまとめる、分析に使うデータはcleaned dataとして、（できるだけハードコーディングを避けて）前処理コードを書く。以降の分析には、cleaned dataしかアクセスしない。」。ここでraw dataをマニュアルでエクセル上で変換してcleaned dataの数値を作って埋める、なんていう悪魔の所業をしては絶対にならない！（そんな悪魔なお前に神エクセルをDisる資格はない！）

コードを回せば前処理が完了する、修正したら修正が反映されるという、前処理の再現性はリサーチャー側で確保しよう。

個人的には実証分析での一番の博打要素が

難所3.誘導形や基本統計量からデータの傾向をみて、第一章で立てた理論モデルとそれなりに予想通りかどうか。操作変数等はそれなりに機能していそうか。

である。この対処方法も最近システマチックにまとめられている。

今月のJEPに実証ミクロ論文の書き方が載ってる。院生の方に特に重要。ポイントは、1.記述統計でデータをしっかり見せる、2.記述的分析でざっとエビデンスを示す、3.何をモデルにし何をしないかをデータから示す、4.モデルを用いてより深い洞察を、5.反実仮想は2に結びつける。https://t.co/2kwEUtcMcw
— Kosuke Uetake (@Chanman_ECON) August 11, 2022

基本姿勢は「火のない所に煙は立たぬ、なのでまず火を見つけろ」ということ。上記のJEPの論文内ではFive principlesの各ポイントについて

1.kinkや不連続など、Data Variationを示す

2.リサーチクエッションに必要な記述的結果だけ出す（無関係な結果は無駄）

3.記述的結果がモデリングの妥当性をする形でModel sectionにつなげる。記述的結果がない無闇に複雑な要素（strategic interaction）などは入れない。

4.明確にthe Value-Added of the Modelを強調する。誘導形だけじゃだめなのだ、と読者を説得する。

5.Choose Parameters of Interest and Counterfactuals That Are Informed by Your
Variation.注意点として、反実仮想と経済学的パラメタの解釈は短い時間で後付けで片付けては絶対いけない！一番丁寧にやるべき箇所である。

他にもJEPではData-Then-Model or Model-Then-Data?というセクションで両手法のいいところ悪いところがまとめられている。

結局は我々はここでもトレードオフを考えるのである(At each stage in the paper, you are offering the reader a deal: if you accept some additional assumptions, then I will provide you with additional results. If the reader is willing to accept assumptions about the validity of the empirical approach, you can offer causal estimates. If the reader is willing to accept additional assumptions about the economic environment, you
can deliver additional results in terms of economic parameters, counterfactuals,
or welfare.)

難所4.カリブレーションするパラメタと推定(識別)する予定のパラメタを想定したデータセット（行動変数、状態変数、説明変数、被説明変数）になっているかどうか

この対処は、モデルとその識別仮定に依存する。ただし、ミクロ理論家が想定する変数がデータで観察できない場合が多いのでここは要注意である。例えば、不完備情報ゲームにおけるInformationに関しては完全対応するデータは手に入らない（だからゲームの情報の設定を仮定する）。交渉ゲームにおけるナッシュ交渉解の分配パラメタも完全対応するデータは手に入らない（だからカリブレーション＆Sensitivity checkする）。オークションにおける各bidderのもっているWillingness to payも完全対応するデータは手に入らない（だからノンパラ識別仮定のもとでWillingness to payを復元する）。このように、見えていて欲しいデータはそう簡単に見つからない。経験的に、(割引因子パラメタ以外に)カリブレーションが許されるパラメタは1つまで、観察不可能なkey term（例えばオークションのWillingness to pay）が復元できるのは1種類まで、なので要注意。

難所5.エラーが入るのはどのレベル（複数階層、相関有無、分布指定有無）と想定しているのか

この対処はテクニカルに非常に厄介である。例えば、離散選択モデルでよく効用内の観察不可能なエラー項の分布をi.i.d logit distributionに特定化する。これをすることで選択シェア、消費者厚生が解析的に得られる最高すぎる仮定なのだが、分野によっては選択肢間でエラー相関を許して多次元正規分布にしたり、セミパラにしたり、ノンパラにしたりとテクニカルな拡張が沢山提示されている。ただし、リサーチクエッションが手法面でなく応用面にある場合、上述のトレードオフを理由に、エラー云々の仮定を難しくすることはほとんどない。ただ研究者によってはここを異常に気にする人も沢山いるので流派による。