【日次GDP】日本におけるGDPナウキャスティングの論文サーベイ - 東京の投資顧問会社で働く社会人が研究に没頭するブログ

おはおんばんにちは。日次GDP予測やっていますが、なかなか当たらないですね。Giannoneたちの論文ではあんなに当たっていたのになぜなんでしょう。調べてみると、日本でもGDP等のナウキャスティングを実践する論文がいくつかあるようで、今回は先人たちの知恵にあやかろうということでサーベイを行いたいと思います。

① New Monthly Estimation Approach for Nowcasting GDP Growth: The Case of Japan（日銀ワーキングペーパー）

日本銀行の原さんと山根さんがによる研究で、約５００個の経済統計から月次GDPを推計する論文となっています。彼らのモデルの特徴は大きく２点です。１点目は経済統計を一気に主成分にかけるのではなく、鉱工業生産（製造業）と第3次産業活動指数（サービス業）だけは独立した説明変数としつつ、他の５００個近い経済統計は抽出した主成分説明変数として使用している点です。つまり、鉱工業生産（製造業）と第3次産業活動指数（サービス業）はGDPの大部分を説明するものとして、他の変数と独立して用いているということです。２点目は他の５００個の経済統計を需要項目、供給項目に分別し、また需要項目は消費、投資など細かいセクター分けをした後、それぞれをグループで主成分分析を行っている点です。また、GDP統計と同時点の説明変数を用いているのも特徴です。具体的に見ていきましょう。まず、その他４７３系列の経済統計の中から鉱工業生産と第3次産業活動指数と相関のない部分を抽出します。以下の式をOLS推計します。

$x_{t,m}^{i} = \alpha_0^{i}+\alpha_1^{i}dlog(IIP_{t,m})+\alpha_2^{i}dlog(ITA_{t,m})+\epsilon_{t,m}^{i}$

ここで、 $x_{t,m}^{i}$ は四半期 $t$ の第 $m$ ヶ月目の[tex;i]番目の経済変数になります（レベルのものはレベルのまま推計）。その結果、473個の $\epsilon_{t,m}^{i}$ が推計できますが、これは鉱工業生産ならびに第3次産業活動指数とは相関のない部分となります（というかOLSの定義がそうなだけで実際相関がないとはいえない気がしますが）。これらの残差を主成分にかけるわけですが、先述の通りこの論文ではGDPの統計マニュアルに従い、これらを需要項目と供給項目に振り分け、それぞれに主成分をかけます。また、需要項目については、①消費、②投資、③国際貿易、④その他需要項目にセクター分けをし、供給と合わせて計５つのセクターでそれぞれ６つの主成分を抽出します。そして、以下の式をOLS推計します。

$y_{t} = \beta_{0} + \beta_{1}dlog(IIP_{t}) + \beta_{2}dlog(ITA_{t}) + \beta_{3}p_{t}^{c} + \beta_{4}p_{t}^{i} + \beta_{5}p_{t}^{x} + \beta_{6}p_{t}^{o} + \beta_{7}p_{t}^{s} + \eta_{t}$

ここで、 $y_{t}$ は季節調整済みの四半期GDP速報値、 $p_{t}^{z}$ は主成分であり、それぞれ消費、投資等上述したセクターを表しています。主成分は全部で３０個あるので、説明変数の選択としては $6^{5}$ 通りの組合せがあります。この論文では、AICが最も高くなる組合せを推計結果としています。ここで推計した係数を使って、月次GDPを推計していきます。推計式は四半期ベースなので、それを月次ベースに変換する必要があります。変換は以下の方程式を使用します。

$y_{t} = \frac{1}{3}(z_{t,1}+z_{t,2}+z_{t,3})$

ここで、

$z_{t,1}=y_{t-1,2}+y_{t-1,3}+y_{t,1}$

$z_{t,1}=y_{t-1,3}+y_{t,1}+y_{t,2}$

$z_{t,1}=y_{t,1}+y_{t,2}+y_{t,3}$

です。 $y_{t,m}$ は単月のGDP成長率、 $z_{t,m}$ は3カ月リンクしたGDP成長率の近似値を表しています。ここから、先ほどの推計式を月次版に修正したものを用いて、月次GDPを推計します。

$\hat{y}_{t,m}=\frac{1}{3}\hat{\beta}_{0} + \hat{\beta}_{1}dlog(IIP_{t,m}) + \hat{\beta}_{2}dlog(ITA_{t,m}) + \hat{\beta}_{3}p_{t,m}^{c} + \hat{\beta}_{4}p_{t,m}^{i} + \hat{\beta}_{5}p_{t,m}^{x} + \hat{\beta}_{6}p_{t,m}^{o} + \hat{\beta}_{7}p_{t,m}^{s}$

ハットがついているものは推計値を表しています。上式で計算した当該四半期の $\hat{y}_{t,m}$ を平均することで、四半期のGDPを計算します。なお、月次鉱工業生産指数はラグがあるため、その予想値と日本版PMIにより計算した推計値を使用しています。また、第3次産業活動指数も同様に推計値を使用しています。推計結果はまずまずで、もっともよいモデルでは自由度修正済み決定係数が0.921となっており、またリーマンショックや東日本大震災時の鋭い下落もとらえることが可能であるようです。また、エコノミストたちの予想値よりも的中率が高い結果も得られたようです。この論文では、二次速報値の推計も行っています。これまでの鉱工業生産と第3次産業活動指数に加え、法人企業統計の設備投資、投資項目、その他需要項目、供給項目の主成分を新たに説明変数に追加し、推計を試みています。その結果、法人企業統計の設備投資が速報値修正の大部分を担っていることがわかりました。また、こちらもエコノミストたちの予想より予測力が高い結果となりました。

② 景気判断における検索データの利用可能性（BOJ Reports & Research Papers）

日本銀行の白木さん、松村さん、松本さんによる論文です。こちらは経済統計ではなく、Google Trendで提供されているネット上の検索結果を用いて、観光庁「旅行業者取扱額」を説明しようとしています。このデータはGoogleの検索エンジンで任意の語句が検索された頻度を示す時系列データであり、週次データで2004年から公開されています（無料）。この論文では、Google Trendがセクター分けした「旅行カテゴリ」の語句（テーマパーク、ホテル、旅行代理店等）を月次データに変換し、季節調整をかけたものを使用しています。そして、それら21系列のデータを主成分分析で次元圧縮をしたものと景気ウォッチャー調査を説明変数とした以下の推計式で推計を行っています。

$旅行取扱額（前期比）= \alpha + \beta 検索データ第１主成分１ + \gamma 景気ウォッチャー調査（前期差） + \epsilon$

その結果、このモデルの予測力は景気ウォッチャー調査だけを説明変数として用いた推計式とあまり変わらないものの、リーマンショックや東日本大震災の鋭い落ち込みは良いことが示されています。

③国会議事録を用いた経済指標のナウキャスティング（DBSJ Japanese Journal）

早稲田大学の高杉さんと山名さんの論文です。この論文は上の二つと違い、テキストマイニング手法を用いて経済指標をナウキャストしています。具体的には、国会議事録の発言内容を一カ月ごとに分けたトレーニングデータを形態素解析にかけ、動詞、名詞、形容詞、副詞を抽出します。そして、それらをもとに一文単位でn-gramを作成します。なお、nをいくらにするかは被説明変数とする経済指標毎に最も予測力が高くなるよう探索的に調整をしています。最終的には、 $I$ 種類のn-gramの出現回数を説明変数とするのですが、出現回数はトレーニングデータ毎に総和を取り、サンプル機関24カ月のパネルデータとしています（閾値を設定し、出現回数が極端に少ないものは除外）。次に、予測モデルの精度を上げるためにn-gramの数を絞ります。予測したい敬座指標とのピアソンの相関係数を計算し、閾値を超えるものに絞り込んだうえで、主成分分析を実行し、説明変数を絞り込みます。そうして絞り込んだ出現回数を説明変数、経済指標を被説明変数とした重回帰分析を行い、予測モデルを推定します。推計結果はまずまずといった感じで、AR(1)モデルによる推定よりも良いといった感じです。