データジャーナリズムの作品を完成

先日、参加したデータジャーナリズムキャンプ&アウォード2103でテームを編成し、一ヶ月間かけてオープンデータを解析し、記事を作成しました。

えっ!ごみ排出量と外国人が日本の活性化に重要?データ解析で分かった意外な日本社会の構造と安全の影響因子

チームは、ジャーナリスト、アナリスト、エンジニア、デザイナーの四人です。私はエンジニアとして、参加しましたが、かなりアナリスト寄りの仕事を担当しました。
チーム名はデータ・ギャラクシーで、解析結果の図がまるで、宇宙の銀河のように見えるので、そのように名づけました。

記事の概要は以下の通りです。

日本は国際的にも安全の国と言われているが、実は安全とはどのような要因に影響受けるのか分かっていない。安全性を示す代表的指標として、犯罪率をとり、経済、社会、教育、労働などに属する127項目の要因をとり上げて、要因間の関係性を解析してみた。

犯罪率との高い相関係数を示す要因は「人口密集度」と「分類不能の産業の従事者数」だった。外国人率との相関係数はやや高かった。全要因のネットワーク分析を行ったところ、日本全体ではきれいに都会と地方の要因群に分かれた。

中心部では「ごみ排出量」「商業従事者」「飲食店」が非常に高いbetweenness示し、ハブ(いわば太陽に)として両側の都会と地方を繋ぐパイプ的役割をしていた。しかし、東京の場合、外国人が重要な要因となっていた。

我々は犯罪を調べようとし、日本社会の全体構造の犯罪の位置を特定しようとしたが、図らずも日本社会を活性化させるハブを見つけ出すことができた。

日本全体の社会要因の相互相関係数ネットワーク図

東京の市町村の社会要因の相互相関係数ネットワーク図

最初から訳が分からないで走り続けたという感じで、まさにハッカッソン(マラソンから由来するITのイベント)でした。ゴールは全く見えない状態で走り続け、最初は筑波山、次に富士山、最後にヒマラヤ(ちょっと言い過ぎ?)に登りつめた感じです。走り詰めたあとには、ヒマラヤの絶景が見えた感じです。野山を駆け巡り、まさにデータ解析のトレイルランです。とにかく、疲れた、途中で病気にもなったし。