2011年7月のブログ記事一覧-国立大学職員日記

国立大学職員日記 / 2011-07-01 07:00:00

■はじめに
　旅費の処理をやっていると「この出張、新しく採った科研費で行きたいんだけど申請はいつから出来るの？」と教員から聞かれるのはもはや毎年の「お約束」イベントです。
　そんな訳で文部科学省科学研究費補助金のランキングを今年も作成してみました。「ＰＤＦ→テキスト→エクセルの文字列関数でデータ抽出」という相変わらず進歩の無い作業で作ったデータのため、例のごとくどこかにデータ間違いがある可能性が高いです。そこらへんは個人でやっているブログの限界ということでどうかご容赦いただき、関係機関の皆様には話のネタにでもしていただければ幸いです。
　今年度は「平成２３年度」のものの他にも、国立大学が法人化した平成１６年度からの８年分をまとめたランキングも作ってみました。

■平成２３年度科学研究費補助金配分額ランキング

　ランキングは「配分額（合計）」の順位で作成し、各機関カテゴリーの上位３位まで、別に順位表示をさせています。
　

■科学研究費補助金配分額総合ランキング平成１６年度～平成２３年度

　「総合ランキング」は平成１６年度から平成２３年度までの「配分額（合計）」の合計金額にて順位付けし、上位１００機関の過去８年分の金額と順位の推移をまとめました。表示している金額は億で端数切捨てしてあります。「新規採択＋継続分」のデータであることをご注意ください。

■総合ランキング上位２０位の順位変動グラフ

　これは総合ランキングで上位２０位だった機関の、８年間の順位変動をまとめたグラフです。さすが競争的資金だけあって、運営費交付金に比べると順位変動が多いのが分かります。しかし同時に、我々はこのグラフからあるグループの存在と、それを隔てる「壁」の存在に容易に気づくことが出来ます。ここまで綺麗に分かれたのは恐らく偶然だと思いますが、それでも８年間に渡って存在しているので、ある程度の法則性はあるのだと思います。ちょっと面白かったので、文章で次のとおりにまとめてみました。

【科学研究費補助金獲得状況】

　　首席：東京大学
　　次席：京都大学
　　３位決定戦：大阪大学vs東北大学
　　準々決勝組：九州大学vs北海道大学vs名古屋大学

---旧帝国大学の壁---

　　東京工業大学

---上位安定組の壁---

　　理化学研究所vs筑波大学vs慶應義塾大学vs広島大学vs神戸大学

---１３位の壁---

　　早稲田大学vs岡山大学vs千葉大学vs東京医科歯科大学

---１７位の壁（以下、乱戦）---

■おわりに
　自分は相変わらず総務系統の部署にいますが、科学研究費に限らず、外部資金や競争的資金の獲得にいかに教員が苦戦しているか、徐々に分かり始めてきた気がします。金をかければ良いというものでは無いでしょうが、「無料で手に入る情報には所詮限界がある」というのもまた事実だと思います。当ブログですら資料収集に金が掛かっているのですから、それを生業とする研究者が必要とする資金の多さは「想像に難くない」というやつです。
　あと全然関係ない話なんですが、例えば自分のような人間も科学研究費補助金をもらうことが出来るのだろうかと疑問に思ったのですが、実際どうなんでしょうか。そんな大した額はいらないですが、課題名「産学官連携状況から考える国立大学における非常勤職員雇い止めの問題点」で、書籍代を１０万円もいただければ、１年以内にこの問題についてまとまった意見を書いてそれをこのブログで公開することが出来ると思います。
　まぁこの話はほとんど冗談みたいなものですが、実は過去に国立大学事務職員であっても科研費を獲得した例があるので、そこまで荒唐無稽な話とも言い切れないのが面白いところなのです。研究には金が掛かりますが、夢を見るだけなら無料ですからね。いつか科研費もらえたらいいなぁ～とか考えて、今日も自腹で資料収集する訳ですよ。

※おまけ：ＰＤＦからエクセルへデータを抽出する方法
　必ず手作業が入るので、プロの方（いるのだろうか？）がされているやり方などには及びませんが、このやり方なら毎年公表されているデータを数分程度で９.５割方データ化できるので、参考までに残しておきます。

１．ＰＤＦファイルの準備
　科学研究費補助金のデータは学術振興会のサイトから手に入ります。以下の方法は学術振興会が公表しているＰＤＦファイルでのみ有効ですので、参考にする場合は必ず学術振興会のＰＤＦファイルを参照してください。

２．ＰＤＦ→テキストデータ
　ＰＤＦファイルを「全て選択」し、テキストエディタ上にテキストデータを貼り付けてください。必要な部分だけを選択しても良いのですが、どうも経験上「全て選択」して後から不要な部分を切り捨てるほうがうまく行っているので、個人的には「全て選択」を推奨します。なお、自分が使っているテキストエディタソフトは「TeraPad」です。

３．ヘッダーや題名などの、不要な情報の削除
　「全て選択」で貼り付けたデータには不要な部分が多いので、まずそれらを取り除きます。
　文書のヘッダーや題名部分は手作業で取り除きますが、データ部分は手作業でいじらないでください（データ部分の編集作業は後述）。この作業で、とりあえず「データ部分」だけが残るようにします（早い話が「北海道大学」から「株式会社林原生物化学研究所類人猿研究センター」までの部分）。

４．データ部分の整理（テキストエディタ）
　まず「置換」機能を使って「，（コンマ）」を全て消してください。
　次に「　（空白）」をなんでもいいから特殊な記号に置換してください（自分は「★」に置換します）。
　こうすることで「（機関名）（採択件数）★（直接経費）★（間接経費）★（合計額）」のデータが残ります。「機関名」と「採択件数」の間に「★」は入らないので、「北海道大学1000」みたいな状態になります。
　また年度によっては片括弧の「）」に空白がついて「）★」みたいな状態になるので、「）★」を「）」に置換しておくと後で作業が楽になります。

５．データ部分の整理（エクセル）
　ここを詳細に書くと何万字も掛かるため、要点だけを記します。
　使う関数は「ＬＥＦＴ関数」「ＲＩＧＨＴ関数」「ＭＩＮ関数」「ＭＡＸ関数」「ＬＥＮ関数」「ＩＳＥＲＲＯＲ関数」「ＩＦ関数」「ＡＮＤ関数」です。
　まず「文字データ」の何文字目に「★」があるかを調べてください。例えば１０文字目に「★」があるかをチェックするために、「文字データの左１０文字の一番右の文字が「★」だったら「１０」を出力しろ」というような命令で「=IF(RIGHT(LEFT(文字データ,10),1)="★",10,0)」という風に作ります。実際には「10」の部分は「10」と入力されたセルを参照するように書きますが。
　「★」は各「文字データ」に３つあるはずなので、その「最大値」「中間値」「最小値」を出してください。
　次にこれらの値と関数を組みまわせて、「文字データ」から「★」に囲まれている部分のデータを抜き出してください。例えば右から２番目の「★（中間値）」と右から１番目の「★（最大値）」に囲まれたデータを採る関数は「=VALUE(LEFT(RIGHT(文字データ,LEN(文字データ)-中間値),最大値-中間値-1))」です。両端のデータの抜き方は簡単だと思うので省略します。
　一番左のデータだけ「○○大学1000」みたくなっていますが、この数字部分は「採択件数」なので、どんなに多くても４桁どまりです。そのため、この部分の「右４文字」「右３文字」「右２文字」「右１文字」から数値を抜く関数を作って、その最大値を取るようにしてやれば自動的に数字が抜けることになります（「ＩＳＥＲＲＯＲ関数」を使うとエラー表示部分を空白に出来るので便利です）。「機関名」はそうやって抜いた数値の桁数を、この「○○大学1000」の文字数から引いて、その数字をつかって「ＬＥＦＴ関数」で「機関名」を抜いてください。

６．おわり
　これで「機関名」「採択件数」「直接経費」「間接経費」「合計額」のデータが抜くことが出来ます。いちどセルにデータを入れておけば、文字データ部分に値を挿入するだけで自動的に計算が出来るので便利です。
　文字だけで記すとすごくややこしいですが、自分で作りながらやるとすんなり頭に入ると思いますので、もしよろしければエクセルの練習なんかも兼ねて挑戦してみてください。

参考：平成２３年度のＰＤＦファイル

コメント ( 19 ) | Trackback ( 0 )