時々雑録

ペース落ちてます。ぼちぼちと更新するので、気が向いたらどうぞ。
いちおう、音声学のことが中心のはず。

「めかぶ」を使う

2016年10月18日 | 
学生が卒論の計画でもってきたアイデアに触発されて、「それなら、みんなで構文解析を勉強しよう」と私が言い出し、前期途中からR言語の学習を導入。卒論のテーマもかたまってきて、10人中4人が、テキストマイニングの手法の利用を決定。石田基広先生の『Rで学ぶテキストマイニング』をお手本に、構文解析システムのMeCabを、R言語のRMeCabライブラリを使って実行する、ということに。先週、「こんなことができるよ」というデモのため、スクリプトを作成し、データファイルもわたして、実行させようとしたら、トラブル続出でまったく進まず。

「RMeCabのインストールができません」
「RMeCabがみつからないって言われます〜」
「これ実行するとエラーが出るんですけど」

などなど。ひとつめは、「家のインターネット環境で試してみて」で解決。ふたつめは「ユーザー名にアルファベット以外が入っているからでは」と、別のユーザー名を作ってきてもらって、成功。みっつめの、Mac上のRでは問題ないコマンドラインが、学生のWindowsマシンではエラーを生むのは、文字コードのちがい(UTF-8とShift-JIS)のせいで、文字化けが生じていたため。家のWindowsマシンでスクリプトを書き直して、動作確認をして、解決。自分も習いたてのころは、かんたんなことでいちいちつまずいていたので(今でもだけど)、トラブルは予想してたものの、3時間まるまる無駄にするとは、なさけない。

昨日、やっとこちらが作ったスクリプトで、構文解析の結果を加工して、ヒストグラムを作って、発話の長さの統計検定を実行して、文末形式を取り出して、頻度を調べる、という一連の作業に成功。(その前に、データファイルが格納されたディレクトリを見つけ出して、プログラムに書き入れる方法を教えるのに、これまた時間がかかった) こっちの作ったスクリプトのコマンドラインを実行するというだけだけれど、感激していました。成功体験でモチベーションもあがったようで、来週からは、各自のとってきたデータを使った分析ができそうです。
ジャンル:
ウェブログ
コメント   この記事についてブログを書く
この記事をはてなブックマークに追加
« 『人口と日本経済』(読書録) | トップ | 中落ち丼 »
最近の画像もっと見る

コメントを投稿


コメント利用規約に同意の上コメント投稿を行ってください。

数字4桁を入力し、投稿ボタンを押してください。

あわせて読む

トラックバック

この記事のトラックバック  Ping-URL