テキストの類似度を図る方法を探してた
いろいろな方法があるらしい。
今回はperl String::Trigramを使う事になった。
String::TrigramはCPANからインストール
perl -MCPAN -e shell
install String::Trigram
これでインストール完了。
テキストの類似度を図るサンプル
#!/usr/bin/perl
use String::Trigram;
my $string1 = "となりのきゃくはよくかきくうきゃくだ";
my $string2 = "となりのトトロはよくくうきゃくだ";
my $smlty = String::Trigram::compare($string1, $string2);
print $smlty."\n";
結果は0.606060606060606となった
0.6なら近い文章ということになると思う。
以上。
いろいろな方法があるらしい。
今回はperl String::Trigramを使う事になった。
String::TrigramはCPANからインストール
perl -MCPAN -e shell
install String::Trigram
これでインストール完了。
テキストの類似度を図るサンプル
#!/usr/bin/perl
use String::Trigram;
my $string1 = "となりのきゃくはよくかきくうきゃくだ";
my $string2 = "となりのトトロはよくくうきゃくだ";
my $smlty = String::Trigram::compare($string1, $string2);
print $smlty."\n";
結果は0.606060606060606となった
0.6なら近い文章ということになると思う。
以上。