-

コンテンツのマッチングをレーベンシュタイン距離を使って行おうと思います。
ただ、レーベンシュタイン距離は文字列の違いを示すだけなので、これだけで近いと判断するのは難しいかと思っています。
コンテンツの文章というよりはどちらかと言えば、カテゴリ等でつき合せが出来れば良いのですが、コンテンツ数が膨大でこれにも限界があると思います。

例えば、
 1. 空手初心者
 2. 初めて空手を習う人
 3. 剣道初心者

の場合、レーベンシュタイン距離だけで評価すると当然「1」と「3」が近くなります。
ですが、内容的にはやはり「1」と「2」が近い方が良いので、何かと組み合わせて使いたいと思っています。

もちろん、それぞれにカテゴリを設定し、カテゴリ内でレーベンシュタイン距離で比較するなどという手段もあるとは思いますが、運用が少しづつ複雑になって行くので、何かもう少しロジックで寄せられるものが無いかと探しています。

何かアイデア等ございましたら、教えてください。

みんなの回答 8 件

名無しさんの回答

稀に見るがちな質問

名無しさんの回答

低能しかいないよここw

名無しさんの回答

誰か賢いとこ見せてやって!

名無しさんの回答

コンテンツのマッチングの使用目的は?それによっても変わると思いますが。

名無し

ありがとうございます。
記事と記事、商品と記事のマッチングです。
空手道着見てる人には別のブログの空手の記事
初心者には初心者向けの記事などを記事一覧で表示したいという感じですね。

名無しさんの回答

各ページをgoogleで検索した時の結果を評価基準として組み込む

名無しさんの回答

以前、似た様な事をしようとして断念した事あります。
その時は形態素解析やN-gramを使ってやろうとしましたが時間がなく、その機能自体を実装から外してしまいました。
なので、実践結果ではありませんが、下記のアドレス下の情報や
ttp://q.hatena.ne.jp/1162484151

あと、大学論文など探すとそういう研究してる方が居るので、論文読んだり、どうしても必要なら直接話をしてみてもいいのでは?

直接解ではありませんが、参考になれば。

名無し

ありがとうございます。
アドレスは参考になりそうです。

名無しさんの回答

トピ主のいうカテゴリーと同じ事かもしれないけど、形態素ごとに重み付けするくらいしか思いつかない。どの形態素を重くするか、マンパワー運用だと大変だと思うけど、他のデータソースからちょうどいい重み付け具合を生成するとか、そういう方向で出来ないかなぁ?

という妄想。

名無し

なるほど。ありがとうございます。考えてみます。

名無しさんの回答

Yahooが形態素解析のAPI出してるよ

名無し

使えると良いですね。調査して見ます。ありがとうございます。

最終更新日:2012-10-25 (3,669 views)

関連するトピックス

ページ上部に戻る