コンテンツのマッチングをレーベンシュタイン距離を使って行おうと思います。
ただ、レーベンシュタイン距離は文字列の違いを示すだけなので、これだけで近いと判断するのは難しいかと思っています。
コンテンツの文章というよりはどちらかと言えば、カテゴリ等でつき合せが出来れば良いのですが、コンテンツ数が膨大でこれにも限界があると思います。
例えば、
1. 空手初心者
2. 初めて空手を習う人
3. 剣道初心者
の場合、レーベンシュタイン距離だけで評価すると当然「1」と「3」が近くなります。
ですが、内容的にはやはり「1」と「2」が近い方が良いので、何かと組み合わせて使いたいと思っています。
もちろん、それぞれにカテゴリを設定し、カテゴリ内でレーベンシュタイン距離で比較するなどという手段もあるとは思いますが、運用が少しづつ複雑になって行くので、何かもう少しロジックで寄せられるものが無いかと探しています。
何かアイデア等ございましたら、教えてください。
みんなの回答 8 件
稀に見るがちな質問
低能しかいないよここw
誰か賢いとこ見せてやって!
コンテンツのマッチングの使用目的は?それによっても変わると思いますが。
各ページをgoogleで検索した時の結果を評価基準として組み込む
以前、似た様な事をしようとして断念した事あります。
その時は形態素解析やN-gramを使ってやろうとしましたが時間がなく、その機能自体を実装から外してしまいました。
なので、実践結果ではありませんが、下記のアドレス下の情報や
ttp://q.hatena.ne.jp/1162484151
あと、大学論文など探すとそういう研究してる方が居るので、論文読んだり、どうしても必要なら直接話をしてみてもいいのでは?
直接解ではありませんが、参考になれば。
トピ主のいうカテゴリーと同じ事かもしれないけど、形態素ごとに重み付けするくらいしか思いつかない。どの形態素を重くするか、マンパワー運用だと大変だと思うけど、他のデータソースからちょうどいい重み付け具合を生成するとか、そういう方向で出来ないかなぁ?
という妄想。
Yahooが形態素解析のAPI出してるよ
関連するトピックス