風邪っぴきの間に考えていたことです。
読者の方はあまり馴染みがない話かもしれないですが、2つのモノがどのくらい似ているかが計算できれば、自動的にモノをグループ化する手法があります。この手法をクラスタリングと呼びます。
で、このクラスタリングをなろうの小説に適用すれば、全カテゴリーがファンタジー化しているなろうのカテゴリよりもマシな分類が作れるんじゃないかと思ったのです。
問題は、どうやって小説の類似度を計算するかで、考えていたのはお気に入りを使う方法でした。
直感的には、同じような嗜好を持った読者は似たような小説をお気に入りに入れているに違いないということです。
なのですが、単純にお気に入りの偏りを計算しようとすると、人気のある小説と人気のあまりない小説とではお気に入りの数が違いすぎて上手く計算できるような気がしません。
なので、先に読者の方をクラスタリングして見ることにします。
読者の類似度もお気に入りを使います。読者Aと読者Bがいた時、類似度は「(AとBが共通してお気に入りに入れている小説の数)÷(AとBの少なくとも片方がお気に入りに入れている小説の数)」で計算します。
これで適当に読者をクラスタリングして読者クラスタができます。
次に小説ごとに各読者クラスタからスコアを付けます。小説αに対する読者クラスタaスコアは、「(読者クラスタa内の小説αのお気に入りの数)÷(読者クラスタaの読者数)」になります。
最後に小説の類似度を計算します。小説αと小説βの類似度は、コサイン類似度を使って、「Σi(小説αの読者クラスタiのスコア × 小説βの読者クラスタiのスコア)÷(√(Σi(小説αの読者クラスタiのスコア^2)) × √(Σi(小説βの読者クラスタiのスコア^2))」になります。
計算に必要な情報は全部公開情報なので、頑張れば誰にでも計算できるはず。興味があればやってみて結果を教えて下さい。
注)なろうのサイトをクロールする時は、運営に一言言ってからの方がいいと思います。
0 件のコメント:
コメントを投稿