好得很程序员自学网

<tfoot draggable='sEl'></tfoot>

协同过滤算法之商品相似性计算

协同过滤算法之商品相似性计算

http://blog.sina.com.cn/s/blog_406d9bb00100r95r.html

协同过滤算法之商品相似性计算   (2011-05-23 19:50:21)

转载 ▼

标签:  

杂谈 分类:   数据库

矩阵已经填满,然后,我们就可以进入协同过滤算法核心部分,计算商品相似性并搜寻目标商品的最近邻居商品集合。

( * 注)这里是用的 sql 实现的,C语言方法以后再加。

输入:用户-商品评分矩阵 R(m,n)  最近邻用户数 k, top-N  推荐集项的项目数 N.

输出: 目标用户 u 的 top-N 推荐项集 I

第一步:建立用户-商品评分矩阵 R(m,n).

表 tmp_yofee_vote(PID,MID,Score)  可以反映之间的对应关系。

第二步:从 R(m,n) 中分别提取目标商品 i 与商品 j 的评分项集,设为 I i ,I j 从而得到商品 I,j 的评分项并集 I ij =I i UI j  .

第三步:用刚才的公式对这评分项并集中未评分项进行填补。

第四步( 关键点 ):搜寻最近邻居项目,对于目标项目 i ,算法需要搜寻 i 的最近邻居商品集合 I={i1,i2,…ik},i I 且 i 与 I 中商品 ik 之间的相似性 sim(i,ik) (1<=k<=K)  由大到小排列。 k 值可直接给定或通过相似性阈值来确定,也可将这两种方法结合,即在相似性大于阈值的商品中择取相似性最大的前 k 个商品。

第五步:循环执行 1~4 步,得到 i 与其他商品的相似性,从而择取相似性最大的前 k 个项目作为 i 的最近邻居项目集合 I={i1,i2,…,ik} sim(i,ik) 由大到小排列。

第六步: 通过计算目标用户 u 对任意项目 i 的评分,然后选择得到 top-N 推荐集。设项目 i 的最近邻居项目集合为 I={i1,i2,…ik} 且 i 与 I 中任意项目 ik(1<=k<=K) 之间的相似性  sim(i,ik) 由大到小排列,则目标用户 u 对项目 i 的评分 P(u,i) 可以基于用户 u 对 I  中各商品的评分进行加权处理得到:

第七步:输出 u 的 top-N 推荐项集 I, 结束。



 

--创建相似度表:

CREATE   TABLE   tmp_yofee_sim

(pid_i   NUMBER ( 6 , 0 ),pid_j   NUMBER ( 6 , 0 ),score   NUMBER ( 6 , 4 ));

 

余弦相似性:

代码大致思路:

通过两个游标进行循环取商品 i 和商品 j 进行对比。

--24000sec

DECLARE

   SUM_AB       NUMBER ;

   I2           NUMBER ;

   J2           NUMBER ;

   MAX_SCORE   NUMBER ( 6 ,   4 );

   CNT_6        NUMBER ;

    CURSOR   CUR1   IS

      SELECT   DISTINCT   PID   FROM   TMP_YOFEE_VOTE;

    CURSOR   CUR2   IS

      SELECT   DISTINCT   PID   FROM   TMP_YOFEE_VOTE;

   CUR_PID     NUMBER ;

   CUR_PID2   NUMBER ;

BEGIN

    OPEN   CUR1;

    FETCH   CUR1

      INTO   CUR_PID;

    WHILE   CUR1% FOUND   LOOP

      OPEN   CUR2;

      FETCH   CUR2

        INTO   CUR_PID2;

-- 排除将两个完全一样的数据进行对比,第二个游标开始循环。

WHILE   CUR2% FOUND   AND   CUR_PID <> CUR_PID2   LOOP

-- 一用户同时给两商品都有评分并将两个的评分值相乘然后把所有这种可能的用户情况相加。

        SELECT   SUM (A.SCORE * B.SCORE)

          INTO   SUM_AB

          FROM   TMP_YOFEE_VOTE A, TMP_YOFEE_VOTE B

         WHERE   A.MID = B.MID

           AND   A.PID = CUR_PID

           AND   B.PID = CUR_PID2;

  -- 将商品 i 的所有评分算平方和再求平方根

        SELECT   SQRT( SUM (SCORE * SCORE))

          INTO   I2

          FROM   TMP_YOFEE_VOTE

         WHERE   PID = CUR_PID;

        -- 将商品 j 的所有评分算平方和再求平方根

        SELECT   SQRT( SUM (SCORE * SCORE))

          INTO   J2

          FROM   TMP_YOFEE_VOTE

         WHERE   PID = CUR_PID2;

        -- 下面这一段的意思是找出与这个商品最相似的六个商品,如果没到六个就直接插入,如果已经有六个了如果比这个最小的大就插入新值。

        SELECT   DECODE( MIN (SCORE),   NULL ,   0 ,   MIN (SCORE))

          INTO   MIN_SCORE

          FROM   TMP_YOFEE_SIM

         WHERE   PID_I = CUR_PID;

      

        SELECT   COUNT (*)   INTO   CNT_6   FROM   TMP_YOFEE_SIM   WHERE   PID_I = CUR_PID;

     

        IF   CNT_6 <   6   THEN

          INSERT   INTO   TMP_YOFEE_SIM

            SELECT   CUR_PID, CUR_PID2, SUM_AB / (I2 * J2)   FROM   DUAL;

        ELSE

          IF   CNT_6 >=   6   AND   SUM_AB / (I2 * J2) >= MIN_SCORE   THEN

            INSERT   INTO   TMP_YOFEE_SIM

              SELECT   CUR_PID, CUR_PID2, SUM_AB / (I2 * J2)   FROM   DUAL;

          END   IF ;

        END   IF ;

    -- 打完收功

        FETCH   CUR2

          INTO   CUR_PID2;

      END   LOOP ;

      CLOSE   CUR2;

      COMMIT ;

      FETCH   CUR1

        INTO   CUR_PID;

    END   LOOP ;

    CLOSE   CUR1;

    COMMIT ;

END ;

-- 最后查出每个商品按分值排序取最相近的六个并列出来。

SELECT   PID_I, PID_J, SCORE, MM

    FROM   ( SELECT   PID_I,

                PID_J,

                SCORE,

                RANK() OVER( PARTITION   BY   PID_I   ORDER   BY   SCORE   DESC ) MM

            FROM   TMP_YOFEE_SIM)

  WHERE   MM <=   6

  ORDER   BY   PID_I, MM

查看更多关于协同过滤算法之商品相似性计算的详细内容...

  阅读:43次