协同过滤算法之商品相似性计算
http://blog.sina.com.cn/s/blog_406d9bb00100r95r.html
协同过滤算法之商品相似性计算 (2011-05-23 19:50:21)
转载 ▼
标签:
杂谈 分类: 数据库
矩阵已经填满,然后,我们就可以进入协同过滤算法核心部分,计算商品相似性并搜寻目标商品的最近邻居商品集合。
( * 注)这里是用的 sql 实现的,C语言方法以后再加。
输入:用户-商品评分矩阵 R(m,n) 最近邻用户数 k, top-N 推荐集项的项目数 N.
输出: 目标用户 u 的 top-N 推荐项集 I
第一步:建立用户-商品评分矩阵 R(m,n).
表 tmp_yofee_vote(PID,MID,Score) 可以反映之间的对应关系。
第二步:从 R(m,n) 中分别提取目标商品 i 与商品 j 的评分项集,设为 I i ,I j 从而得到商品 I,j 的评分项并集 I ij =I i UI j .
第三步:用刚才的公式对这评分项并集中未评分项进行填补。
第四步( 关键点 ):搜寻最近邻居项目,对于目标项目 i ,算法需要搜寻 i 的最近邻居商品集合 I={i1,i2,…ik},i I 且 i 与 I 中商品 ik 之间的相似性 sim(i,ik) (1<=k<=K) 由大到小排列。 k 值可直接给定或通过相似性阈值来确定,也可将这两种方法结合,即在相似性大于阈值的商品中择取相似性最大的前 k 个商品。
第五步:循环执行 1~4 步,得到 i 与其他商品的相似性,从而择取相似性最大的前 k 个项目作为 i 的最近邻居项目集合 I={i1,i2,…,ik} sim(i,ik) 由大到小排列。
第六步: 通过计算目标用户 u 对任意项目 i 的评分,然后选择得到 top-N 推荐集。设项目 i 的最近邻居项目集合为 I={i1,i2,…ik} 且 i 与 I 中任意项目 ik(1<=k<=K) 之间的相似性 sim(i,ik) 由大到小排列,则目标用户 u 对项目 i 的评分 P(u,i) 可以基于用户 u 对 I 中各商品的评分进行加权处理得到:
第七步:输出 u 的 top-N 推荐项集 I, 结束。
--创建相似度表:
CREATE TABLE tmp_yofee_sim
(pid_i NUMBER ( 6 , 0 ),pid_j NUMBER ( 6 , 0 ),score NUMBER ( 6 , 4 ));
余弦相似性:
代码大致思路:
通过两个游标进行循环取商品 i 和商品 j 进行对比。
--24000sec
DECLARE
SUM_AB NUMBER ;
I2 NUMBER ;
J2 NUMBER ;
MAX_SCORE NUMBER ( 6 , 4 );
CNT_6 NUMBER ;
CURSOR CUR1 IS
SELECT DISTINCT PID FROM TMP_YOFEE_VOTE;
CURSOR CUR2 IS
SELECT DISTINCT PID FROM TMP_YOFEE_VOTE;
CUR_PID NUMBER ;
CUR_PID2 NUMBER ;
BEGIN
OPEN CUR1;
FETCH CUR1
INTO CUR_PID;
WHILE CUR1% FOUND LOOP
OPEN CUR2;
FETCH CUR2
INTO CUR_PID2;
-- 排除将两个完全一样的数据进行对比,第二个游标开始循环。
WHILE CUR2% FOUND AND CUR_PID <> CUR_PID2 LOOP
-- 一用户同时给两商品都有评分并将两个的评分值相乘然后把所有这种可能的用户情况相加。
SELECT SUM (A.SCORE * B.SCORE)
INTO SUM_AB
FROM TMP_YOFEE_VOTE A, TMP_YOFEE_VOTE B
WHERE A.MID = B.MID
AND A.PID = CUR_PID
AND B.PID = CUR_PID2;
-- 将商品 i 的所有评分算平方和再求平方根
SELECT SQRT( SUM (SCORE * SCORE))
INTO I2
FROM TMP_YOFEE_VOTE
WHERE PID = CUR_PID;
-- 将商品 j 的所有评分算平方和再求平方根
SELECT SQRT( SUM (SCORE * SCORE))
INTO J2
FROM TMP_YOFEE_VOTE
WHERE PID = CUR_PID2;
-- 下面这一段的意思是找出与这个商品最相似的六个商品,如果没到六个就直接插入,如果已经有六个了如果比这个最小的大就插入新值。
SELECT DECODE( MIN (SCORE), NULL , 0 , MIN (SCORE))
INTO MIN_SCORE
FROM TMP_YOFEE_SIM
WHERE PID_I = CUR_PID;
SELECT COUNT (*) INTO CNT_6 FROM TMP_YOFEE_SIM WHERE PID_I = CUR_PID;
IF CNT_6 < 6 THEN
INSERT INTO TMP_YOFEE_SIM
SELECT CUR_PID, CUR_PID2, SUM_AB / (I2 * J2) FROM DUAL;
ELSE
IF CNT_6 >= 6 AND SUM_AB / (I2 * J2) >= MIN_SCORE THEN
INSERT INTO TMP_YOFEE_SIM
SELECT CUR_PID, CUR_PID2, SUM_AB / (I2 * J2) FROM DUAL;
END IF ;
END IF ;
-- 打完收功
FETCH CUR2
INTO CUR_PID2;
END LOOP ;
CLOSE CUR2;
COMMIT ;
FETCH CUR1
INTO CUR_PID;
END LOOP ;
CLOSE CUR1;
COMMIT ;
END ;
-- 最后查出每个商品按分值排序取最相近的六个并列出来。
SELECT PID_I, PID_J, SCORE, MM
FROM ( SELECT PID_I,
PID_J,
SCORE,
RANK() OVER( PARTITION BY PID_I ORDER BY SCORE DESC ) MM
FROM TMP_YOFEE_SIM)
WHERE MM <= 6
ORDER BY PID_I, MM