| Mi Manchi = yuan = Whatever is worth doing at all is worth doing well

# mapreduce

mapreduce 详解： https://zhuanlan.zhihu.com/p/82399103

为什么需要 combine 和 shuttle，在 map 之后难道不是一个整体么？

combine 是针对一个 source 文件的

shuffle 是针对 combine 之后的

shuffle 是将数据进行均匀分布，他这里是根据首字符进行分类的，但是这样能不能达到均匀呢？首字符在这里有起到排序的作用么，排序可以增强效果么？

在不同的 source 间

各个部分的作用：

# map：

一个 map 对单个 source 进行操作，因此 9 个 source 对应 9 个 map，作用是遍历每个单词，生成 <单词, 1> 这样的对

因此就存在着同一个单词有多个这样的对

可以进行排序，方便查看结果

# combine：

对 map 产生的 <单词, 1> 文件进行统计操作，结果是生成 <单词, 单词数量> 的文件，这里的单词操作范围仍仅限在一个 source 文件中，因此统计的单词数量是 source 中的单词数量

结果是每个单词仅有一个这样子的对

可以进行排序，方便查看结果

# shuffle

对上面 combine 生成的 9 个文件按照单词首字母进行分类整理，生成 3 个文件，这样每个文件中也是 <单词, 单词数量>

因此每个文件中，每个单词也可能对应多个 <单词, 单词数量>

# reduce

对 shuffle 生成的三个文件分别进行单词数量的统计，结果是生成 <单词, 单词数量> 的文件

结果是每个单词仅有一个这样子的对

# outresult

对 reduce 生成的三个文件合并成一个，每个单词只对应一个 <单词, 单词数量>

计算线程运行时间这个代码中还没有

# PageRank

https://www.bilibili.com/video/BV1m4411P76G?p=3&spm_id_from=pageDriver&vd_source=1c562831fab1cb4101e5b95d41c170e0

1669089775606

根据 PageRank 公式，一个节点的 pr 值是由指向它的节点的 pr 值贡献的，所以，一个 pr 值比较大的节点指向的节点的 pr 也应该比较大。

同时除以出链数，意味着少、精

pr 值的初始化，循环求取

deadend 是指一个节点没有任何出链，在概率转移矩阵中表现为一列均为 0

误差怎么计算：相邻两次的差的和，衡量是否达到稳定了

1669104249301

https://blog.csdn.net/skysenlin/article/details/110094892?ops_request_misc=%7B%22request%5Fid%22%3A%22166908888516800182185587%22%2C%22scm%22%3A%2220140713.130102334..%22%7D&request_id=166908888516800182185587&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2_alltop_positive~default-1-110094892-null-null.142^v66control,201^v3control,213^v2t3_esquery_v3&utm_term=PageRank&spm=1018.2226.3001.4187

# 实验三 apriori

# 基础

参考视频

1670060285835

有方向性尿布 -> 啤酒

C1 为 candidate，候选，类似于集合，

在 filter 的时候需要扫描原数据集，因为要获得每个候选集的支持度

# pcy

参考视频

1670237405450

1670237990664

整体图片

1670238706412

# k-means

参考视频

# 推荐系统

关键词：

User-User 的协同过滤算法
minhash 算法对效用矩阵进行降维处理

UserCF 中每个词代表的是什么？

协同过滤参考视频： https://www.bilibili.com/video/BV1yh411U7wy/?spm_id_from=333.337.search-card.all.click&vd_source=1c562831fab1cb4101e5b95d41c170e0

皮尔逊相关系数： https://blog.csdn.net/sujinhehehe/article/details/83380303

minhash 算法：https://zhuanlan.zhihu.com/p/82162303

jaccard 相似度：https://blog.csdn.net/u012836354/article/details/79103099

效用矩阵是从哪里得到的

pandas 数据透视表 pd.pivot_table ()：https://blog.csdn.net/qq_36495431/article/details/81123240

tf-idf：当一个关键词在文章中出现的频率较高时，说明此关键词在文章中的重要性比较高，但是当它在整个词库中出现的频率较高时，它的重要性又会下降

https://zhuanlan.zhihu.com/p/396332074

sklearn-TfidfVectorizer：https://zhuanlan.zhihu.com/p/67883024

CountVectorizer： https://blog.csdn.net/qq_43840793/article/details/115960115

# 基于用户的哈希签名的长度的影响

# 基于内容

1670928877738

# mapreduce

# map：

# combine：

# shuffle

# reduce

# outresult

# PageRank

# 实验三 apriori

# 基础

# pcy

# k-means

# 推荐系统

# 基于用户的哈希签名的长度的影响

# 基于内容

未命名

未命名