网络爬虫
-
抓取策略
- 宽度优先
- 非完全pagerank
- opic策略(cash)
- 大站优先
-
更新策略
- 历史参考(泊松建模)
- 用户体验
- 聚类抽样
-
暗网抓取
-
分布式爬虫
- 主从式 url
- 对等式 (哈希取模 \ 一致性哈希 )
搜索引擎索引
基础
- 单词-文档
- 倒排
单词字典
- 哈希加链表
- 树形结构
倒排列表
单词 –> 倒排列表
建立列表
- 两遍
- 排序 单词id -> 文档ID -> 频率
- 归并
1 2 5 6 1 2 3 4
索引更新
- 完全重建
- 再合并
- 原地更新
- 混合策略
查询
- 一次一文档
- 一次单词
- 跳跃指针 `<5 Pos1> 5,1 2,1 5,2 <13 Pos2> 13,1 2,1 5,2