课题十六：AI 驱动的技术趋势发现 — 调研报告

Layer 1 调研，2026-05-30

本报告包含数据源 API 调研、跨平台去重策略、竞品分析、与课题一的结合方案。

一、数据源对比总表

数据源	API 可用性	速率限制	爬虫?	数据新鲜度	搜索能力	成本
GitHub GraphQL	官方成熟	5000 点/hr	否	实时	Issues/PRs/Discussions 多维度	免费
GitHub REST	官方成熟	5000 req/hr(认证)	否	实时	Issues/PRs/Releases/Repos	免费
Hacker News (Firebase)	公开只读	~500 req/min	否	实时	有限(需按 ID 遍历)	免费
HN Algolia	独立引擎	10000 req/day	否	~1-5min 延迟	全文搜索，按热度/日期排序	免费
Stack Exchange	官方	10000 req/day(注册App)	否	实时	高级搜索(标题/标签/答案)	免费
Reddit v1	官方(OAuth2)	10 req/min(免费)	否	实时	全文帖子/评论搜索	免费层极低
V2EX	非官方广泛使用	无明确限制	否	实时	主题/节点/用户	免费
知乎	无公开 API	—	是	依赖爬虫	需自实现	高维护成本
即刻	无	—	是	依赖爬虫	需自实现	极高维护成本

Phase	数据源	方式	风险
Phase 1	GitHub + HN + Stack Exchange	API	低
Phase 2	V2EX + Reddit(免费层) + RSS	API	低-中
Phase 3	知乎	爬虫	高

MinHash(粗筛, datasketch) → Embedding(精排, FAISS + sentence-transformers)

从按方法聚类开始（最成熟），扩展到按观点聚类（需标注），最后按结论聚类（需 LLM）。

现有工具（GitHub Trending / HN / Reddit / Papers with Code）各自只看一个维度。最大空白：没有平台做跨平台关联分析，将代码热度和社区讨论信号结合。