课题十六:AI 驱动的技术趋势发现 — 调研报告
Layer 1 调研,2026-05-30
本报告包含数据源 API 调研、跨平台去重策略、竞品分析、与课题一的结合方案。
一、数据源对比总表
| 数据源 | API 可用性 | 速率限制 | 爬虫? | 数据新鲜度 | 搜索能力 | 成本 |
|---|
| GitHub GraphQL | 官方成熟 | 5000 点/hr | 否 | 实时 | Issues/PRs/Discussions 多维度 | 免费 |
| GitHub REST | 官方成熟 | 5000 req/hr(认证) | 否 | 实时 | Issues/PRs/Releases/Repos | 免费 |
| Hacker News (Firebase) | 公开只读 | ~500 req/min | 否 | 实时 | 有限(需按 ID 遍历) | 免费 |
| HN Algolia | 独立引擎 | 10000 req/day | 否 | ~1-5min 延迟 | 全文搜索,按热度/日期排序 | 免费 |
| Stack Exchange | 官方 | 10000 req/day(注册App) | 否 | 实时 | 高级搜索(标题/标签/答案) | 免费 |
| Reddit v1 | 官方(OAuth2) | 10 req/min(免费) | 否 | 实时 | 全文帖子/评论搜索 | 免费层极低 |
| V2EX | 非官方广泛使用 | 无明确限制 | 否 | 实时 | 主题/节点/用户 | 免费 |
| 知乎 | 无公开 API | — | 是 | 依赖爬虫 | 需自实现 | 高维护成本 |
| 即刻 | 无 | — | 是 | 依赖爬虫 | 需自实现 | 极高维护成本 |
推荐接入优先级
| Phase | 数据源 | 方式 | 风险 |
|---|
| Phase 1 | GitHub + HN + Stack Exchange | API | 低 |
| Phase 2 | V2EX + Reddit(免费层) + RSS | API | 低-中 |
| Phase 3 | 知乎 | 爬虫 | 高 |
二、跨平台去重方案
推荐:两阶段流水线
MinHash(粗筛, datasketch) → Embedding(精排, FAISS + sentence-transformers)
方法对比
| 方法 | 精度 | 计算开销 | 适用规模 | 跨语言 |
|---|
| MinHash + LSH | ★★★ | 低 | 十亿级 | 否 |
| Embedding + FAISS | ★★★★★ | 高 | 十亿级 | ✅ |
| 两阶段(推荐) | ★★★★★ | 中 | 亿级 | ✅ |
聚类粒度
从按方法聚类开始(最成熟),扩展到按观点聚类(需标注),最后按结论聚类(需 LLM)。
三、与课题一的结合
| 课题一的需要 | 课题十六的贡献 | 频率 |
|---|
| 新论文/新项目 | 自动发现 + 关联时间线 | 每周 |
| 讨论热度 | 各平台提及量统计 | 每周 |
| 新兴方向 | 异常检测(讨论量突增) | 每周 |
| dead end 确认 | 社区负面反馈 | 每月 |
监听查询(Agent 方向)
| 子方向 | 查询词 | 平台 |
|---|
| 记忆系统 | ”agent memory” | GitHub + HN |
| 工具学习 | ”MCP, tool learning” | GitHub + Reddit |
| 多 Agent | ”multi-agent” | GitHub + HN |
| 框架 | ”AI agent framework” | GitHub + HN + Arxiv |
| 认知架构 | ”agent reasoning” | HN + Arxiv |
四、市场空白
现有工具(GitHub Trending / HN / Reddit / Papers with Code)各自只看一个维度。最大空白:没有平台做跨平台关联分析,将代码热度和社区讨论信号结合。
五、下一步
- 等待人做 Gate 1 决策 — 这个方向值得做吗?
- 如果确定进入 Layer 2:最小原型(3 数据源 + embedding 去重 + LLM 摘要)
- 部署形态:Hermes cron job 或独立 Web 界面