课题十六:AI 驱动的技术趋势发现 — 调研报告

Layer 1 调研,2026-05-30

本报告包含数据源 API 调研、跨平台去重策略、竞品分析、与课题一的结合方案。


一、数据源对比总表

数据源API 可用性速率限制爬虫?数据新鲜度搜索能力成本
GitHub GraphQL官方成熟5000 点/hr实时Issues/PRs/Discussions 多维度免费
GitHub REST官方成熟5000 req/hr(认证)实时Issues/PRs/Releases/Repos免费
Hacker News (Firebase)公开只读~500 req/min实时有限(需按 ID 遍历)免费
HN Algolia独立引擎10000 req/day~1-5min 延迟全文搜索,按热度/日期排序免费
Stack Exchange官方10000 req/day(注册App)实时高级搜索(标题/标签/答案)免费
Reddit v1官方(OAuth2)10 req/min(免费)实时全文帖子/评论搜索免费层极低
V2EX非官方广泛使用无明确限制实时主题/节点/用户免费
知乎无公开 API依赖爬虫需自实现高维护成本
即刻依赖爬虫需自实现极高维护成本

推荐接入优先级

Phase数据源方式风险
Phase 1GitHub + HN + Stack ExchangeAPI
Phase 2V2EX + Reddit(免费层) + RSSAPI低-中
Phase 3知乎爬虫

二、跨平台去重方案

推荐:两阶段流水线

MinHash(粗筛, datasketch) → Embedding(精排, FAISS + sentence-transformers)

方法对比

方法精度计算开销适用规模跨语言
MinHash + LSH★★★十亿级
Embedding + FAISS★★★★★十亿级
两阶段(推荐)★★★★★亿级

聚类粒度

从按方法聚类开始(最成熟),扩展到按观点聚类(需标注),最后按结论聚类(需 LLM)。


三、与课题一的结合

课题一的需要课题十六的贡献频率
新论文/新项目自动发现 + 关联时间线每周
讨论热度各平台提及量统计每周
新兴方向异常检测(讨论量突增)每周
dead end 确认社区负面反馈每月

监听查询(Agent 方向)

子方向查询词平台
记忆系统”agent memory”GitHub + HN
工具学习”MCP, tool learning”GitHub + Reddit
多 Agent”multi-agent”GitHub + HN
框架”AI agent framework”GitHub + HN + Arxiv
认知架构”agent reasoning”HN + Arxiv

四、市场空白

现有工具(GitHub Trending / HN / Reddit / Papers with Code)各自只看一个维度。最大空白:没有平台做跨平台关联分析,将代码热度和社区讨论信号结合。


五、下一步

  1. 等待人做 Gate 1 决策 — 这个方向值得做吗?
  2. 如果确定进入 Layer 2:最小原型(3 数据源 + embedding 去重 + LLM 摘要)
  3. 部署形态:Hermes cron job 或独立 Web 界面