课题十六：AI 驱动的技术趋势发现

优先级：P2 当前状态：Layer 1 调研完成 → 待进入 Layer 2 设计层 上次更新：2026-05-30

当前情况

✅ 完成方向定义和核心流程设计
✅ 已完成数据源接入方案调研（见下方 2.1）
✅ 已完成跨平台去重聚合策略设计（两阶段 MinHash+Embedding 方案）
✅ 已完成与课题一的结合方案设计（持续监听 Agent 子方向 + 更新时间线）
❌ 未进行任何爬取或分析实验

问题定义

研究人员/开发者在面对新问题时，通常需要手动搜索各平台了解已有讨论、阅读大量帖子提炼思路、综合各方观点发现潜力方向。这个过程耗时且容易遗漏。目标是自动化，将发现周期从数天缩短到数小时。

核心流程

用户输入问题 → 多平台并行搜索 → 内容采集与标准化
  → 跨平台去重 → 思路提取 → 思路聚类与矛盾检测
    → AI 分析(可行性预评估) → 研究方向建议

数据源接入方案

推荐优先级

Phase	数据源	方式	成本	风险评估
Phase 1	GitHub (GraphQL + REST)	API	免费	低 — 官方成熟
Phase 1	Hacker News (Firebase + Algolia)	API	免费	低 — 公开稳定
Phase 1	Stack Exchange	API (注册 App)	免费	低 — 文档完善
Phase 2	V2EX	非官方 API	免费	低 — 宽松限制
Phase 2	Reddit	API (免费层 10 req/min)	免费	中 — 2023 政策收紧
Phase 2	RSS/Atom Feeds	标准协议	免费	低
Phase 3	知乎	爬虫	高维护	高 — 法律+技术
Phase 3	即刻	爬虫	极高维护	极高 — 接口频繁变动

详细对比见调研报告 docs/research/ai-discovery-engine/调研报告.md。

跨平台去重与聚合

推荐方案：两阶段流水线

MinHash + LSH (粗筛, datasketch) → Embedding + FAISS (精排, sentence-transformers)

核心原则：去重的目标不是”删掉重复内容”，而是识别同一话题在不同平台的呈现差异，综合各方观点。

聚类粒度

粒度	成熟度	建议
按方法聚类	⭐⭐⭐⭐⭐	立即可用
按观点聚类	⭐⭐⭐	需要标注数据
按结论聚类	⭐⭐	需要 LLM 推理

与课题一（Agent 范式演进）的结合

课题十六为课题一提供持续实时信号源：

课题一的需要	课题十六的贡献	频率
新论文/新项目	自动发现 + 关联时间线	每周
热门方向讨论热度	各平台提及量统计	每周
新兴方向	异常检测（讨论量突增）	每周
dead end 确认	社区负面/活跃度下降	每月
框架选型时效	社区活跃度对比	每月

监听查询定义

子方向	查询	平台	频率
记忆系统	”agent memory”	GitHub + HN	每周
工具学习	”MCP, tool learning”	GitHub + Reddit	每周
多 Agent	”multi-agent”	GitHub + HN	每周
Agent 框架	”AI agent framework”	GitHub + HN + Arxiv	每两周
认知架构	”agent reasoning”	HN + Arxiv	每两周

下一步方向

进入 Layer 2 设计层 — 需要你在 Gate 1 确认后，开始架构细化
最小原型 — 3 个数据源（GitHub + HN + Stack Exchange），去重纯 embedding，LLM 摘要
部署形态选择 — Hermes cron job 推送或独立 Web 界面

需确认事项：数据源范围、分析深度、部署形态、与课题一的整合优先级。

关联课题

agent-evolution-history — Agent 范式演进（作为趋势发现的第一个落地场景）
agent-cross-context — 跨 Session 上下文（趋势信息需要 persistence）

参考资料

见调研报告。