课题十六:AI 驱动的技术趋势发现

优先级:P2 当前状态:Layer 1 调研完成 → 待进入 Layer 2 设计层 上次更新:2026-05-30


当前情况

  • ✅ 完成方向定义和核心流程设计
  • 已完成数据源接入方案调研(见下方 2.1)
  • 已完成跨平台去重聚合策略设计(两阶段 MinHash+Embedding 方案)
  • 已完成与课题一的结合方案设计(持续监听 Agent 子方向 + 更新时间线)
  • ❌ 未进行任何爬取或分析实验

问题定义

研究人员/开发者在面对新问题时,通常需要手动搜索各平台了解已有讨论、阅读大量帖子提炼思路、综合各方观点发现潜力方向。这个过程耗时且容易遗漏。目标是自动化,将发现周期从数天缩短到数小时。

核心流程

用户输入问题 → 多平台并行搜索 → 内容采集与标准化
  → 跨平台去重 → 思路提取 → 思路聚类与矛盾检测
    → AI 分析(可行性预评估) → 研究方向建议

数据源接入方案

推荐优先级

Phase数据源方式成本风险评估
Phase 1GitHub (GraphQL + REST)API免费低 — 官方成熟
Phase 1Hacker News (Firebase + Algolia)API免费低 — 公开稳定
Phase 1Stack ExchangeAPI (注册 App)免费低 — 文档完善
Phase 2V2EX非官方 API免费低 — 宽松限制
Phase 2RedditAPI (免费层 10 req/min)免费中 — 2023 政策收紧
Phase 2RSS/Atom Feeds标准协议免费
Phase 3知乎爬虫高维护高 — 法律+技术
Phase 3即刻爬虫极高维护极高 — 接口频繁变动

详细对比见调研报告 docs/research/ai-discovery-engine/调研报告.md

跨平台去重与聚合

推荐方案:两阶段流水线

MinHash + LSH (粗筛, datasketch) → Embedding + FAISS (精排, sentence-transformers)

核心原则:去重的目标不是”删掉重复内容”,而是识别同一话题在不同平台的呈现差异,综合各方观点

聚类粒度

粒度成熟度建议
按方法聚类⭐⭐⭐⭐⭐立即可用
按观点聚类⭐⭐⭐需要标注数据
按结论聚类⭐⭐需要 LLM 推理

与课题一(Agent 范式演进)的结合

课题十六为课题一提供持续实时信号源

课题一的需要课题十六的贡献频率
新论文/新项目自动发现 + 关联时间线每周
热门方向讨论热度各平台提及量统计每周
新兴方向异常检测(讨论量突增)每周
dead end 确认社区负面/活跃度下降每月
框架选型时效社区活跃度对比每月

监听查询定义

子方向查询平台频率
记忆系统”agent memory”GitHub + HN每周
工具学习”MCP, tool learning”GitHub + Reddit每周
多 Agent”multi-agent”GitHub + HN每周
Agent 框架”AI agent framework”GitHub + HN + Arxiv每两周
认知架构”agent reasoning”HN + Arxiv每两周

下一步方向

  1. 进入 Layer 2 设计层 — 需要你在 Gate 1 确认后,开始架构细化
  2. 最小原型 — 3 个数据源(GitHub + HN + Stack Exchange),去重纯 embedding,LLM 摘要
  3. 部署形态选择 — Hermes cron job 推送 或 独立 Web 界面

需确认事项:数据源范围、分析深度、部署形态、与课题一的整合优先级。

关联课题

参考资料

见调研报告。