Files
sundynix-radio-be/Data_Sources.md
T
2026-02-27 13:54:01 +08:00

3.6 KiB

早安电台:垂直领域内容抓取源清单 (2026版)

这份清单为不同场景的电台提供“食材”来源,建议通过 Go 后端定时任务 (Cron Job) 自动抓取并推送到 LLM 进行摘要改写。


1. 【硬核职场】AI 商业机会方向

目标:提供最具时效性的“信息差”和变现线索。

核心抓取源:

  • 技术趋势 API:
    • GitHub API: 抓取 /search/repositories,筛选过去 24 小时内 Star 增长最快的 AI/Agent 相关项目。
    • Hugging Face: 监控其 Trending 页面,提取每日热门开源模型及其应用场景。
  • 产品发布与商业线索:
    • Product Hunt API: 获取每日 Upvote 前 10 的产品描述,由 AI 筛选其中具有“盈利模型”的项目。
    • Indie Hackers: 爬取 Revenue 板块,获取独立开发者的最新收入报告和成功路径。
  • 行业动态:
    • 深度快讯 (DeepSeek/Google/OpenAI): 订阅其开发者博客的 RSS,实时监控模型降价或新功能发布。

2. 【效率健康】个人数字健康方向

目标:结合实时运动数据与专业健康建议。

核心抓取源:

  • 用户实时数据 (小程序端):
    • WeRun (微信运动): 接口 wx.getWeRunData 获取步数(需用户授权)。
  • 专业健康内容:
    • PubMed/Nature API: 抓取关于“运动表现”或“睡眠科学”的最新研究摘要,转译为科普短语音。
    • Healthline/WebMD: 爬取每日健康小贴士(如:今日最适合的燃脂食物建议)。
  • 环境与压力感知:
    • QWeather (和风天气) API: 不仅获取气温,重点关注“运动指数”、“过敏指数”及“紫外线强度”。

3. 【极简生活】脱手式晨间管家方向

目标:提供本地化、高实用性的生活情报。

核心抓取源:

  • 本地化民生信息:
    • 本地政府/电力/供水公示: 监控特定城市的政务 RSS,抓取停水、停电或道路临时封堵信息。
    • 小红书 (RedNote) 热榜: 通过搜索接口抓取当地“今日热门打卡点”或“避雷指南”。
  • 消费与价格:
    • 每日生鲜价格 API: 监控如美团买菜/叮咚买菜的每日低价、特价商品(通过爬虫抓取首页 Banner 信息)。
  • 时间/日程管理:
    • 中国万年历 API: 播报今日忌宜、节气特征及重要的法定节假日提醒。

4. 【知识胶囊】备考与职场进阶方向

目标:将长文本转化为碎片化听觉知识点。

核心抓取源:

  • 权威教育资源:
    • Khan Academy API: 获取各学科的知识节点摘要,适合做每日一词/一理。
    • Quizlet API: 接入用户的生词本或知识集,实现“个性化错题/重点”音频播报。
  • 行业标准与规范:
    • Go 语言官方博客/文档: 定时监控 golang.org/doc 的更新,播报最新的语法改进或最佳实践。
    • CSDN/掘金热榜: 抓取每日技术高赞文章,提取其中的核心结论(而非正文)。
  • 英语/语言学习:
    • BBC Learning English / VOA Special English: 抓取最新的每日短音频或新闻稿件。

💡 技术实现小贴士 (For Developer)

  1. 频率控制: 建议“硬核职场”每 2 小时更新一次,“生活管家”每天清晨 5 点更新一次。
  2. 数据清洗: 抓取回来的 HTML 需使用 Goquery (Golang) 库进行清洗,只保留核心文本,减少 Token 浪费。
  3. UUID 存储: 每个抓取到的内容条目,在存入 sundynix_audio_content 表时,务必生成唯一的 UUID 以防内容重复。