3.6 KiB
3.6 KiB
早安电台:垂直领域内容抓取源清单 (2026版)
这份清单为不同场景的电台提供“食材”来源,建议通过 Go 后端定时任务 (Cron Job) 自动抓取并推送到 LLM 进行摘要改写。
1. 【硬核职场】AI 商业机会方向
目标:提供最具时效性的“信息差”和变现线索。
核心抓取源:
- 技术趋势 API:
- GitHub API: 抓取
/search/repositories,筛选过去 24 小时内 Star 增长最快的 AI/Agent 相关项目。 - Hugging Face: 监控其
Trending页面,提取每日热门开源模型及其应用场景。
- GitHub API: 抓取
- 产品发布与商业线索:
- Product Hunt API: 获取每日 Upvote 前 10 的产品描述,由 AI 筛选其中具有“盈利模型”的项目。
- Indie Hackers: 爬取
Revenue板块,获取独立开发者的最新收入报告和成功路径。
- 行业动态:
- 深度快讯 (DeepSeek/Google/OpenAI): 订阅其开发者博客的 RSS,实时监控模型降价或新功能发布。
2. 【效率健康】个人数字健康方向
目标:结合实时运动数据与专业健康建议。
核心抓取源:
- 用户实时数据 (小程序端):
- WeRun (微信运动): 接口
wx.getWeRunData获取步数(需用户授权)。
- WeRun (微信运动): 接口
- 专业健康内容:
- PubMed/Nature API: 抓取关于“运动表现”或“睡眠科学”的最新研究摘要,转译为科普短语音。
- Healthline/WebMD: 爬取每日健康小贴士(如:今日最适合的燃脂食物建议)。
- 环境与压力感知:
- QWeather (和风天气) API: 不仅获取气温,重点关注“运动指数”、“过敏指数”及“紫外线强度”。
3. 【极简生活】脱手式晨间管家方向
目标:提供本地化、高实用性的生活情报。
核心抓取源:
- 本地化民生信息:
- 本地政府/电力/供水公示: 监控特定城市的政务 RSS,抓取停水、停电或道路临时封堵信息。
- 小红书 (RedNote) 热榜: 通过搜索接口抓取当地“今日热门打卡点”或“避雷指南”。
- 消费与价格:
- 每日生鲜价格 API: 监控如美团买菜/叮咚买菜的每日低价、特价商品(通过爬虫抓取首页 Banner 信息)。
- 时间/日程管理:
- 中国万年历 API: 播报今日忌宜、节气特征及重要的法定节假日提醒。
4. 【知识胶囊】备考与职场进阶方向
目标:将长文本转化为碎片化听觉知识点。
核心抓取源:
- 权威教育资源:
- Khan Academy API: 获取各学科的知识节点摘要,适合做每日一词/一理。
- Quizlet API: 接入用户的生词本或知识集,实现“个性化错题/重点”音频播报。
- 行业标准与规范:
- Go 语言官方博客/文档: 定时监控
golang.org/doc的更新,播报最新的语法改进或最佳实践。 - CSDN/掘金热榜: 抓取每日技术高赞文章,提取其中的核心结论(而非正文)。
- Go 语言官方博客/文档: 定时监控
- 英语/语言学习:
- BBC Learning English / VOA Special English: 抓取最新的每日短音频或新闻稿件。
💡 技术实现小贴士 (For Developer)
- 频率控制: 建议“硬核职场”每 2 小时更新一次,“生活管家”每天清晨 5 点更新一次。
- 数据清洗: 抓取回来的 HTML 需使用
Goquery(Golang) 库进行清洗,只保留核心文本,减少 Token 浪费。 - UUID 存储: 每个抓取到的内容条目,在存入
sundynix_audio_content表时,务必生成唯一的 UUID 以防内容重复。