69 lines
3.6 KiB
Markdown
69 lines
3.6 KiB
Markdown
# 早安电台:垂直领域内容抓取源清单 (2026版)
|
|
|
|
这份清单为不同场景的电台提供“食材”来源,建议通过 Go 后端定时任务 (Cron Job) 自动抓取并推送到 LLM 进行摘要改写。
|
|
|
|
---
|
|
|
|
## 1. 【硬核职场】AI 商业机会方向
|
|
*目标:提供最具时效性的“信息差”和变现线索。*
|
|
|
|
### 核心抓取源:
|
|
* **技术趋势 API:**
|
|
* **GitHub API:** 抓取 `/search/repositories`,筛选过去 24 小时内 Star 增长最快的 AI/Agent 相关项目。
|
|
* **Hugging Face:** 监控其 `Trending` 页面,提取每日热门开源模型及其应用场景。
|
|
* **产品发布与商业线索:**
|
|
* **Product Hunt API:** 获取每日 Upvote 前 10 的产品描述,由 AI 筛选其中具有“盈利模型”的项目。
|
|
* **Indie Hackers:** 爬取 `Revenue` 板块,获取独立开发者的最新收入报告和成功路径。
|
|
* **行业动态:**
|
|
* **深度快讯 (DeepSeek/Google/OpenAI):** 订阅其开发者博客的 RSS,实时监控模型降价或新功能发布。
|
|
|
|
---
|
|
|
|
## 2. 【效率健康】个人数字健康方向
|
|
*目标:结合实时运动数据与专业健康建议。*
|
|
|
|
### 核心抓取源:
|
|
* **用户实时数据 (小程序端):**
|
|
* **WeRun (微信运动):** 接口 `wx.getWeRunData` 获取步数(需用户授权)。
|
|
* **专业健康内容:**
|
|
* **PubMed/Nature API:** 抓取关于“运动表现”或“睡眠科学”的最新研究摘要,转译为科普短语音。
|
|
* **Healthline/WebMD:** 爬取每日健康小贴士(如:今日最适合的燃脂食物建议)。
|
|
* **环境与压力感知:**
|
|
* **QWeather (和风天气) API:** 不仅获取气温,重点关注“运动指数”、“过敏指数”及“紫外线强度”。
|
|
|
|
---
|
|
|
|
## 3. 【极简生活】脱手式晨间管家方向
|
|
*目标:提供本地化、高实用性的生活情报。*
|
|
|
|
### 核心抓取源:
|
|
* **本地化民生信息:**
|
|
* **本地政府/电力/供水公示:** 监控特定城市的政务 RSS,抓取停水、停电或道路临时封堵信息。
|
|
* **小红书 (RedNote) 热榜:** 通过搜索接口抓取当地“今日热门打卡点”或“避雷指南”。
|
|
* **消费与价格:**
|
|
* **每日生鲜价格 API:** 监控如美团买菜/叮咚买菜的每日低价、特价商品(通过爬虫抓取首页 Banner 信息)。
|
|
* **时间/日程管理:**
|
|
* **中国万年历 API:** 播报今日忌宜、节气特征及重要的法定节假日提醒。
|
|
|
|
---
|
|
|
|
## 4. 【知识胶囊】备考与职场进阶方向
|
|
*目标:将长文本转化为碎片化听觉知识点。*
|
|
|
|
### 核心抓取源:
|
|
* **权威教育资源:**
|
|
* **Khan Academy API:** 获取各学科的知识节点摘要,适合做每日一词/一理。
|
|
* **Quizlet API:** 接入用户的生词本或知识集,实现“个性化错题/重点”音频播报。
|
|
* **行业标准与规范:**
|
|
* **Go 语言官方博客/文档:** 定时监控 `golang.org/doc` 的更新,播报最新的语法改进或最佳实践。
|
|
* **CSDN/掘金热榜:** 抓取每日技术高赞文章,提取其中的核心结论(而非正文)。
|
|
* **英语/语言学习:**
|
|
* **BBC Learning English / VOA Special English:** 抓取最新的每日短音频或新闻稿件。
|
|
|
|
---
|
|
|
|
## 💡 技术实现小贴士 (For Developer)
|
|
|
|
1. **频率控制:** 建议“硬核职场”每 2 小时更新一次,“生活管家”每天清晨 5 点更新一次。
|
|
2. **数据清洗:** 抓取回来的 HTML 需使用 `Goquery` (Golang) 库进行清洗,只保留核心文本,减少 Token 浪费。
|
|
3. **UUID 存储:** 每个抓取到的内容条目,在存入 `sundynix_audio_content` 表时,务必生成唯一的 UUID 以防内容重复。 |