Python库Feedparser+Atom订阅源的妙用

解放双手,每天自动把博客信息更新至GitHub主页

背景

最近在弄GitHub主页美化的时候,搞了一些感觉比较好玩有趣的东西,有兴趣的朋友可以看看

这里贴个我的主页地址:https://github.com/JS-banana,有兴趣的可以看看~

当时在编辑个人信息介绍的时候,产生了一个想法:可以在我的GitHub主页同步我的博客更新状态吗?

当我更新博客的时候,我的GitHub主页会自动把我博客最新更新的内容同步过去,很棒啊有没有~

这是当时产生的一个想法,后来就研究了一下。最开始是想用nodejs写个爬虫搞一搞的,也没啥问题,不过这样搞会有很多缺陷,我自己也只能搞个半成品,也不具有一定的复用性,就排除了~

后来看到了Pythonfeedparser库,感觉非常合适有没有啊。(feedparserpython中最常用的RSS程序库,使用它我们可轻松地实现从任何 RSSAtom 订阅源得到标题、链接和文章的条目。)

也看了下效果,感觉很不错,这样我们只要做两件事即可:

  • 实现 Atom 订阅源(供feedparser库使用)
  • 实现 README.md 文件的动态更新(获取到订阅信息后更新主页)
emoji

RSS、Atom 订阅源

RSS订阅我们应该不陌生,我们在浏览很多大佬博客的时候、知名网站和服务时会发现他们都提供有RSS/Atom订阅,那么什么是RSS?什么是Atom呢?

什么是 RSS?

  • Really Simple Syndication(真正简易联合)
  • 使您有能力聚合(syndicate)网站的内容
  • 定义了非常简单的方法来共享和查看标题和内容
  • 文件可被自动更新
  • 允许为不同的网站进行视图的个性化
  • 使用 XML 编写

为什么使用 RSS?

RSS 被设计用来展示选定的数据。

如果没有 RSS,用户就不得不每日都来您的网站检查新的内容。对许多用户来说这样太费时了。通过 RSS feedRSS 通常被称为 News feedRSS feed),用户们可以使用 RSS 聚合器来更快地检查您的网站更新(RSS 聚合器是用来聚集并分类 RSS feed 的网站或软件)。

RSS的未来发展(Atom的诞生)

因为RSS 2.0的版权问题,该协议前途未卜

由于RSS前途未卜,而且RSS标准发展存在诸多问题或不足,于是ATOM横空出世,可以先简单的理解为RSS的替代品

FEED 是什么

FEED其实就是RSS(或ATOM)和订阅用户之间的“中间商”,起到帮忙批发传递信息的作用。所以,FEED的常见格式就是RSSATOM,网络上说的FEED订阅,更确切的说法应该仍然是RSSATOM订阅。

什么是订阅

订阅跟普通大家订阅报刊类似,不过几乎所有网站的RSS/ATOM订阅都是免费的,也有一些“非主流”一族要收费订阅的,当然FEED订阅只是网络上的信息传递,一般不涉及实体资料传递,所以大家遇到喜欢的网站,并且也喜欢使用在线或离线阅读,尽可订阅,而且可以随时退订。

总结

RSSAtom 具有相似的基于 XML 的格式。它们的基本结构是相同的,只是在节点的表达式上有一点区别。我们只要了解ATOM是对RSS2.0的改进就可以了。

生成自己网站的Atom订阅源

Atom订阅源 基本结构

了解 atom.xml 的基本格式和语法,看个最简单的demo

<!-- 头信息 -->
<?xml version="1.0" encoding="utf-8"?>

<!-- 主体 -->
<feed xmlns="http://www.w3.org/2005/Atom">
  <!-- 基本信息 -->
  <title>小帅の技术博客</title>
  <link href="https://ssscode.com/atom.xml" rel="self"/>
  <link href="https://ssscode.com/"/>
  <updated>2021-08-28 16:25:56</updated>
  <id>https://ssscode.com/</id>
  <author>
    <name>JS-banana</name>
    <email>sss213018@163.com</email>
  </author>

  <!-- 内容区 -->
  <entry>
    <title>Webpack + React + TypeScript 构建一个标准化应用</title>
    <link href="https://ssscode.com/pages/c3ea73/" />
    <id>https://ssscode.com/pages/c3ea73/</id>
    <published>2021-08-28 16:25:56</published>
    <update>2021-08-28 16:25:56</update>
    <content type="html"></content>
    <summary type="html"></summary>
    <category term="webpack" scheme="https://ssscode.com/categories/?category=JavaScript"/>
  </entry>

  <entry>
    ...
  </entry>

    ...

</feed>

基本信息那一块完全可以自己自定义配置好,然后,再去头去尾之后,可以发现我们只要关心 <entry> ... </entry> 标签内容即可,也就是每条博客文章的基本信息~

因此,我们只要按照这个规范、格式、语法,完全可以自己生成atom.xml,nice😎~

不想自己写的可以试试这个 feed

hello

编写 atom.xml 文件生成函数

因为我的博客是以vuepress搭建的(webpack + vue2.x),这里就以nodejs为例

读取所有markdwon文件就不细说了,我们拿到所有的列表数据,进行一下简单的处理,这里只填写一些我们需要的数据即可,如果想阅读订阅源使用,也可以自己丰富信息内容~

const DATA_FORMAT = 'YYYY-MM-DD HH:mm:ss';

// posts 是所有的博客文章信息
// xml 中的 & 符号需要替换为 &amp; 否则会有语法错误
function toXml(posts) {
  const feed = `<?xml version="1.0" encoding="utf-8"?>
  <feed xmlns="http://www.w3.org/2005/Atom">
    <title>小帅の技术博客</title>
    <link href="https://ssscode.com/atom.xml" rel="self"/>
    <link href="https://ssscode.com/"/>
    <updated>${dayjs().format(DATA_FORMAT)}</updated>
    <id>https://ssscode.com/</id>
    <author>
      <name>JS-banana</name>
      <email>sss213018@163.com</email>
    </author>
    ${posts
      .map(item => {
        return `
        <entry>
          <title>${item.title.replace(/(&)/g, '&amp;')}</title>
          <link href="https://ssscode.com${item.permalink}" />
          <id>https://ssscode.com${item.permalink}</id>
          <published>${item.date.slice(0, 10)}</published>
          <update>${item.date}</update>
        </entry>`;
      })
      .join('\n')}
  </feed>`;

  fs.writeFile(path.resolve(process.cwd(), './atom.xml'), feed, function(err) {
    if (err) return console.log(err);
    console.log('文件写入成功!');
  });
}

node执行该文件,应该会在同级目录下生成一个 atom.xml 文件,可以看到

1

ok,atom订阅源搞定~

feedparser的简单用法

python feedparser,网上似乎也有node版本的,这里就先不关心了

把刚才的demo内容片段复制到atom.xml文件,简单测试下用法,看下返回值格式,为了更清晰的看结构,我把python执行的结果处理了一下

atom.xml源文件

<?xml version="1.0" encoding="utf-8"?>
<feed xmlns="http://www.w3.org/2005/Atom">
  <title>小帅の技术博客</title>
  <link href="https://ssscode.com/atom.xml" rel="self"/>
  <link href="https://ssscode.com/"/>
  <updated>2021-08-28 16:25:56</updated>
  <id>https://ssscode.com/</id>
  <author>
    <name>JS-banana</name>
    <email>sss213018@163.com</email>
  </author>
  <entry>
    <title>Webpack + React + TypeScript 构建一个标准化应用</title>
    <link href="https://ssscode.com/pages/c3ea73/" />
    <id>https://ssscode.com/pages/c3ea73/</id>
    <published>2021-08-28 16:25:56</published>
    <update>2021-08-28 16:25:56</update>
  </entry>
</feed>

main.py脚本

import feedparser

blog_feed_url = "./atom.xml"

feeds = feedparser.parse(blog_feed_url)

print (feeds)

输出结果大致结构如下

{
  bozo: 1,
  // entries
  entries: [
    {
      title: "Webpack + React + TypeScript 构建一个标准化应用",
      title_detail: {
        type: "text/dplain",
        language: None,
        base: "",
        value: "Webpack + React + TypeScript 构建一个标准化应用",
      },
      links: [{ href: "https://ssscode.com/pages/c3ea73/", rel: "alternate", type: "text/html" }],
      link: "https://ssscode.com/pages2/c3ea73/",
      id: "https://ssscode.com/pages/c3ea73/",
      guidislink: False,
      published: "2021-08-28 16:25:56",
      publoished_parsed: time.struct_time(), // 一个日期处理函数,参数比较多,我删掉了,只看代码结构
      update: "2021-08-28 16:25:56",
    },
  ],
  // feed
  feed: {
    title: "小帅の技术博客",
    title_detail: { type: "text/plain", language: None, base: "", value: "小帅の技术博客" },
    links: [
      { href: "https://ssscode.com/atom.xml", rel: "self", type: "application/atom+xml" },
      { href: "https://ssscode.com/", rel: "alternate", type: "text/html" },
    ],
    link: "https://ssscode.com/",
    updated: "2021-08-28 16:25:56",
    updated_parsed: time.struct_time(),
    id: "https://ssscode.com/",
    guidislink: False,
    authors: [{ name: "JS-banana", email: "sss213018@163.com" }],
    author_detail: { name: "JS-banana", email: "sss213018@163.com" },
    author: "JS-banana (sss213018@163.com)",
  },
  headers: {},
  encoding: "utf-8",
  version: "atom10",
  bozo_exception: SAXParseException("XML or text declaration not at start of entity"),
  namespaces: { "": "http://www.w3.org/2005/Atom" },
}

可以看到,拿到所有的entries即可,编写个函数,取一些我们需要的内容

def fetch_blog_entries():
    entries = feedparser.parse(blog_feed_url)["entries"]
    return [
        {
            "title": entry["title"],
            "url": entry["link"].split("#")[0],
            "published": entry["published"].split("T")[0],
        }
        for entry in entries
    ]

替换markdown文件指定区域内容

剩下最后一步就是:怎么把我们README.md主页文件中指定的区域内容替换掉,然后在推送到GitHub完成更新即可

### Hello, 我是小帅! 👋

...
...
其他信息

<!-- start -->
  这里显示博客信息
<!-- end -->

如上,除了指定的区域需要更新,其他地方是不需要变动的

这时就可以通过Python可以读取注释,然后使用正则处理替换,即可

我们在 README.md 中标记注释

<!-- blog starts -->
  ...
<!-- blog ends -->

代码:

def replace_chunk(content, marker, chunk, inline=False):
    r = re.compile(
        r"<!\-\- {} starts \-\->.*<!\-\- {} ends \-\->".format(marker, marker),
        re.DOTALL,
    )
    if not inline:
        chunk = "\n{}\n".format(chunk)
    chunk = "<!-- {} starts -->{}<!-- {} ends -->".format(marker, chunk, marker)
    return r.sub(chunk, content)

最后,再结合接口请求、文件读取等,完整代码如下

import feedparser
import json
import pathlib
import re
import os
import datetime

blog_feed_url = "https://ssscode.com/atom.xml"

root = pathlib.Path(__file__).parent.resolve()

def replace_chunk(content, marker, chunk, inline=False):
    r = re.compile(
        r"<!\-\- {} starts \-\->.*<!\-\- {} ends \-\->".format(marker, marker),
        re.DOTALL,
    )
    if not inline:
        chunk = "\n{}\n".format(chunk)
    chunk = "<!-- {} starts -->{}<!-- {} ends -->".format(marker, chunk, marker)
    return r.sub(chunk, content)

def fetch_blog_entries():
    entries = feedparser.parse(blog_feed_url)["entries"]
    return [
        {
            "title": entry["title"],
            "url": entry["link"].split("#")[0],
            "published": entry["published"].split("T")[0],
        }
        for entry in entries
    ]

if __name__ == "__main__":
    readme = root / "README.md"
    readme_contents = readme.open(encoding='UTF-8').read()

    entries = fetch_blog_entries()[:5]
    entries_md = "\n".join(
        ["* <a href='{url}' target='_blank'>{title}</a> - {published}".format(**entry) for entry in entries]
    )
    rewritten = replace_chunk(readme_contents, "blog", entries_md)

    readme.open("w", encoding='UTF-8').write(rewritten)

我对Python也不熟,不过跟着前人的脚步,模仿着使用也能达到预期效果,还行~

最近稍微接触了一些Python相关的脚本库,发现还挺有意思的,觉得还是很有必要学习学习,日常使用中还是很有帮助的,毕竟现在Python也是很火热的嘛,就算当工具用,感觉也很强力~

配置 GitHub Action 定时任务

实现功能的脚本已经搞定了,现在就是希望在我们完成博客更新后,脚本可以自动执行

这里我们直接使用 GitHub Action 的定时任务即可

项目里添加文件 .github/workflows/ci.yml

name: Build README

on:
  workflow_dispatch:
  schedule:
    - cron: "30 0 * * *" # 每天 0:30 时运行,北京时间需要 + 8

jobs:
  build:
    runs-on: ubuntu-latest
    steps:
      - name: Check out repo # 获取代码分支
        uses: actions/checkout@v2

      - name: Set up Python # python 环境
        uses: actions/setup-python@v2
        with:
          python-version: 3.8

      - uses: actions/cache@v2 # 依赖缓存
        name: Configure pip caching
        with:
          path: ~/.cache/pip
          key: ${{ runner.os }}-pip-${{ hashFiles('**/requirements.txt') }}
          restore-keys: |
            ${{ runner.os }}-pip-

      - name: Install Python dependencies # 安装依赖
        run: |
          python -m pip install -r requirements.txt

      - name: Update README # 执行脚本
        run: |-
          python build_readme.py
          cat README.md

      - name: Commit and push if changed # Git 提交
        run: |-
          git diff
          git config --global user.email "sss213018@163.com"
          git config --global user.name "JS-banana"
          git pull
          git add -A
          git commit -m "Updated README content" || exit 0
          git push

大功告成~

看下效果:

2

这样脚本每天都会跑一次,同步博客相关信息~

emoji

结语

之前只知道RSS订阅,完全不清楚还有这么些的细节,这次也算梳理搞清楚了一些,也尝试自己玩了一下,还是挺不错的~

感觉多会一门语言还是很棒的啊,有时会给你完全不一样的思路,或许就会有更加好的方案~

扶我起来,我还能学

参考

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,126评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,254评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,445评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,185评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,178评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,970评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,276评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,927评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,400评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,883评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,997评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,646评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,213评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,204评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,423评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,423评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,722评论 2 345

推荐阅读更多精彩内容

  • 16宿命:用概率思维提高你的胜算 以前的我是风险厌恶者,不喜欢去冒险,但是人生放弃了冒险,也就放弃了无数的可能。 ...
    yichen大刀阅读 6,033评论 0 4
  • 公元:2019年11月28日19时42分农历:二零一九年 十一月 初三日 戌时干支:己亥乙亥己巳甲戌当月节气:立冬...
    石放阅读 6,870评论 0 2