之前在一个杂志社就职,需要做一个文章阅读管理器。但是接口返回的文章内容都是带有html标签的文章。使用过很多第三方的内容,但是解析出来的内容都不是很让人满意。于是在13年的时候自己写了一个方法,来全面解析这类html标签的文章,测试基本都可以把里面的html 标签的文字 图片 包括图片的宽高解析出来。不多说直接上效果。
解析的基本原理和过程是,首先对文章里的单标签处理标记。然后在对我们需要的目标标签进行标记和保护。最后去掉所有无用标签。对于一些转义字符在处理的时候也有处理。具体代码晚些将附上链接。不足之处,多多批评。
具体项目appstore 搜索fotomen