登录注册写文章

bash 爬虫

thebeeman

bash 爬虫

问题描述：

我想下载特定网页中包含的.pcap和.pcap.gz文件，使用bash脚本自动完成，不需要手动挨个点。

解决方案:

1. 下载网页保存

curl -O -s https://wiki.wireshark.org/SampleCaptures

2. 提取网页中的要下载的文件名称

for i in `cat SampleCaptures | grep -hoir 'target=[a-zA-Z0-9_-]*.pcap'`

文件名特征是字母、数字、-、_这几种字符组合而成，文件名叫做'target=xx.pcap'`，用正则就可以提取。

3. 组合url字符串并下载

base="https://wiki.wireshark.org/SampleCaptures?action=AttachFile&do=get&";for i in `cat SampleCaptures | grep -hoir 'target=[a-zA-Z0-9_-]*.pcap'`; do echo "downloading ${base}${i} ..."; curl -s -O "${base}${i}"; done

最后编辑于：2017.12.06 00:37:04

推荐阅读更多精彩内容

Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 134,991评论 19赞 139
Linux Shell 脚本攻略
第1章小试牛刀 $ 是普通用户，# 表示管理员用户 root。 shebang：#!。sharp / hash ...
巴喬書摘阅读 6,423评论 1赞 4
Chapter 3. 用户界面
3.1. 介绍现在，您已经安装了Wireshark并有可能热衷于开始捕捉您的第一个数据包。在接下来的章节中，我们...
wwyyzz阅读 1,414评论 0赞 1
常用Linux 服务器命令
如果你想知道你的服务器正在做干什么，你就需要了解一些基本的命令，一旦你精通了这些命令，那你就是一个专业的 Linu...
七寸知架构阅读 10,957评论 1赞 71
有个不午睡的娃，是老天爷给的“爱的惩罚”，哈哈哈哈
【一分钟认识我：我是柏柏BJ,亲子漫画家，自由漫画人，坐标帝都，多家报刊和杂志漫画专栏作者，多家母婴网站最具影响力...
柏柏育儿漫画阅读 924评论 0赞 1

赞1赞

赞赏

手机看全文