今天在试图爬虫新闻网站时想把网页上的所有url抓下来并归类,所以写了几行小代码。
为了促进自己学习,就把简陋的代码放在简书上发布,也当是一份学习笔记。
# -*- coding: utf-8 -*-
"""
Created on Sun Jul 3 00:31:06 2016
@author: Cy
"""
import requests
from bs4 import BeautifulSoup
def getallurl(url=r'http://www.sina.com.cn'):
r=requests.get(url)
s=BeautifulSoup(r.content,'lxml')
atag=s.find_all('a')
listurl=[]
for each in atag:
try:
listurl.append([each['href'],each.text])
except:
listurl.append(['',each.text])
return listurl
if __name__ == '__main__':
#inputurl=str(input("input the url: \n"))
#listurl=getallurl(inputurl)
listurl=getallurl()
for i in range(len(listurl)):
print("The %sth url is: %s, and the titileis: %s \n" % (i,listurl[i][0],listurl[i][1]))