笔记
1.robots.txt
Robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。
文件写法
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
/* TEAM */
Founder & Developer: Jacky Chan
Contact: linux_china [at] hotmail.com
Weibo: @linux_china
Blog: http://intellij.org.cn/blog
From: HangZhou, ZheJiang, China
University: Beijing Institute of Technology
Degree: Bachelor
/* THANKS */
humans.txt Founder: Abel Cabans
Site: http://www.humanstxt.org
/* SITE */
Last update: 2013/01/23
Language: Chinese
Doctype: HTML5
Standards: HTML5, CSS3
Components: RequireJS, JQuery, Backbone, BootStrap
Core: Java, Struts, SpringFramework, Hibernate, Lucene, MySQL, Redis, S3, SES
Deployment: AWS, Amazon Linux, Apache, Varnish, Tomcat, Git, TeamCity, Apache Maven
Software: ImageMagick, PhantomJS
IDE: IntelliJ IDEA
__ __ _______ ________
/ / / /_ ______ ___ ____ _____ ____/_ __/ |/ /_ __/
/ /_/ / / / / __ `__ \/ __ `/ __ \/ ___// / | / / /
/ __ / /_/ / / / / / / /_/ / / / (__ )/ / / | / /
/_/ /_/\__,_/_/ /_/ /_/\__,_/_/ /_/____//_/ /_/|_|/_/
这是一个初创团队,我们致力于humans.txt的规范指定、推广和humans站点聚合,为更多Geek提供信息沟通的渠道。
如果你有对这个非常感兴趣,欢迎你微博给我们留言。
# EditorConfig is awesome: http://EditorConfig.org
# top-most EditorConfig file
root = true
# Unix-style newlines with a newline ending every file
[*]
end_of_line = lf
insert_final_newline = true
# Matches multiple files with brace expansion notation
# Set default charset
[*.{js,py}]
charset = utf-8
# 4 space indentation
[*.py]
indent_style = space
indent_size = 4
# Tab indentation (no size specified)
[Makefile]
indent_style = tab
# Indentation override for all JS under lib directory
[lib/**.js]
indent_style = space
indent_size = 2
# Matches the exact files either package.json or .travis.yml
[{package.json,.travis.yml}]
indent_style = space
indent_size = 2
lang
lang="zh-CN"
<meta charset='utf-8'>
放在<title>上面