内容样式

内容样式 Content Types

通常，内容元素用于从一个网页中提取数据，并在输出数据中有相应的数据字段。内容元素通常在当前网页上选择一个HTML元素，并从该元素中提取文本或其他属性。

一些内容类型不提取数据，而是执行一个脚本来操作输出数据或修改数据提取过程。

下面的子主题描述了 Visual Web Ripper所支持的每种类型的内容。

[Element] (元素)
[FormField] (表单字段)
[PageAttribute] (页面属性)
[FixedValue] (固定值)
[Script] (脚本)
[Page Transformation] (页面转换)

Element 元素内容

这是最常用的从网页中提取内容元素的内容类型。元素内容总是选择当前网页上的HTML元素，并从元素中提取文本或其他属性。

内容转换脚本通常与元素内容一起使用，以修改提取的数据。内容转换脚本可以提取更小的数据片段。例如，一个HTML元素可能包含一个完整的地址。元素内容可用于将完整地址提取到一个数据字段中，内容转换可用于从完整地址提取状态或邮政编码。
有关更多信息，请参阅内容转换。

Element Options
在添加元素内容时，您需要指定从所选的HTML元素中提取哪些属性。您可以通过选择内容捕捉类型选项来实现这一点。

内容获取类型	Content Capture Types
Text	提取所选HTML元素的内部文本。内部文本是您在web浏览器中看到的文本。
HTML	提取所选HTML元素的外部HTML。
Inner HTML	提取所选HTML元素的内部HTML。
Tag name	提取所选HTML元素的标签名。
File	如果选中的HTML元素链接到一个文档，那么文档将被保存到一个磁盘，文档的本地路径将被保存到输出数据中。请参阅提交Web表单以获得关于在表单提交上下载文件的更多信息。
Link	如果选中的HTML元素是一个链接元素，则提取链接URL。如果HTML元素是一个图像元素，则提取图像的URL。
Image	如果选中的HTML元素是一个图像元素，则将图像保存到磁盘，并将图像的本地路径保存到输出数据中。
Attribute	提取所选元素的指定属性。您可以使用下拉菜单来选择公共属性，或者直接输入属性的名称，如果它不在下拉菜单中。
Tag text	提取所选HTML元素的文本，但不包括所有子元素的文本。
Screen	捕获所选元素的屏幕截图。请阅读下面的内容，了解更多关于此内容类型的限制和附加选项。

以下两种情况，当内容capture type被设置为文本时也可以使用。

Line breaks. HTML换行标签和段落标签被转换成 \n。
All paragraphs. HTML段落标签常常位于彼此相邻的位置，有时很难在不手动设置XPath的情况下选择它们。这个选项会自动选择所选段落标签旁边的所有段落标签。

下面的选项也可以用于元素内容:

Misc content options
Xpath options
Filter options
Condition options

捕获选定元素的屏幕快照
重要: Visual Web Ripper只能在WebBrowser模式下捕获屏幕截图，而视图浏览器选项重置。Visual Web Ripper 可能无法在所有网站上捕捉到完美的截屏，也可能无法捕捉到一些网络元素。

使用屏幕内容类型捕获所选web元素的屏幕截图。选择整个页面以捕获整个web页面的屏幕快照。

使用Advanced options选项卡为这个内容类型设置额外的选项。

Advanced Options

说明	--
Screen fixed width	固定宽度的截图。如果将该值设置为0，则将使用所选元素的宽度。一些web元素可能有一个宽度，这取决于web浏览器的宽度，在这种情况下，您应该将该选项设置为适当的宽度。
Screen fixed height	截屏的固定高度。如果将该值设置为0，则将使用所选元素的高度。
Screen thumbnail width	生成的缩略图的宽度。如果该值设置为0，则将捕捉完整的大小图像。
Screen thumbnail height	生成的缩略图的高度。如果这个值设置为0，那么高度将自动计算。
Screen adjust thumbnail height	捕捉到的图像的高度将被裁切或扩展，以生成一个更好的缩略图。

FormField内容

FormField内容总是与FormSubmit模板相关联，用于向web表单提供输入数据。FormField内容总是在当前网页上选择web表单输入字段。可以在捕获窗口中输入单个或多个固定的输入值。输入值也可以从不同的输入数据源获得。

Visual Web Ripper GUI中的捕获窗口通常会显示捕获内容的示例，但是对于FormField内容，它将显示当前的输入值。您可以在捕获窗口中输入任意数量的值。可视Web开膛手一次性提交一个Web表单，用于每次输入值的组合，因此如果您有两个表单字段内容元素，每个输入值都有两个输入值，那么 Visual Web Ripper将会四次提交Web表单。

如果FormField内容选择一个下拉菜单，并设置为遍历其中的所有值，那么下拉菜单中的所有值都将显示在捕获窗口中。如果您想在下拉菜单中只提交表单的一些值，那么您可以使用 Iterate all list values 选项，并删除您不希望从捕获窗口中使用的值。

您可以使用输入数据源来为表单字段提供输入值。输入数据源可以是一个数据库或一个CSV文件。如果您选择了一个查找数据源，您可以从查找数据源提交一个单一常量值，或者您可以为查找数据源中的所有值提交表单。如果您选择了一个输入数据源，您可以选择要使用哪个数据列，并使用当前输入数据行提交表单。如果一个单独的输入数据源与FormSubmit模板相关联，那么将使用这个输入数据源。否则，将使用全局输入数据源。

FormField Options	选项
FormSubmit template	如果您在一个父模板中有多个FormSubmit模板，那么这个选项将指定这个FormField内容属于哪个FormSubmit模板。
Input transformation	可以使用一个脚本来转换这个FormField内容的输入值。该脚本不需要转换当前的输入值，但是它可以返回一个新的值。
Design time value	如果为表单字段指定了多个输入值，则该选项指定在设计数据提取项目时使用的值。
Start index	如果为表单字段指定了多个输入值，则该选项指定要使用的第一个值的索引。
Count	如果为表单字段指定了多个输入值，则该选项指定要使用的值的数量。
Iterate all list values	在下拉菜单或列表框中使用所有值作为输入值。如果FormField内容选择下拉菜单或列表框，那么您可以选中这个选项，您只需要使用几个值作为输入值。
Save list values to file	：在一个下拉菜单或列表框中保存所有的值到CSV文件。

以下的选项也可以用于FormField的内容:

Misc content options
Xpath options
Filter options
Condition options
Database options

PageAttribute内容

PageAttribute内容可以用来提取页面属性，比如页面URL、页面标题或页面元标签。页面属性内容从不选择HTML元素，但总是提取整个页面的信息。

PageAttribute Options
当添加PageAttribute内容时，页面属性下拉菜单在Misc options选项卡中可用。

页面属性下拉菜单中可用的选项取决于当前页面上可用的数据，但是下面的表格描述了最常见的选项:

PageAttribute Options	--
Description	如果存在的话，描述元标签的内容。
Head	Head元素的整个HTML，如果它存在的话。
HTML	整个网页的HTML。
Keywords	关键字元标签的内容，如果它存在的话。
Timestamp	时间截，当前的日期和时间。这个值与当前网页无关。
Title	<title>中内容
URL	当前页面URL

FixedValue内容

FixedValue内容用于向数据输出添加一个常量值。必须在捕捉文本框中输入常量值。

固定值内容元素经常与内容转换脚本结合使用，其中脚本用于计算常量值。该脚本可以使用其他提取的数据来计算常量值，在这种情况下，常量值不是真正的常量。有关更多信息，请参阅内容转换。

一个FixedValue内容元素可以被分配到输入数据源中的一个列中。

FixedValue Options
下面的选项可以用于FixedValue内容:

Misc content options
Database options

Script 内容

此内容类型不会生成输出数据或在网页上选择HTML元素。通常，脚本内容用于重新组织或修改提取的数据。

Script Options	脚本选项
Execute script last in template	在模板中提取所有内容之后，执行脚本，包括在任何子模板中定义的所有内容。
Execute script first in template	在提取模板中的任何内容之前执行脚本。
Execute script after	在特定的内容元素或模板之后执行脚本。

Script Options
通过选择以下选项之一，可以在模板的任何地方执行脚本。请注意，如果您在模板中首先执行脚本，那么从模板中提取的数据都是可用的。

Script Options	脚本选项
Execute script last in template	在模板中提取所有内容之后，执行脚本，包括在任何子模板中定义的所有内容。
Execute script first in template	在提取模板中的任何内容之前执行脚本。
Execute script after	在特定的内容元素或模板之后执行脚本。

页面转换 Page Transformation

页面转换可用于在提取任何数据之前在网页上转换HTML。

转换内容必须选择要转换的页面上的HTML元素。

Visual Web Ripper 目前支持三种类型的页面转换:

Remove content 删除内容
Custom transformation 自定义转换
Denormalize table 非规范化表

删除内容 Remove Content

这种类型的转换用于从网页中删除HTML元素。在一个特定的场景中，删除内容转换非常重要，如下所述。

Internet Explorer可能会在从初始化Flash对象的网页中退出时崩溃。Visual Web Ripper 在提取数据时使用了一个互联网的实例，因此如果Internet Explorer崩溃，它也会崩溃。这个问题可能发生在Visual Web Ripper ，因为它比普通的人要快得多。防止这个问题的最好办法是，在导航到另一个网页之前，确保所有的Flash对象都从网页中删除。

你可以使用删除内容页转换从网页中删除一个Flash对象。只需选择包含Flash对象的HTML元素，将转换内容元素添加到项目中，然后选择removeContent 转换类型。

自定义转换Custom Transformation

自定义转换类似于普通的内容转换，通常可以使用它来代替它。例如，您可能想从一个页面中提取一个地址，并使用内容转换将地址分解为街道地址、城市、州和邮政编码。在这种情况下，您需要添加四个内容元素，并将内容转换应用到所有四个元素。如果您使用页面转换，您可以只应用转换一次。

下面的图片显示了在Visual Web Ripper的选择。网页有一个单一地址的HTML元素。

address simple

如果您想要提取单个地址元素，例如街道地址、城市、州和邮政编码，您必须对所有四个内容元素应用内容转换。对于页面转换，您只需要两个转换，而且它们更容易构造。

首先转换
用<span>
</span>，然后在开始和结束时插入了span标签。

<br>
replace </span><br><span>
(.*)
insert <span>$$1</span>

第二个转换用span标记替换空白区域，并在开始和结束时插入span标记。

\s
replace </span> <span>
(.*)
insert <span>$$1</span>

转换后的页面看起来和以前一样，但是现在可以选择页面上的每个单独的地址元素。

after trans

自定义转换不能转换表table元素，但它可以转换表列column内容。使用CustomOuterHtml来转换整个表。

CustomOuterHtml Transformation

CustomOuterHtml Transformation其工作方式与自定义转换相同，只不过它转换了所选HTML元素的外部HTML，而不是内部HTML。这使得转换某些元素变得更加容易，比如整个表。

CustomOuterHtml Transformation不能转换内部表元素，如TBODY、TR或TD元素。

ReplaceHTML Transformation

这个转换用新的HTML替换所选HTML元素的外部HTML。您还可以使用 CustomOuterHtml转换来实现这一点，但是ReplaceHTML transformation 更容易使用，因为它不需要使用正则表达式。

InsertHTML Transformation
这个转换在选中的HTML元素的末尾插入HTML。您还可以使用CustomHtml转换实现这一点，但是InsertHTML 转换更容易使用，因为它不需要使用正则表达式。

Table Denormalization

可以使用表非正规化来从表中轻松地从表中抓取web数据，并使用rowspan和colspan属性。
下面的图片展示了一个使用rowspan和colspan属性来组织数据的表:

table demo

如果想要提取列3中的所有数据，可以创建一个PageArea模板，该模板可以选择每一行，然后提取第3列的内容。

然而，结果很可能是出乎意料的。例如，在第4行中，Visual Web Ripper 只会看到两列，因此不会为第4行提取数据。

Visual Web Ripper可以通过删除rowspan和colspan属性并添加额外的行和列来使非规范化表格。
在非规范化表格之后，表看起来是这样的:

after denormalization

现在很容易创建一个PageArea模板并从第3列中提取数据。

通过添加一个转换内容类型来应用表的非规范化。内容元素应该选择您希望被解除的HTML表元素。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,185评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,445评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,684评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,564评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,681评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,874评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,025评论 3赞 408
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,761评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,217评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,545评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,694评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,351评论 4赞 332
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,988评论 3赞 315
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,778评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,007评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,427评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,580评论 2赞 349