内容样式 Content Types
通常,内容元素用于从一个网页中提取数据,并在输出数据中有相应的数据字段。内容元素通常在当前网页上选择一个HTML元素,并从该元素中提取文本或其他属性。
一些内容类型不提取数据,而是执行一个脚本来操作输出数据或修改数据提取过程。
下面的子主题描述了 Visual Web Ripper所支持的每种类型的内容。
- [Element] (元素)
- [FormField] (表单字段)
- [PageAttribute] (页面属性)
- [FixedValue] (固定值)
- [Script] (脚本)
- [Page Transformation] (页面转换)
Element 元素内容
这是最常用的从网页中提取内容元素的内容类型。元素内容总是选择当前网页上的HTML元素,并从元素中提取文本或其他属性。
内容转换脚本通常与元素内容一起使用,以修改提取的数据。内容转换脚本可以提取更小的数据片段。例如,一个HTML元素可能包含一个完整的地址。元素内容可用于将完整地址提取到一个数据字段中,内容转换可用于从完整地址提取状态或邮政编码。
有关更多信息,请参阅内容转换。
Element Options
在添加元素内容时,您需要指定从所选的HTML元素中提取哪些属性。您可以通过选择内容捕捉类型选项来实现这一点。
内容获取类型 | Content Capture Types |
---|---|
Text | 提取所选HTML元素的内部文本。内部文本是您在web浏览器中看到的文本。 |
HTML | 提取所选HTML元素的外部HTML。 |
Inner HTML | 提取所选HTML元素的内部HTML。 |
Tag name | 提取所选HTML元素的标签名。 |
File | 如果选中的HTML元素链接到一个文档,那么文档将被保存到一个磁盘,文档的本地路径将被保存到输出数据中。请参阅提交Web表单以获得关于在表单提交上下载文件的更多信息。 |
Link | 如果选中的HTML元素是一个链接元素,则提取链接URL。如果HTML元素是一个图像元素,则提取图像的URL。 |
Image | 如果选中的HTML元素是一个图像元素,则将图像保存到磁盘,并将图像的本地路径保存到输出数据中。 |
Attribute | 提取所选元素的指定属性。您可以使用下拉菜单来选择公共属性,或者直接输入属性的名称,如果它不在下拉菜单中。 |
Tag text | 提取所选HTML元素的文本,但不包括所有子元素的文本。 |
Screen | 捕获所选元素的屏幕截图。请阅读下面的内容,了解更多关于此内容类型的限制和附加选项。 |
以下两种情况,当内容capture type被设置为文本时也可以使用。
- Line breaks. HTML换行标签和段落标签被转换成 \n。
- All paragraphs. HTML段落标签常常位于彼此相邻的位置,有时很难在不手动设置XPath的情况下选择它们。这个选项会自动选择所选段落标签旁边的所有段落标签。
下面的选项也可以用于元素内容:
- Misc content options
- Xpath options
- Filter options
- Condition options
捕获选定元素的屏幕快照
重要: Visual Web Ripper只能在WebBrowser模式下捕获屏幕截图,而视图浏览器选项重置。Visual Web Ripper 可能无法在所有网站上捕捉到完美的截屏,也可能无法捕捉到一些网络元素。
使用屏幕内容类型捕获所选web元素的屏幕截图。选择整个页面以捕获整个web页面的屏幕快照。
使用Advanced options选项卡为这个内容类型设置额外的选项。
说明 | -- |
---|---|
Screen fixed width | 固定宽度的截图。如果将该值设置为0,则将使用所选元素的宽度。一些web元素可能有一个宽度,这取决于web浏览器的宽度,在这种情况下,您应该将该选项设置为适当的宽度。 |
Screen fixed height | 截屏的固定高度。如果将该值设置为0,则将使用所选元素的高度。 |
Screen thumbnail width | 生成的缩略图的宽度。如果该值设置为0,则将捕捉完整的大小图像。 |
Screen thumbnail height | 生成的缩略图的高度。如果这个值设置为0,那么高度将自动计算。 |
Screen adjust thumbnail height | 捕捉到的图像的高度将被裁切或扩展,以生成一个更好的缩略图。 |
FormField内容
FormField内容总是与FormSubmit模板相关联,用于向web表单提供输入数据。FormField内容总是在当前网页上选择web表单输入字段。可以在捕获窗口中输入单个或多个固定的输入值。输入值也可以从不同的输入数据源获得。
Visual Web Ripper GUI中的捕获窗口通常会显示捕获内容的示例,但是对于FormField内容,它将显示当前的输入值。您可以在捕获窗口中输入任意数量的值。可视Web开膛手一次性提交一个Web表单,用于每次输入值的组合,因此如果您有两个表单字段内容元素,每个输入值都有两个输入值,那么 Visual Web Ripper将会四次提交Web表单。
如果FormField内容选择一个下拉菜单,并设置为遍历其中的所有值,那么下拉菜单中的所有值都将显示在捕获窗口中。如果您想在下拉菜单中只提交表单的一些值,那么您可以使用 Iterate all list values 选项,并删除您不希望从捕获窗口中使用的值。
您可以使用输入数据源来为表单字段提供输入值。输入数据源可以是一个数据库或一个CSV文件。如果您选择了一个查找数据源,您可以从查找数据源提交一个单一常量值,或者您可以为查找数据源中的所有值提交表单。如果您选择了一个输入数据源,您可以选择要使用哪个数据列,并使用当前输入数据行提交表单。如果一个单独的输入数据源与FormSubmit模板相关联,那么将使用这个输入数据源。否则,将使用全局输入数据源。
FormField Options | 选项 |
---|---|
FormSubmit template | 如果您在一个父模板中有多个FormSubmit模板,那么这个选项将指定这个FormField内容属于哪个FormSubmit模板。 |
Input transformation | 可以使用一个脚本来转换这个FormField内容的输入值。该脚本不需要转换当前的输入值,但是它可以返回一个新的值。 |
Design time value | 如果为表单字段指定了多个输入值,则该选项指定在设计数据提取项目时使用的值。 |
Start index | 如果为表单字段指定了多个输入值,则该选项指定要使用的第一个值的索引。 |
Count | 如果为表单字段指定了多个输入值,则该选项指定要使用的值的数量。 |
Iterate all list values | 在下拉菜单或列表框中使用所有值作为输入值。如果FormField内容选择下拉菜单或列表框,那么您可以选中这个选项,您只需要使用几个值作为输入值。 |
Save list values to file | :在一个下拉菜单或列表框中保存所有的值到CSV文件。 |
以下的选项也可以用于FormField的内容:
- Misc content options
- Xpath options
- Filter options
- Condition options
- Database options
PageAttribute内容
PageAttribute内容可以用来提取页面属性,比如页面URL、页面标题或页面元标签。页面属性内容从不选择HTML元素,但总是提取整个页面的信息。
PageAttribute Options
当添加PageAttribute内容时,页面属性下拉菜单在Misc options选项卡中可用。
页面属性下拉菜单中可用的选项取决于当前页面上可用的数据,但是下面的表格描述了最常见的选项:
PageAttribute Options | -- |
---|---|
Description | 如果存在的话,描述元标签的内容。 |
Head | Head元素的整个HTML,如果它存在的话。 |
HTML | 整个网页的HTML。 |
Keywords | 关键字元标签的内容,如果它存在的话。 |
Timestamp | 时间截,当前的日期和时间。这个值与当前网页无关。 |
Title | <title>中内容 |
URL | 当前页面URL |
FixedValue内容
FixedValue内容用于向数据输出添加一个常量值。必须在捕捉文本框中输入常量值。
固定值内容元素经常与内容转换脚本结合使用,其中脚本用于计算常量值。该脚本可以使用其他提取的数据来计算常量值,在这种情况下,常量值不是真正的常量。有关更多信息,请参阅内容转换。
一个FixedValue内容元素可以被分配到输入数据源中的一个列中。
FixedValue Options
下面的选项可以用于FixedValue内容:
- Misc content options
- Database options
Script 内容
此内容类型不会生成输出数据或在网页上选择HTML元素。通常,脚本内容用于重新组织或修改提取的数据。
Script Options | 脚本选项 |
---|---|
Execute script last in template | 在模板中提取所有内容之后,执行脚本,包括在任何子模板中定义的所有内容。 |
Execute script first in template | 在提取模板中的任何内容之前执行脚本。 |
Execute script after | 在特定的内容元素或模板之后执行脚本。 |
Script Options
通过选择以下选项之一,可以在模板的任何地方执行脚本。请注意,如果您在模板中首先执行脚本,那么从模板中提取的数据都是可用的。
Script Options | 脚本选项 |
---|---|
Execute script last in template | 在模板中提取所有内容之后,执行脚本,包括在任何子模板中定义的所有内容。 |
Execute script first in template | 在提取模板中的任何内容之前执行脚本。 |
Execute script after | 在特定的内容元素或模板之后执行脚本。 |
页面转换 Page Transformation
页面转换可用于在提取任何数据之前在网页上转换HTML。
转换内容必须选择要转换的页面上的HTML元素。
Visual Web Ripper 目前支持三种类型的页面转换:
- Remove content 删除内容
- Custom transformation 自定义转换
- Denormalize table 非规范化表
删除内容 Remove Content
这种类型的转换用于从网页中删除HTML元素。在一个特定的场景中,删除内容转换非常重要,如下所述。
Internet Explorer可能会在从初始化Flash对象的网页中退出时崩溃。Visual Web Ripper 在提取数据时使用了一个互联网的实例,因此如果Internet Explorer崩溃,它也会崩溃。这个问题可能发生在Visual Web Ripper ,因为它比普通的人要快得多。防止这个问题的最好办法是,在导航到另一个网页之前,确保所有的Flash对象都从网页中删除。
你可以使用删除内容页转换从网页中删除一个Flash对象。只需选择包含Flash对象的HTML元素,将转换内容元素添加到项目中,然后选择removeContent 转换类型。
自定义转换Custom Transformation
自定义转换类似于普通的内容转换,通常可以使用它来代替它。例如,您可能想从一个页面中提取一个地址,并使用内容转换将地址分解为街道地址、城市、州和邮政编码。在这种情况下,您需要添加四个内容元素,并将内容转换应用到所有四个元素。如果您使用页面转换,您可以只应用转换一次。
下面的图片显示了在Visual Web Ripper的选择。网页有一个单一地址的HTML元素。
如果您想要提取单个地址元素,例如街道地址、城市、州和邮政编码,您必须对所有四个内容元素应用内容转换。对于页面转换,您只需要两个转换,而且它们更容易构造。
首先转换
用<span>
</span>,然后在开始和结束时插入了span标签。
<br>
replace </span><br><span>
(.*)
insert <span>$$1</span>
第二个转换用span标记替换空白区域,并在开始和结束时插入span标记。
\s
replace </span> <span>
(.*)
insert <span>$$1</span>
转换后的页面看起来和以前一样,但是现在可以选择页面上的每个单独的地址元素。
自定义转换不能转换表table元素,但它可以转换表列column内容。使用CustomOuterHtml来转换整个表。
CustomOuterHtml Transformation
CustomOuterHtml Transformation其工作方式与自定义转换相同,只不过它转换了所选HTML元素的外部HTML,而不是内部HTML。这使得转换某些元素变得更加容易,比如整个表。
CustomOuterHtml Transformation不能转换内部表元素,如TBODY、TR或TD元素。
ReplaceHTML Transformation
这个转换用新的HTML替换所选HTML元素的外部HTML。您还可以使用 CustomOuterHtml转换来实现这一点,但是ReplaceHTML transformation 更容易使用,因为它不需要使用正则表达式。
InsertHTML Transformation
这个转换在选中的HTML元素的末尾插入HTML。您还可以使用CustomHtml转换实现这一点,但是InsertHTML 转换更容易使用,因为它不需要使用正则表达式。
Table Denormalization
可以使用表非正规化来从表中轻松地从表中抓取web数据,并使用rowspan和colspan属性。
下面的图片展示了一个使用rowspan和colspan属性来组织数据的表:
如果想要提取列3中的所有数据,可以创建一个PageArea模板,该模板可以选择每一行,然后提取第3列的内容。
然而,结果很可能是出乎意料的。例如,在第4行中,Visual Web Ripper 只会看到两列,因此不会为第4行提取数据。
Visual Web Ripper可以通过删除rowspan和colspan属性并添加额外的行和列来使非规范化表格。
在非规范化表格之后,表看起来是这样的:
现在很容易创建一个PageArea模板并从第3列中提取数据。
通过添加一个转换内容类型来应用表的非规范化。内容元素应该选择您希望被解除的HTML表元素。