内容样式

内容样式 Content Types


通常,内容元素用于从一个网页中提取数据,并在输出数据中有相应的数据字段。内容元素通常在当前网页上选择一个HTML元素,并从该元素中提取文本或其他属性。

一些内容类型不提取数据,而是执行一个脚本来操作输出数据或修改数据提取过程。

下面的子主题描述了 Visual Web Ripper所支持的每种类型的内容。

  • [Element] (元素)
  • [FormField] (表单字段)
  • [PageAttribute] (页面属性)
  • [FixedValue] (固定值)
  • [Script] (脚本)
  • [Page Transformation] (页面转换)

Element 元素内容

这是最常用的从网页中提取内容元素的内容类型。元素内容总是选择当前网页上的HTML元素,并从元素中提取文本或其他属性。

内容转换脚本通常与元素内容一起使用,以修改提取的数据。内容转换脚本可以提取更小的数据片段。例如,一个HTML元素可能包含一个完整的地址。元素内容可用于将完整地址提取到一个数据字段中,内容转换可用于从完整地址提取状态或邮政编码。
有关更多信息,请参阅内容转换。

Element Options
在添加元素内容时,您需要指定从所选的HTML元素中提取哪些属性。您可以通过选择内容捕捉类型选项来实现这一点。

内容获取类型 Content Capture Types
Text 提取所选HTML元素的内部文本。内部文本是您在web浏览器中看到的文本。
HTML 提取所选HTML元素的外部HTML。
Inner HTML 提取所选HTML元素的内部HTML。
Tag name 提取所选HTML元素的标签名。
File 如果选中的HTML元素链接到一个文档,那么文档将被保存到一个磁盘,文档的本地路径将被保存到输出数据中。请参阅提交Web表单以获得关于在表单提交上下载文件的更多信息。
Link 如果选中的HTML元素是一个链接元素,则提取链接URL。如果HTML元素是一个图像元素,则提取图像的URL。
Image 如果选中的HTML元素是一个图像元素,则将图像保存到磁盘,并将图像的本地路径保存到输出数据中。
Attribute 提取所选元素的指定属性。您可以使用下拉菜单来选择公共属性,或者直接输入属性的名称,如果它不在下拉菜单中。
Tag text 提取所选HTML元素的文本,但不包括所有子元素的文本。
Screen 捕获所选元素的屏幕截图。请阅读下面的内容,了解更多关于此内容类型的限制和附加选项。

以下两种情况,当内容capture type被设置为文本时也可以使用。

  • Line breaks. HTML换行标签和段落标签被转换成 \n。
  • All paragraphs. HTML段落标签常常位于彼此相邻的位置,有时很难在不手动设置XPath的情况下选择它们。这个选项会自动选择所选段落标签旁边的所有段落标签。

下面的选项也可以用于元素内容:

  • Misc content options
  • Xpath options
  • Filter options
  • Condition options

捕获选定元素的屏幕快照
重要: Visual Web Ripper只能在WebBrowser模式下捕获屏幕截图,而视图浏览器选项重置。Visual Web Ripper 可能无法在所有网站上捕捉到完美的截屏,也可能无法捕捉到一些网络元素。

使用屏幕内容类型捕获所选web元素的屏幕截图。选择整个页面以捕获整个web页面的屏幕快照。

使用Advanced options选项卡为这个内容类型设置额外的选项。


Advanced Options
说明 --
Screen fixed width 固定宽度的截图。如果将该值设置为0,则将使用所选元素的宽度。一些web元素可能有一个宽度,这取决于web浏览器的宽度,在这种情况下,您应该将该选项设置为适当的宽度。
Screen fixed height 截屏的固定高度。如果将该值设置为0,则将使用所选元素的高度。
Screen thumbnail width 生成的缩略图的宽度。如果该值设置为0,则将捕捉完整的大小图像。
Screen thumbnail height 生成的缩略图的高度。如果这个值设置为0,那么高度将自动计算。
Screen adjust thumbnail height 捕捉到的图像的高度将被裁切或扩展,以生成一个更好的缩略图。

FormField内容


FormField内容总是与FormSubmit模板相关联,用于向web表单提供输入数据。FormField内容总是在当前网页上选择web表单输入字段。可以在捕获窗口中输入单个或多个固定的输入值。输入值也可以从不同的输入数据源获得。

Visual Web Ripper GUI中的捕获窗口通常会显示捕获内容的示例,但是对于FormField内容,它将显示当前的输入值。您可以在捕获窗口中输入任意数量的值。可视Web开膛手一次性提交一个Web表单,用于每次输入值的组合,因此如果您有两个表单字段内容元素,每个输入值都有两个输入值,那么 Visual Web Ripper将会四次提交Web表单。

如果FormField内容选择一个下拉菜单,并设置为遍历其中的所有值,那么下拉菜单中的所有值都将显示在捕获窗口中。如果您想在下拉菜单中只提交表单的一些值,那么您可以使用 Iterate all list values 选项,并删除您不希望从捕获窗口中使用的值。

您可以使用输入数据源来为表单字段提供输入值。输入数据源可以是一个数据库或一个CSV文件。如果您选择了一个查找数据源,您可以从查找数据源提交一个单一常量值,或者您可以为查找数据源中的所有值提交表单。如果您选择了一个输入数据源,您可以选择要使用哪个数据列,并使用当前输入数据行提交表单。如果一个单独的输入数据源与FormSubmit模板相关联,那么将使用这个输入数据源。否则,将使用全局输入数据源。

FormField Options 选项
FormSubmit template 如果您在一个父模板中有多个FormSubmit模板,那么这个选项将指定这个FormField内容属于哪个FormSubmit模板。
Input transformation 可以使用一个脚本来转换这个FormField内容的输入值。该脚本不需要转换当前的输入值,但是它可以返回一个新的值。
Design time value 如果为表单字段指定了多个输入值,则该选项指定在设计数据提取项目时使用的值。
Start index 如果为表单字段指定了多个输入值,则该选项指定要使用的第一个值的索引。
Count 如果为表单字段指定了多个输入值,则该选项指定要使用的值的数量。
Iterate all list values 在下拉菜单或列表框中使用所有值作为输入值。如果FormField内容选择下拉菜单或列表框,那么您可以选中这个选项,您只需要使用几个值作为输入值。
Save list values to file :在一个下拉菜单或列表框中保存所有的值到CSV文件。

以下的选项也可以用于FormField的内容:

  • Misc content options
  • Xpath options
  • Filter options
  • Condition options
  • Database options

PageAttribute内容


PageAttribute内容可以用来提取页面属性,比如页面URL、页面标题或页面元标签。页面属性内容从不选择HTML元素,但总是提取整个页面的信息。

PageAttribute Options
当添加PageAttribute内容时,页面属性下拉菜单在Misc options选项卡中可用。

页面属性下拉菜单中可用的选项取决于当前页面上可用的数据,但是下面的表格描述了最常见的选项:

PageAttribute Options --
Description 如果存在的话,描述元标签的内容。
Head Head元素的整个HTML,如果它存在的话。
HTML 整个网页的HTML。
Keywords 关键字元标签的内容,如果它存在的话。
Timestamp 时间截,当前的日期和时间。这个值与当前网页无关。
Title <title>中内容
URL 当前页面URL

FixedValue内容


FixedValue内容用于向数据输出添加一个常量值。必须在捕捉文本框中输入常量值。

固定值内容元素经常与内容转换脚本结合使用,其中脚本用于计算常量值。该脚本可以使用其他提取的数据来计算常量值,在这种情况下,常量值不是真正的常量。有关更多信息,请参阅内容转换。

一个FixedValue内容元素可以被分配到输入数据源中的一个列中。

FixedValue Options
下面的选项可以用于FixedValue内容:

  • Misc content options
  • Database options

Script 内容


此内容类型不会生成输出数据或在网页上选择HTML元素。通常,脚本内容用于重新组织或修改提取的数据。

Script Options 脚本选项
Execute script last in template 在模板中提取所有内容之后,执行脚本,包括在任何子模板中定义的所有内容。
Execute script first in template 在提取模板中的任何内容之前执行脚本。
Execute script after 在特定的内容元素或模板之后执行脚本。

Script Options
通过选择以下选项之一,可以在模板的任何地方执行脚本。请注意,如果您在模板中首先执行脚本,那么从模板中提取的数据都是可用的。

Script Options 脚本选项
Execute script last in template 在模板中提取所有内容之后,执行脚本,包括在任何子模板中定义的所有内容。
Execute script first in template 在提取模板中的任何内容之前执行脚本。
Execute script after 在特定的内容元素或模板之后执行脚本。

页面转换 Page Transformation


页面转换可用于在提取任何数据之前在网页上转换HTML。

转换内容必须选择要转换的页面上的HTML元素。

Visual Web Ripper 目前支持三种类型的页面转换:

  • Remove content 删除内容
  • Custom transformation 自定义转换
  • Denormalize table 非规范化表

删除内容 Remove Content

这种类型的转换用于从网页中删除HTML元素。在一个特定的场景中,删除内容转换非常重要,如下所述。

Internet Explorer可能会在从初始化Flash对象的网页中退出时崩溃。Visual Web Ripper 在提取数据时使用了一个互联网的实例,因此如果Internet Explorer崩溃,它也会崩溃。这个问题可能发生在Visual Web Ripper ,因为它比普通的人要快得多。防止这个问题的最好办法是,在导航到另一个网页之前,确保所有的Flash对象都从网页中删除。

你可以使用删除内容页转换从网页中删除一个Flash对象。只需选择包含Flash对象的HTML元素,将转换内容元素添加到项目中,然后选择removeContent 转换类型。

自定义转换Custom Transformation

自定义转换类似于普通的内容转换,通常可以使用它来代替它。例如,您可能想从一个页面中提取一个地址,并使用内容转换将地址分解为街道地址、城市、州和邮政编码。在这种情况下,您需要添加四个内容元素,并将内容转换应用到所有四个元素。如果您使用页面转换,您可以只应用转换一次。

下面的图片显示了在Visual Web Ripper的选择。网页有一个单一地址的HTML元素。

address simple

如果您想要提取单个地址元素,例如街道地址、城市、州和邮政编码,您必须对所有四个内容元素应用内容转换。对于页面转换,您只需要两个转换,而且它们更容易构造。

首先转换
用<span>
</span>,然后在开始和结束时插入了span标签。

<br>
replace </span><br><span>
(.*)
insert <span>$$1</span>

第二个转换用span标记替换空白区域,并在开始和结束时插入span标记。

\s
replace </span> <span>
(.*)
insert <span>$$1</span>

转换后的页面看起来和以前一样,但是现在可以选择页面上的每个单独的地址元素。

after trans

自定义转换不能转换表table元素,但它可以转换表列column内容。使用CustomOuterHtml来转换整个表。

CustomOuterHtml Transformation

CustomOuterHtml Transformation其工作方式与自定义转换相同,只不过它转换了所选HTML元素的外部HTML,而不是内部HTML。这使得转换某些元素变得更加容易,比如整个表。

CustomOuterHtml Transformation不能转换内部表元素,如TBODY、TR或TD元素。

ReplaceHTML Transformation

这个转换用新的HTML替换所选HTML元素的外部HTML。您还可以使用 CustomOuterHtml转换来实现这一点,但是ReplaceHTML transformation 更容易使用,因为它不需要使用正则表达式。

InsertHTML Transformation
这个转换在选中的HTML元素的末尾插入HTML。您还可以使用CustomHtml转换实现这一点,但是InsertHTML 转换更容易使用,因为它不需要使用正则表达式。

Table Denormalization

可以使用表非正规化来从表中轻松地从表中抓取web数据,并使用rowspan和colspan属性。
下面的图片展示了一个使用rowspan和colspan属性来组织数据的表:

table demo

如果想要提取列3中的所有数据,可以创建一个PageArea模板,该模板可以选择每一行,然后提取第3列的内容。

然而,结果很可能是出乎意料的。例如,在第4行中,Visual Web Ripper 只会看到两列,因此不会为第4行提取数据。

Visual Web Ripper可以通过删除rowspan和colspan属性并添加额外的行和列来使非规范化表格。
在非规范化表格之后,表看起来是这样的:


after denormalization

现在很容易创建一个PageArea模板并从第3列中提取数据。

通过添加一个转换内容类型来应用表的非规范化。内容元素应该选择您希望被解除的HTML表元素。


























































©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,185评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,445评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,684评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,564评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,681评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,874评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,025评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,761评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,217评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,545评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,694评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,351评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,988评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,778评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,007评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,427评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,580评论 2 349

推荐阅读更多精彩内容

  • 运行一个项目Running a Project 在您设计了一个数据提取项目之后,您需要运行它来提取数据。您可以以许...
    游侠儿evil阅读 1,159评论 0 0
  • 理解概念 在开始使用Visual Web Ripper之前,您需要理解底层的模板(Template)概念。大多数w...
    游侠儿evil阅读 659评论 0 0
  • Content Transformation 内容转换脚本用于在从网页中提取内容后转换内容。内容转换通常用于HTM...
    游侠儿evil阅读 794评论 0 0
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,633评论 18 139
  • 一个页面,不管多么复杂,都是由三块组成: 内容(HTML) 样式(CSS) 行为(JavaScript) 一个好的...
    辉夜乀阅读 388评论 0 0