DOM履带
编辑该页面DOM履带
履带实例返回每次与客户请求。它允许您遍历HTML或XML文档:选择节点,发现链接和表单,并检索属性或内容。
遍历
像jQuery,爬虫的方法遍历DOM HTML / XML文档。例如,下面的发现输入(type =提交)
页面上的元素,选择最后一个,然后选择它的直接父元素:
1 2 3 4 5
美元newCrawler=美元履带- >过滤器(的输入(type =提交))- >最后一个()- >父母()- >第();
其他方法也可以:
-
过滤器(“h1.title”)
- CSS选择器匹配的节点。
-
filterXpath (h1)
- XPath表达式匹配的节点。
-
eq (1)
- 指定索引节点。
-
第()
- 第一个节点。
-
最后一个()
- 最后一个节点。
-
兄弟姐妹()
- 兄弟姐妹。
-
nextAll ()
- 所有的兄弟姐妹。
-
previousAll ()
- 之前所有的兄弟姐妹。
-
父母()
- 返回父节点。
-
孩子()
- 返回子节点。
-
减少(λ)
- 节点的可调用不返回false。
因为这些方法返回一个新的履带
实例,你可以缩小你的链接的节点选择方法调用:
1 2 3 4 5 6 7 8 9 10 11
美元履带- >过滤器(“标题”)- >减少(函数(美元节点,int美元我):bool{如果(!美元节点- >attr (“类”)){返回假;}返回真正的;})- >第();
提示
使用count ()
函数来获取存储在一个爬虫的节点数量:count($履带)
提取信息
爬虫可以提取的信息节点:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21日22日23日
/ /返回第一个节点的属性值美元履带- >attr (“类”);/ /返回第一个节点的节点值美元履带- >文本();/ /返回默认文本如果节点不存在美元履带- >文本(默认文本内容的);/ /将真正作为第二个参数传递的文本()来删除所有多余的空白,包括/ /内部的(如。“foo巴兹\ n \ n酒吧”是作为“foo酒吧巴兹”)返回美元履带- >文本(零,真正的);/ /提取所有节点属性的数组/ / (_text返回的节点值)/ /返回一个数组的每个元素在爬虫,/ /每个值和href美元信息=美元履带- >提取([“_text”,“href”]);/ /执行一个λ为每个节点,并返回结果的数组美元数据=美元履带- >每个(函数(美元节点,int美元我):字符串{返回美元节点- >attr (“href”);});
这项工作,包括代码示例,许可下Creative Commons冲锋队3.0许可证。
TOC
版本
版本: