DOM履带

履带实例返回每次与客户请求。它允许您遍历HTML或XML文档:选择节点,发现链接和表单,并检索属性或内容。

遍历

像jQuery,爬虫的方法遍历DOM HTML / XML文档。例如,下面的发现输入(type =提交)页面上的元素,选择最后一个,然后选择它的直接父元素:

                1 2 3 4 5
                美元newCrawler=美元履带- >过滤器(的输入(type =提交))- >最后一个()- >父母()- >第();
               

其他方法也可以:

过滤器(“h1.title”): CSS选择器匹配的节点。
filterXpath (h1): XPath表达式匹配的节点。
eq (1): 指定索引节点。
第(): 第一个节点。
最后一个(): 最后一个节点。
兄弟姐妹(): 兄弟姐妹。
nextAll (): 所有的兄弟姐妹。
previousAll (): 之前所有的兄弟姐妹。
父母(): 返回父节点。
孩子(): 返回子节点。
减少(λ): 节点的可调用不返回false。

因为这些方法返回一个新的履带实例,你可以缩小你的链接的节点选择方法调用:

                1 2 3 4 5 6 7 8 9 10 11
                美元履带- >过滤器(“标题”)- >减少(函数(美元节点,int美元我):bool{如果(!美元节点- >attr (“类”)){返回假;}返回真正的;})- >第();
               

提示

使用count ()函数来获取存储在一个爬虫的节点数量:count($履带)

提取信息

爬虫可以提取的信息节点:

                1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21日22日23日
                / /返回第一个节点的属性值美元履带- >attr (“类”);/ /返回第一个节点的节点值美元履带- >文本();/ /返回默认文本如果节点不存在美元履带- >文本(默认文本内容的);/ /将真正作为第二个参数传递的文本()来删除所有多余的空白,包括/ /内部的(如。“foo巴兹\ n \ n酒吧”是作为“foo酒吧巴兹”)返回美元履带- >文本(零,真正的);/ /提取所有节点属性的数组/ / (_text返回的节点值)/ /返回一个数组的每个元素在爬虫,/ /每个值和href美元信息=美元履带- >提取([“_text”,“href”]);/ /执行一个λ为每个节点,并返回结果的数组美元数据=美元履带- >每个(函数(美元节点,int美元我):字符串{返回美元节点- >attr (“href”);});
               

这项工作,包括代码示例,许可下Creative Commons冲锋队3.0许可证。

DOM履带

DOM履带

遍历

提取信息

0b足球

学习Symfob娱乐下载ony

截屏

欧宝体育平台怎么样

博客

服务

部署在