找回密码
 注册

便捷登录,只需一步

微信登录,快人一步

搜索
查看: 6040|回复: 10

潍坊网通一区 领衔主演丶友情战队 YY211633 期待各路好汉的加入!

 火.. [复制链接]

1

主题

0

回帖

4

积分

论坛新人

wfits币
0 个
注册时间
2011-8-5
UID
64739
发表于 2011-8-5 14:27 | 显示全部楼层 |阅读模式
大家好 我是潍坊的潍城区的  我再网通一区建了一个战队叫领衔主演丶友情战队 YY211633 需要高管 重狙高手     是潍坊人顶起来  共同打造潍坊一流战队
回复

使用道具 举报

23

主题

567

回帖

1201

积分

密码异常用户组

1233

wfits币
0 个
注册时间
2011-3-26
UID
57620
QQ
发表于 2011-8-10 10:58 | 显示全部楼层
我技术不好 但是和你一个区 以后见到你们战队的人 我会多加关照的
我是黄昏的樵者 谁是我暮光下的良人 时间不是让人忘了痛 而是让人习惯了痛″曾经的海枯又石烂、抵不过你最后一句好聚好散.
回复 支持

使用道具 举报

1万

主题

14万

回帖

30万

积分

大学四年级

wfits币
42014 个
注册时间
2009-11-29
UID
35205

宣传大使勋章

发表于 2011-8-10 13:30 | 显示全部楼层
CF现在这么火啊。
我的app签名,你有吗?
回复 支持

使用道具 举报

908

主题

4万

回帖

5万

积分

大学四年级

0.0

wfits币
0 个
注册时间
2011-5-4
UID
59912
发表于 2011-8-11 02:09 | 显示全部楼层
昨天刚更新的。。
回复 支持

使用道具 举报

0

主题

1万

回帖

3万

积分

大学二年级

最近广告泛滥。发现请PM斑竹删除

wfits币
2 个
注册时间
2007-10-13
UID
11485
发表于 2011-8-15 00:20 | 显示全部楼层
各种迹象表明毫无压力
现实生活我们已经很正经了,在网络上就别装纯了!
回复 支持

使用道具 举报

623

主题

1262

回帖

9821

积分

初三

Joking Life

wfits币
0 个
注册时间
2011-9-1
UID
66257
发表于 2011-9-1 22:40 | 显示全部楼层
也许我会加入你的战队。。。。
回复 支持

使用道具 举报

13

主题

502

回帖

1253

积分

小学四年级

wfits币
0 个
注册时间
2011-10-9
UID
68215
QQ
发表于 2011-10-14 10:56 | 显示全部楼层
wf05aCF已经成过去式了
回复 支持

使用道具 举报

72

主题

2497

回帖

1万

积分

高二

wfits币
184 个
注册时间
2009-6-22
UID
25847
发表于 2011-10-30 12:59 来自手机 | 显示全部楼层
我最近也玩这个
说了不如不说的,做了不如不做的~
回复 支持

使用道具 举报

103

主题

3411

回帖

7239

积分

初二

wfits币
735 个
注册时间
2011-8-12
UID
65174
发表于 2011-10-30 10:15 | 显示全部楼层
俺在山二混,至今没战队!
专业降糖!
回复 支持

使用道具 举报

0

主题

2

回帖

7

积分

论坛新人

wfits币
0 个
注册时间
2011-12-19
UID
71176
发表于 2011-12-19 06:52 | 显示全部楼层
广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。
>
>  由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2层, I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。
>
>  网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓取(下小节会介绍),但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全**的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。
>
>  网站与网络蜘蛛
>
>  网络蜘蛛需要抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。今年4月,淘宝就因为雅虎搜索引擎的网络蜘蛛抓取其数据引起淘宝网服务器的不稳定。网站是否就无法和网络蜘蛛交流呢?其实不然,有多种方法可以让网站和网络蜘蛛进行交流。一方面让网站管理员了解网络蜘蛛都来自哪儿,做了些什么,另一方面也告诉网络蜘蛛哪些网页不应该抓取,哪些网页应该更新。
>
>  每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User- agent,用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider, Yahoo网络蜘蛛的标识为Inktomi Slurp。如果在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的网络蜘蛛过来过,什么时候过来的,以及读了多少数据等等。如果网站管理员发现某个蜘蛛有问题,就通过其标识来和其所有者联系。下面是博客中)2004年5月15日的搜索引擎访问日志:
>
>  网络蜘蛛进入一个网站,一般会访问一个特殊的文本文件Robots.txt,这个文件一般放在网站服务器的根目录下。网站管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的可执行文件目录和临时文件目录不希望被搜索引擎搜索到,那么网站管理员就可以把这些目录定义为拒绝访问目录。Robots.txt语法很简单,例如如果对目录没有任何限制,可以用以下两行来描述:
>
>  User-agent: *
>  Disallow:
>
>  当然,Robots.txt只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般的网络蜘蛛都会遵循这些协议,而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。
>
>  网络蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有META标识。通过这些标识,可以告诉网络蜘蛛本网页是否需要被抓取,还可以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。例如:表示本网页不需要被抓取,但是网页内的链接需要被跟踪。
>
>  关于Robots.txt的语法和META Tag语法,有兴趣的读者查看文献[4]
>
>  现在一般的网站都希望搜索引擎能更全面的抓取自己网站的网页,因为这样可以让更多的访问者能通过搜索引擎找到此网站。为了让本网站的网页更全面被抓取到,网站管理员可以建立一个网站地图,即Site Map。许多网络蜘蛛会把sitemap.htm文件作为一个网站网页爬取的入口,网站管理员可以把网站内部所有网页的链接放在这个文件里面,那么网络蜘蛛可以很方便的把整个网站抓取下来,避免遗漏某些网页,也会减小对网站服务器的负担。
>
>  内容提取
>
>  搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网络蜘蛛正确跟踪其它链接有一定影响。
>
>  对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口,就可以轻松的提取文档中的文本信息和文件其它相关的信息。
草根站长论坛www.dy3456.com
回复 支持

使用道具 举报

您需要登录后才可以回帖 登录 | 注册 |

本版积分规则

Archiver|手机版|小黑屋|投诉举报|客服微信号:ppm0536|今潍网-潍坊论坛 ( 鲁ICP备14032312号 )

GMT+8, 2025-2-1 05:51 , Processed in 0.128854 second(s), 32 queries , Gzip On.

快速回复 返回顶部 返回列表