双12主题文案:什么是网站 采集?

来源:百度文库 编辑:杭州交通信息网 时间:2024/05/06 00:00:52
如题

一般大型网站建站的时候,固定的内容 如新闻、下载等 都是使用固定模板、自动生成静态页面的方式。这样就使得在源码中表格等设置都是一致的。

网站采集就是利用这样的一个原理,搜索页面中与采集设置相同的部分,然后搜集网站内容进入数据库。

比如:
某站的新闻在源码中是这样的
<table class="news"><tr><td>新闻内容</td></tr></table>
很容易可以看出,上面就是一个表格,然后包含新闻内容,设置采集方式的时候,就可以 从遇到页面的<table class="news">这个标记开始,到下一个</table>标记结束。运行采集后,就会将该站所有的新闻全部采集下来了。

当然,上面只是简单的一个采集的举例而已,实际应用中会比这复杂的多。

使用网站采集的好处是可以减少网站制作人员的录入时间。弊端是使得网站没有个性,千篇一律。