PHP织梦自带的采集怎么工作的_PHP开发|软件开发|北京清如许

PHP织梦自带的采集怎么工作的

织梦采集思路分析：
基本操作，我这里就不多说了。

需要填写的地方：
1,引用网址。这个是为了测试的时候观看是否能正常采集。
2,列表网址获取规则　
批量生成列表网址：这个照我来看，像是门户网站如　网易　新浪　搜狐　等，似乎都没有规律。因为采用了　网页静态化技术。在有也是为了防止别人采集网站的内容。（这个功能以后可以D掉了）

手工指定列表网址：这个看似还可以。

从RSS中获取：这个最不错了，也有缺点。以前的几个大型门户站上，仅有新浪有RSS 订阅功能。
3,文章网址匹配规则：　这个写你要采集　文章的HTML 区域。（注意：不要写<body></body>　反正我测试了，行不通）分析要采集的网站，可以使用 firefox firebug 进行分析。还要提示大家的就是，　firebug 是嵌入火狐浏览器的。所以分析的结果是　JS 等执行以后的结果。为了更准确的分析。需要右击　查看源代码，手动分析。这个做为站长的你，应该了解HTML 常用的标签。
4,对区域网址进行再次筛选例：采集的网址为：http://news.163.com/
区域开始的HTML：<div class="colM">　区域结束的HTML：</body>
但是这其中有　广告　，这个不是我们想要的。所以的文章命名都是xxx.html 而广告的是xx.php 什么的。所以在这里可以设置为　html 其目的就是为了过滤掉。广告。
5,预览网址：就是写上一个，可以供一会儿，测试所用的文章URL。这个从刚才采集的HTML 区域中随便点击一个即可。
6,采集信息　文章标题　<title>[内容]</title>　文章内容<div id="endText">[内容]　这里需要说明的是，在这个采集的内容当中有我们不需要的内容。就是原网站的关键字。可以使用过滤规则：删除掉。
文章内容：即是中重之重。这个就是需要分析网站源码后设定。