织梦采集思路分析:
基本操作,我这里就不多说了。
需要填写的地方:
1,引用网址。这个是为了测试的时候观看是否能正常采集。
2,列表网址获取规则
批量生成列表网址:这个 照我来看,像是门户网站如 网易 新浪 搜狐 等,似乎都没有规律。因为采用了 网页静态化技术。在有也是为了防止别人采集网站的内容。(这个功能以后可 以D掉了)
手工指定列表网址 :这个看似还可以。
从RSS中获取 :这个最不错了,也有缺点。以前的几个大型门户站上,仅有新浪有RSS 订阅功能。
3,文章网址匹配规则: 这个写你要采 集 文章的HTML 区域。(注意:不要写<body></body> 反正我测试了,行不通)分析要采集的网站,可以使用 firefox firebug 进行分析。还要提示大家的就是, firebug 是嵌入火狐浏览器的。所以分析的结果是 JS 等执行以后的结果。为了更准确的分析。需要右击 查看源代码,手动分析。这个做为站长的你,应该了解HTML 常用的标签。
4,对区域网址进行再 次筛选 例:采集的网址为:http://news.163.com/
区 域开始的HTML:<div class="colM"> 区域结束的HTML:</body>
但是这其中有 广告 , 这个不是我们想要的。所以的文章命名都是xxx.html 而广告的是xx.php 什么的。所以在这里可以设置为 html 其目的就是为了过滤掉。广告。
5,预览网址:就是写上一个,可以供一会儿,测试所用的文章URL。这个从刚才采集的HTML 区域中随便点击一个即可。
6,采集信息 文章标题 <title>[内容]</title> 文章内容<div id="endText">[内容]<!-- 分页 --> 这里需要说明的是,在这个采集的内容当中有我们不需要的内容。就是原网站的关键字。可以使用过滤规则:删除掉。
文章内容:即是中重 之重。这个就是需要分析网站源码后设定。
- 上一篇:PHp用csv制作XLS电子表格
- 下一篇:什么是最好用的CMS