很多站长朋友们都不太清楚php网页正文提取算法,今天小编就来给大家整理php网页正文提取算法,希望对各位有所帮助,具体内容如下:
本文目录一览: 1、 谁能教我PHP怎样进行网页正文提取啊?万分感谢啊~ 2、 如何用 php 抓取微信文章正文 3、 网页正文及内容图片提取算法 谁能教我PHP怎样进行网页正文提取啊?万分感谢啊~正文提取么,,,,你是要一个网页的主要内容么??这个是个复杂的算法,,,,,跟语言没关系吧。
如何用 php 抓取微信文章正文很多人也有和你同样的想法,可以使用curl或file_get_contents。
在这里以curl为例
1、首先获得整个url对应的内容
$ch=curl_init();
curl_setopt($ch,CURLOPT_URL,$url);
curl_setopt($ch,CURLOPT_HEADER,0);
curl_setopt($ch,CURLOPT_TIMEOUT,5);
curl_setopt($ch,CURLOPT_NOBODY,0);
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch,CURLOPT_USERAGENT, 'Sogouspider');
curl_setopt($ch,CURLOPT_USERAGENT,'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.47 Safari/536.11');
$html=curl_exec($ch);
curl_close($ch);
2、从获$html里面提取正文内容
$mark='<div class="rich_media_content " id="js_content">';
$content=substr($html,strpos($html,$mark)+strlen($mark));
$content=trim(substr($content,0,strpos($content,'<script type="text/javascript">')-50));
如对您有帮助,请采纳。
网页正文及内容图片提取算法备份自:
问题: 如何提取任意(尤其是新闻、资讯类)网页的正文内容,提取与文章内容相关的图片,源码可见: extractor.py 。
抓取单个网站网页内容时通常采用正则匹配的方式,但不同网站之间结构千奇百怪,很难用统一的正则表达式进行匹配。 《基于行块分布函数的通用网页正文抽取算法》 的作者总结了一般从网页中提取文章正文的方法,提出基于行块分布的正文抽取算法,并给出了 PHP 、Java 等实现。这一算法的主要原理基于两点:
算法步骤如下:
以上算法基本可以应对大部分(中文)网页正文的提取,针对有些网站正文图片多于文字的情况,可以采用保留 <img> 标签中图片链接的方法,增加正文密度。目前少量测试发现的问题有:1)文章分页或动态加载的网页;2)评论长度过长喧宾夺主的网页。
关于php网页正文提取算法的介绍到此就结束了,不知道本篇文章是否对您有帮助呢?如果你还想了解更多此类信息,记得收藏关注本站,我们会不定期更新哦。
查看更多关于php网页正文提取算法 php获取网站html代码的详细内容...