php网页正文提取算法 php获取网站html代码

很多站长朋友们都不太清楚php网页正文提取算法，今天小编就来给大家整理php网页正文提取算法，希望对各位有所帮助，具体内容如下：

本文目录一览： 1、谁能教我PHP怎样进行网页正文提取啊？万分感谢啊~ 2、如何用 php 抓取微信文章正文 3、网页正文及内容图片提取算法谁能教我PHP怎样进行网页正文提取啊？万分感谢啊~

正文提取么，，，，你是要一个网页的主要内容么？？这个是个复杂的算法,,,,,跟语言没关系吧。

如何用 php 抓取微信文章正文

很多人也有和你同样的想法，可以使用curl或file_get_contents。

在这里以curl为例

1、首先获得整个url对应的内容

$ch=curl_init();

curl_setopt($ch,CURLOPT_URL,$url);

curl_setopt($ch,CURLOPT_HEADER,0);

curl_setopt($ch,CURLOPT_TIMEOUT,5);

curl_setopt($ch,CURLOPT_NOBODY,0);

curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);

curl_setopt($ch,CURLOPT_USERAGENT, 'Sogouspider');

curl_setopt($ch,CURLOPT_USERAGENT,'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.47 Safari/536.11');

$html=curl_exec($ch);

curl_close($ch);

2、从获$html里面提取正文内容

$mark='<div class="rich_media_content " id="js_content">';

$content=substr($html,strpos($html,$mark)+strlen($mark));

$content=trim(substr($content,0,strpos($content,'<script type="text/javascript">')-50));

如对您有帮助，请采纳。

网页正文及内容图片提取算法

备份自：

问题：如何提取任意（尤其是新闻、资讯类）网页的正文内容，提取与文章内容相关的图片，源码可见： extractor.py 。

抓取单个网站网页内容时通常采用正则匹配的方式，但不同网站之间结构千奇百怪，很难用统一的正则表达式进行匹配。《基于行块分布函数的通用网页正文抽取算法》的作者总结了一般从网页中提取文章正文的方法，提出基于行块分布的正文抽取算法，并给出了 PHP 、Java 等实现。这一算法的主要原理基于两点：

算法步骤如下：

以上算法基本可以应对大部分（中文）网页正文的提取，针对有些网站正文图片多于文字的情况，可以采用保留 <img> 标签中图片链接的方法，增加正文密度。目前少量测试发现的问题有：1）文章分页或动态加载的网页；2）评论长度过长喧宾夺主的网页。

关于php网页正文提取算法的介绍到此就结束了，不知道本篇文章是否对您有帮助呢？如果你还想了解更多此类信息，记得收藏关注本站，我们会不定期更新哦。

声明：本文来自网络，不代表【好得很程序员自学网】立场，转载请注明出处：http://www.haodehen.cn/did194943

更新时间：2023-04-26 阅读：36次