好得很程序员自学网
  • 首页
  • 后端语言
    • C#
    • PHP
    • Python
    • java
    • Golang
    • ASP.NET
  • 前端开发
    • Angular
    • react框架
    • LayUi开发
    • javascript
    • HTML与HTML5
    • CSS与CSS3
    • jQuery
    • Bootstrap
    • NodeJS
    • Vue与小程序技术
    • Photoshop
  • 数据库技术
    • MSSQL
    • MYSQL
    • Redis
    • MongoDB
    • Oracle
    • PostgreSQL
    • Sqlite
    • 数据库基础
    • 数据库排错
  • CMS系统
    • HDHCMS
    • WordPress
    • Dedecms
    • PhpCms
    • 帝国CMS
    • ThinkPHP
    • Discuz
    • ZBlog
    • ECSHOP
  • 高手进阶
    • Android技术
    • 正则表达式
    • 数据结构与算法
  • 系统运维
    • Windows
    • apache
    • 服务器排错
    • 网站安全
    • nginx
    • linux系统
    • MacOS
  • 学习教程
    • 前端脚本教程
    • HTML与CSS 教程
    • 脚本语言教程
    • 数据库教程
    • 应用系统教程
  • 新技术
  • 编程导航
    • 区块链
    • IT资讯
    • 设计灵感
    • 建站资源
    • 开发团队
    • 程序社区
    • 图标图库
    • 图形动效
    • IDE环境
    • 在线工具
    • 调试测试
    • Node开发
    • 游戏框架
    • CSS库
    • Jquery插件
    • Js插件
    • Web框架
    • 移动端框架
    • 模块管理
    • 开发社区
    • 在线课堂
    • 框架类库
    • 项目托管
    • 云服务

当前位置:首页>后端语言>PHP
<tfoot draggable='sEl'></tfoot>

php网页正文提取算法 php获取网站html代码

很多站长朋友们都不太清楚php网页正文提取算法,今天小编就来给大家整理php网页正文提取算法,希望对各位有所帮助,具体内容如下:

本文目录一览: 1、 谁能教我PHP怎样进行网页正文提取啊?万分感谢啊~ 2、 如何用 php 抓取微信文章正文 3、 网页正文及内容图片提取算法 谁能教我PHP怎样进行网页正文提取啊?万分感谢啊~

正文提取么,,,,你是要一个网页的主要内容么??这个是个复杂的算法,,,,,跟语言没关系吧。

如何用 php 抓取微信文章正文

很多人也有和你同样的想法,可以使用curl或file_get_contents。

在这里以curl为例

1、首先获得整个url对应的内容

$ch=curl_init();

    curl_setopt($ch,CURLOPT_URL,$url);

    curl_setopt($ch,CURLOPT_HEADER,0);

    curl_setopt($ch,CURLOPT_TIMEOUT,5);

    curl_setopt($ch,CURLOPT_NOBODY,0);

    curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);

    curl_setopt($ch,CURLOPT_USERAGENT, 'Sogouspider');

    curl_setopt($ch,CURLOPT_USERAGENT,'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.47 Safari/536.11');

    $html=curl_exec($ch);

    curl_close($ch);

2、从获$html里面提取正文内容

$mark='<div class="rich_media_content " id="js_content">';

$content=substr($html,strpos($html,$mark)+strlen($mark));

$content=trim(substr($content,0,strpos($content,'<script type="text/javascript">')-50));

如对您有帮助,请采纳。

网页正文及内容图片提取算法

备份自:

问题: 如何提取任意(尤其是新闻、资讯类)网页的正文内容,提取与文章内容相关的图片,源码可见: extractor.py 。

抓取单个网站网页内容时通常采用正则匹配的方式,但不同网站之间结构千奇百怪,很难用统一的正则表达式进行匹配。 《基于行块分布函数的通用网页正文抽取算法》 的作者总结了一般从网页中提取文章正文的方法,提出基于行块分布的正文抽取算法,并给出了 PHP 、Java 等实现。这一算法的主要原理基于两点:

算法步骤如下:

以上算法基本可以应对大部分(中文)网页正文的提取,针对有些网站正文图片多于文字的情况,可以采用保留 <img> 标签中图片链接的方法,增加正文密度。目前少量测试发现的问题有:1)文章分页或动态加载的网页;2)评论长度过长喧宾夺主的网页。

关于php网页正文提取算法的介绍到此就结束了,不知道本篇文章是否对您有帮助呢?如果你还想了解更多此类信息,记得收藏关注本站,我们会不定期更新哦。

查看更多关于php网页正文提取算法 php获取网站html代码的详细内容...

声明:本文来自网络,不代表【好得很程序员自学网】立场,转载请注明出处:http://www.haodehen.cn/did194943
更新时间:2023-04-26   阅读:17次

上一篇: vue与php vue与php整合思路

下一篇:php正则匹配换行符 php正则替换字符串

最新资料更新

  • 1.php网站界面代码 php网页
  • 2.php生成uuid php生成随机6位数
  • 3.php是否为post的简单介绍
  • 4.php语言怎么玩 php语言入门
  • 5.php图片上传及显示 php 图片上传
  • 6.php下载控件 php下载器
  • 7.php每个小时执行 php定时执行每天执行一次
  • 8.PHP版本在哪调 phpversion
  • 9.php新浪微博开发 微博开发工具
  • 10.php限制访问ip php访问被拒绝
  • 11.php语法基础csdn php语言基础
  • 12.phpsql过滤类 php过滤器
  • 13.口袋源码php下载 口袋com
  • 14.php+引用swf php引用其他文件内的函数
  • 15.phpwsdl调用 php调用php文件
  • 16.php分页页数太多 在php中如何对多条记录进行分页
  • 17.最新php环境搭建 最新php环境搭建方案
  • 18.php变量获取图片 php调用图片
  • 19.phpkey排序 php 排序函数
  • 20.bashphp的简单介绍

CopyRight:2016-{hedonghua:year}{hedonghua:sitegs} 备案ICP:湘ICP备09009000号-16 {hedonghua:sitejym}
本站资讯不构成任何建议,仅限于个人分享,参考须谨慎!
本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。

网站内容来源于网络分享,如有侵权发邮箱到:kenbest@126.com,收到邮件我们会即时下线处理。
网站框架支持:HDHCMS   51LA统计 百度统计
Copyright © 2018-2025 「好得很程序员自学网」
[ SiteMap ]