好得很程序员自学网
  • 首页
  • 后端语言
    • C#
    • PHP
    • Python
    • java
    • Golang
    • ASP.NET
  • 前端开发
    • Angular
    • react框架
    • LayUi开发
    • javascript
    • HTML与HTML5
    • CSS与CSS3
    • jQuery
    • Bootstrap
    • NodeJS
    • Vue与小程序技术
    • Photoshop
  • 数据库技术
    • MSSQL
    • MYSQL
    • Redis
    • MongoDB
    • Oracle
    • PostgreSQL
    • Sqlite
    • 数据库基础
    • 数据库排错
  • CMS系统
    • HDHCMS
    • WordPress
    • Dedecms
    • PhpCms
    • 帝国CMS
    • ThinkPHP
    • Discuz
    • ZBlog
    • ECSHOP
  • 高手进阶
    • Android技术
    • 正则表达式
    • 数据结构与算法
  • 系统运维
    • Windows
    • apache
    • 服务器排错
    • 网站安全
    • nginx
    • linux系统
    • MacOS
  • 学习教程
    • 前端脚本教程
    • HTML与CSS 教程
    • 脚本语言教程
    • 数据库教程
    • 应用系统教程
  • 新技术
  • 编程导航
    • 区块链
    • IT资讯
    • 设计灵感
    • 建站资源
    • 开发团队
    • 程序社区
    • 图标图库
    • 图形动效
    • IDE环境
    • 在线工具
    • 调试测试
    • Node开发
    • 游戏框架
    • CSS库
    • Jquery插件
    • Js插件
    • Web框架
    • 移动端框架
    • 模块管理
    • 开发社区
    • 在线课堂
    • 框架类库
    • 项目托管
    • 云服务

当前位置:首页>后端语言>PHP
<tfoot draggable='sEl'></tfoot>

php网页正文提取算法 php获取网站html代码

很多站长朋友们都不太清楚php网页正文提取算法,今天小编就来给大家整理php网页正文提取算法,希望对各位有所帮助,具体内容如下:

本文目录一览: 1、 谁能教我PHP怎样进行网页正文提取啊?万分感谢啊~ 2、 如何用 php 抓取微信文章正文 3、 网页正文及内容图片提取算法 谁能教我PHP怎样进行网页正文提取啊?万分感谢啊~

正文提取么,,,,你是要一个网页的主要内容么??这个是个复杂的算法,,,,,跟语言没关系吧。

如何用 php 抓取微信文章正文

很多人也有和你同样的想法,可以使用curl或file_get_contents。

在这里以curl为例

1、首先获得整个url对应的内容

$ch=curl_init();

    curl_setopt($ch,CURLOPT_URL,$url);

    curl_setopt($ch,CURLOPT_HEADER,0);

    curl_setopt($ch,CURLOPT_TIMEOUT,5);

    curl_setopt($ch,CURLOPT_NOBODY,0);

    curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);

    curl_setopt($ch,CURLOPT_USERAGENT, 'Sogouspider');

    curl_setopt($ch,CURLOPT_USERAGENT,'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.47 Safari/536.11');

    $html=curl_exec($ch);

    curl_close($ch);

2、从获$html里面提取正文内容

$mark='<div class="rich_media_content " id="js_content">';

$content=substr($html,strpos($html,$mark)+strlen($mark));

$content=trim(substr($content,0,strpos($content,'<script type="text/javascript">')-50));

如对您有帮助,请采纳。

网页正文及内容图片提取算法

备份自:

问题: 如何提取任意(尤其是新闻、资讯类)网页的正文内容,提取与文章内容相关的图片,源码可见: extractor.py 。

抓取单个网站网页内容时通常采用正则匹配的方式,但不同网站之间结构千奇百怪,很难用统一的正则表达式进行匹配。 《基于行块分布函数的通用网页正文抽取算法》 的作者总结了一般从网页中提取文章正文的方法,提出基于行块分布的正文抽取算法,并给出了 PHP 、Java 等实现。这一算法的主要原理基于两点:

算法步骤如下:

以上算法基本可以应对大部分(中文)网页正文的提取,针对有些网站正文图片多于文字的情况,可以采用保留 <img> 标签中图片链接的方法,增加正文密度。目前少量测试发现的问题有:1)文章分页或动态加载的网页;2)评论长度过长喧宾夺主的网页。

关于php网页正文提取算法的介绍到此就结束了,不知道本篇文章是否对您有帮助呢?如果你还想了解更多此类信息,记得收藏关注本站,我们会不定期更新哦。

查看更多关于php网页正文提取算法 php获取网站html代码的详细内容...

声明:本文来自网络,不代表【好得很程序员自学网】立场,转载请注明出处:http://www.haodehen.cn/did194943
更新时间:2023-04-26   阅读:14次

上一篇: vue与php vue与php整合思路

下一篇:php正则匹配换行符 php正则替换字符串

最新资料更新

  • 1.php会做流控吗 php流程控制
  • 2.php扩展的路径 php常用扩展有哪些
  • 3.php根据逗号分割 php分割文本
  • 4.php数据库名字大小写 php函数名称区分大小写吗
  • 5.php中文变量问号 php变量使用
  • 6.php多条件动态筛选 php实现数据筛选
  • 7.射洪php招聘 射洪平台公司招聘
  • 8.php获取服务器环境 php获取服务器状态
  • 9.仿win桌面php源码 仿windows桌面
  • 10.php调用裁剪插件 phpcrawl
  • 11.php代理访问源码 php 代理
  • 12.php解压gz效率 rarphp文件怎么解压
  • 13.phpu=13647的简单介绍
  • 14.php爬淘宝图片 php爬取图片
  • 15.php二维码读取 php做二维码会用到的技术
  • 16.php下载文件完整官方版 php在哪下载
  • 17.php开启sslopen php开启gd库
  • 18.php数字语音播报 php语音转文字
  • 19.php消息通知实例的简单介绍
  • 20.php框架制作教程外包 怎么做php框架

CopyRight:2016-2025好得很程序员自学网 备案ICP:湘ICP备09009000号-16 http://www.haodehen.cn
本站资讯不构成任何建议,仅限于个人分享,参考须谨慎!
本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。

网站内容来源于网络分享,如有侵权发邮箱到:kenbest@126.com,收到邮件我们会即时下线处理。
网站框架支持:HDHCMS   51LA统计 百度统计
Copyright © 2018-2025 「好得很程序员自学网」
[ SiteMap ]