很多站长朋友们都不太清楚php中文分词接口,今天小编就来给大家整理php中文分词接口,希望对各位有所帮助,具体内容如下:
本文目录一览: 1、 php 提取中文后简单分词 2、 我想用PHP做一个聊天机器人,我调用别人的API实现了中文分词,我要怎样构建自己的数据库呢? 3、 php 一般使用什么中文分词扩展 php 提取中文后简单分词$str?=?"汉字一二3四5六七八,九十六七...";
$s1?=?array();//初始化储存第二步结果的数组
//preg_match_all("/[x80-xff]+/",?$str,?$match);//此为GBK使用
preg_match_all("/[\x{4e00}-\x{9fa5}]{2,}+/u",?$str,?$match);//此为UTF-8使用
foreach($match[0]?as?$str1)//循环遍历匹配到的汉字
{
?$leng?=?iconv_strlen($str1,?"UTF-8");//计算汉字其长度
?for($i?=?0;?$i?<?$leng-1;?$i++)
?{
??$temp?=?mb_substr($str1,?$i,?2,?"UTF-8");//将汉字切割长两个字,得第一步结果
??if(!in_array($temp,?$s1))//去除重复,得第二步结果
???$s1[]?=?$temp;//得到的汉字存入数组
?}
}
//print_r($s1);//第一二步完成,得数组$s1,可打印查看结果
$s2?=?file_get_contents("21.txt");//将文件内所有字符读取成一个字符串
$s2?=?iconv("",?"UTF-8",?$s2);//将字符串转码,否则难免有乱码
//echo?$s2;//可输出查看文件中的内容
$s?=?"";//初始化最终结果的变量
foreach($s1?as?$j)//遍历汉字对
{
?if(preg_match("/".$j."/",?$s2))//判断该汉字对是否被包含于文件的文字中
??$s?.=?(""?==?$s)???$j?:?"\\".$j;//将结果合在$s中
}
echo?$s;//得结果,可输出查看或调用
若有疑问,可追问。
注释详细,希望能加分
我想用PHP做一个聊天机器人,我调用别人的API实现了中文分词,我要怎样构建自己的数据库呢?可以用SimSimi API:(不需要数据库)。
根据提示进行注册(注册地址:)。
登录后访问:,
点击[Get a 7 days Trial Key],你就会获得一个Trial Key(有效期为7天),然后直接
$key??=?'';?//?你的?Trial?Key
$lang?=?'';?//?语言
$msg??=?'';?//?用户说的话
$res??=?file_get_contents(''.$key.'lc='.$lang.'ft=1.0text='.$msg);
或者你要购买一个Paid Key,也可以。
在中,点击[Get Paid Key],就可以购买。
只是代码要改为(响应地址不同):
$key??=?'';?//?你的?Paid?Key
$lang?=?'';?//?语言
$msg??=?'';?//?用户说的话
$res??=?file_get_contents(''.$key.'lc='.$lang.'ft=1.0text='.$msg);
就可以了。注意php.ini中,allow_url_fopen要为On:
allow_url_fopen?=?On
然后会返回一个JSON字符串,与下面类似:
{
"result":?100,
"response":?"SimSimi的回答",
"id":?本次会话的标识符(int),
"msg":?"响应描述"
}
相应描述与result的值相关。
100:OK.???????????//?成功
400:Bad?Request.??//?参数错误
401:Unauthorized.?//?Key?不存在
404:Not?found.????//?页面不存在
500:Server?Error.?//?服务器出错
参见:SimSimi API:
谢谢!
php 一般使用什么中文分词扩展Robbe是建立在Friso中文分词器上的一个高性能php中文分词扩展,除了提供了基本的分词函数以外,还提供一些编码转换函。
Robbe完整版本(PHP测试程序, 开发帮助文档, WinNT下php各版本的dll文件)下载:code.google测试数据/p/robbe
一. 关于Robbe:
robbe是建立在friso中文分词上的一个高性能php中文分词扩展。了解friso
1.目前最高版本:friso 1.6.0,【源码无需修改即可在各平台下编译运行】
2.mmseg四种过滤算法,分词准确率达到了98.41%。
3.详细功能,请访问friso官方首页:friso [code.google测试数据/p/friso]
二. Robbe分词速度:
测试环境:2.8GHZ/2G/Ubuntu
简单模式:3.1M/秒
复杂模式:1.4M/秒
(因为php中的大量字符串的复制,性能比friso有些下降)。
关于php中文分词接口的介绍到此就结束了,不知道本篇文章是否对您有帮助呢?如果你还想了解更多此类信息,记得收藏关注本站,我们会不定期更新哦。
查看更多关于php中文分词接口 php中文分词接口有哪些的详细内容...