很多站长朋友们都不太清楚php中文分词接口,今天小编就来给大家整理php中文分词接口,希望对各位有所帮助,具体内容如下:
本文目录一览: 1、 php 提取中文后简单分词 2、 我想用PHP做一个聊天机器人,我调用别人的API实现了中文分词,我要怎样构建自己的数据库呢? 3、 php 一般使用什么中文分词扩展 php 提取中文后简单分词$str = "汉字一二3四5六七八,九十六七...";
$s1 = array();//初始化储存第二步结果的数组
//preg_match_all("/[x80-xff]+/", $str, $match);//此为GBK使用
preg_match_all("/[\x{4e00}-\x{9fa5}]{2,}+/u", $str, $match);//此为UTF-8使用
foreach($match[0] as $str1)//循环遍历匹配到的汉字
{
$leng = iconv_strlen($str1, "UTF-8");//计算汉字其长度
for($i = 0; $i < $leng-1; $i++)
{
$temp = mb_substr($str1, $i, 2, "UTF-8");//将汉字切割长两个字,得第一步结果
if(!in_array($temp, $s1))//去除重复,得第二步结果
$s1[] = $temp;//得到的汉字存入数组
}
}
//print_r($s1);//第一二步完成,得数组$s1,可打印查看结果
$s2 = file_get_contents("21.txt");//将文件内所有字符读取成一个字符串
$s2 = iconv("", "UTF-8", $s2);//将字符串转码,否则难免有乱码
//echo $s2;//可输出查看文件中的内容
$s = "";//初始化最终结果的变量
foreach($s1 as $j)//遍历汉字对
{
if(preg_match("/".$j."/", $s2))//判断该汉字对是否被包含于文件的文字中
$s .= ("" == $s) ? $j : "\\".$j;//将结果合在$s中
}
echo $s;//得结果,可输出查看或调用
若有疑问,可追问。
注释详细,希望能加分
我想用PHP做一个聊天机器人,我调用别人的API实现了中文分词,我要怎样构建自己的数据库呢?可以用SimSimi API:(不需要数据库)。
根据提示进行注册(注册地址:)。
登录后访问:,
点击[Get a 7 days Trial Key],你就会获得一个Trial Key(有效期为7天),然后直接
$key = ''; // 你的 Trial Key
$lang = ''; // 语言
$msg = ''; // 用户说的话
$res = file_get_contents(''.$key.'lc='.$lang.'ft=1.0text='.$msg);
或者你要购买一个Paid Key,也可以。
在中,点击[Get Paid Key],就可以购买。
只是代码要改为(响应地址不同):
$key = ''; // 你的 Paid Key
$lang = ''; // 语言
$msg = ''; // 用户说的话
$res = file_get_contents(''.$key.'lc='.$lang.'ft=1.0text='.$msg);
就可以了。注意php.ini中,allow_url_fopen要为On:
allow_url_fopen = On
然后会返回一个JSON字符串,与下面类似:
{
"result": 100,
"response": "SimSimi的回答",
"id": 本次会话的标识符(int),
"msg": "响应描述"
}
相应描述与result的值相关。
100:OK. // 成功
400:Bad Request. // 参数错误
401:Unauthorized. // Key 不存在
404:Not found. // 页面不存在
500:Server Error. // 服务器出错
参见:SimSimi API:
谢谢!
php 一般使用什么中文分词扩展Robbe是建立在Friso中文分词器上的一个高性能php中文分词扩展,除了提供了基本的分词函数以外,还提供一些编码转换函。
Robbe完整版本(PHP测试程序, 开发帮助文档, WinNT下php各版本的dll文件)下载:code.google.com/p/robbe
一. 关于Robbe:
robbe是建立在friso中文分词上的一个高性能php中文分词扩展。了解friso
1.目前最高版本:friso 1.6.0,【源码无需修改即可在各平台下编译运行】
2.mmseg四种过滤算法,分词准确率达到了98.41%。
3.详细功能,请访问friso官方首页:friso [code.google.com/p/friso]
二. Robbe分词速度:
测试环境:2.8GHZ/2G/Ubuntu
简单模式:3.1M/秒
复杂模式:1.4M/秒
(因为php中的大量字符串的复制,性能比friso有些下降)。
关于php中文分词接口的介绍到此就结束了,不知道本篇文章是否对您有帮助呢?如果你还想了解更多此类信息,记得收藏关注本站,我们会不定期更新哦。
查看更多关于php中文分词接口 php中文分词接口有哪些的详细内容...