好得很程序员自学网

<tfoot draggable='sEl'></tfoot>

Python对杂乱文本数据进行处理实例

一、运行环境

1、python版本 2.7.13 博客代码均是这个版本
2、系统环境:win7 64位系统

二、需求 对杂乱文本数据进行处理

部分数据截图如下,第一个字段是原字段,后面3个是清洗出的字段,从数据库中聚合字段观察,乍一看数据比较规律,类似(币种 金额 万元)这样,我想着用sql写条件判断,统一转换为‘万元人民币’ 单位,用sql脚本进行字符串截取即可完成,但是后面发现数据并不规则,条件判断太多清洗质量也不一定,有的前面不是左括号,有的字段里面没有币种,有的数字并不是整数,有的没有万字,这样如果存储成数字和‘万元人民币’单位两个字段写sql脚本复杂了,mysql我也没找到能从文本中提取数字的函数,正则表达式常用于where条件中好像,如果谁知道mysql有类似从文本中过滤文本提取数字的函数,可以告诉我哈,这样就不用费这么多功夫,用kettle一个工具即可,工具活学活用最好。

结合用python的经验,python对字符串过滤有许多函数稍后代码中就是用了这样的办法去过滤文本。


第一次部分清洗数据截图

查看更多关于Python对杂乱文本数据进行处理实例的详细内容...

  阅读:47次