大数据最大的问题:数据清理太花时间
诗书塞外 Python程序员
大数据能够给商业带来不菲的价值,大多数公司都意识到了这一点。随着近年来大数据领域的迅猛发展,数据分析的软件以及解决方案已经非常丰富了。但是在应用大数据的过程中,另外一个问题却十分棘手: 我们如何把我们的数据放到分析软件中?
这个问题是有数据依据的,根据专业的第三方机构的研究,公司往往花费50%到90%的时间在数据清理及数据准备上,只有28%的公司确信自己整理的数据是有切实意义的。
这意味着很多专业的数据人士目前工作的很大比例都在做一些“不太专业的工作”,这大大限制了大数据技术的应用。尤其是随着获取数据的工具越来越方便(网络工具越来越健全),更加突出了清理数据麻烦这个困境。
由此,我们可以预测一些可能的解决方案。
大数据分析软件更加完善
不过老实说,虽然大数据软件一直在进步,不过实在看不出来在数据清理方面它能有什么突破性的改进。
数据准备员变成数据科学家的专业助手
由于数据清理工作的比重如此之大,那很有可能数据清理的工作形成一个专门的职业。已经有媒体称数据准备员为数据领域的新蓝领。如果你觉得直接做大数据的工作会比较困难,也许数据准备员是一个新选择哦。
通过AI协助清理数据
听起来非常高大上,似乎也非常靠谱。我们都非常希望这个能成为现实。不过另一方面我们也要看到,微软、Amazon、IBM它们也在使用人类帮助机器来识别一些机器难以识别的问题,它们可是数据领域的先锋啊,这多少让人感到,AI帮助我们减轻工作恐怕还要再等一些时间。
观点来源:http://HdhCmsTestzdnet测试数据/article/big-datas-biggest-problem-its-too-hard-to-get-the-data-in/
查看更多关于大数据最大的问题:数据清理太花时间的详细内容...
声明:本文来自网络,不代表【好得很程序员自学网】立场,转载请注明出处:http://www.haodehen.cn/did164500