随着互联网尤其是移动互联网、物联网的快速发展,目前我们已处于数据、信息过载的海量信息时代。据数据调查公司IDC研究报告显示:2011年全球被创建和复制的数据总量为1.8 ZB,较去年同期,这一数据上涨了1 ZB,全球信息总量每过两年就会增长1倍。用户面对海量信息却很难找到自己真正感兴趣的内容[1].同时随着运营商逐渐推出移动互联网产品应用商店、阅读、游戏、社区等产品,如何分析挖掘这些产品生成的海量数据,将成为运营商迫切需要解决的问题。
云计算的出现,使得数据挖掘平台有了新的发展方向,也使得新一代的数据挖掘平台成为可能。云计算是能够提供动态资源、虚拟化和高可用的计算平台。云计算平台可被用来开发高性能的应用程序[2-3].但是对于数据挖掘来说,海量数据本身具有噪声、异构、算法复杂、技术复杂等问题,而现在的云计算开发平台并没有提供数据规约等功能。因此文章通过对于数据挖掘、云计算的详细描述和分析,提出了基于云计算的数据挖掘平台。该平台架构基于云计算的基础能力,并符合云计算软件即服务(SaaS)的设计理念。该平台还能极大减少运营商、企业在数据挖掘技术上的投入并能加快其挖掘业务的推出,缩短研发周期,进一步提高产品收益。
1基于云计算的数据挖掘策略
1.1数据挖掘
数据挖掘[4-6]是一个从大量的、不完全的、有噪声的、模糊的、随机的实际数据中提取隐含在其中的但具有潜在实用信息和知识的过程。从数据挖掘的定义可以看出数据挖掘是知识发现领域的一个重要技术,它涉及到人工智能、机器学习、模式识别、统计学等高技术领域,具体技术包括特征化、关联、聚类、预测分析等。数据挖掘在互联网、移动互联网、电信、金融、科学研究等领域得到了广泛的应用,例如Facebook的好友推荐、和淘宝网的商品推荐、银行的防欺诈分析等。传统的数据挖掘技术建立在关系型数据库、数据仓库之上的,对数据进行计算,找出隐藏在数据中的模型或关系,并在大规模的数据上进行数据访问和统计计算,整个挖掘的过程需要消耗大量的计算资源以及存储资源[7].