互联网中的个性化推荐思考

互联网中的个性化推荐思考

 

12011年2月JohnDoerr首次提出“SoLoMo”概念后,由social(社交)、local(本地化)和mobile(移动)所标识的这一新的移动互联网发展趋势被业界广泛认可,认为SoLoMo模式是用户消费模式、基础信息建设、移动技术变革等多方面的融合和统一。中国电信集团公司(以下简称中国电信)在向现代化“综合信息服务提供商”的转型过程中,业务模式互联网化的特性逐步显现并越来越明显;特别是在移动互联网进入高速发展时期后,根据中国电信对移动互联网时展的精准解读和定位而提出的“新三者”战略目标表明,移动业务应用的一个重要方向就是要站在移动互联网时代的前列,并加强了其在价值高端区域的地位。   在SoLoMo趋势下,成功的移动互联网应用再次证明,要以战略性的高度来重视客户的需求和体验,技术和应用两手抓,更多地激发用户在应用中互动性、实时性的参与意识,充分运用数据挖掘理念,精确聚焦用户需求,为用户提供个性化、差异化的服务;以产品的生命周期理论为指导,适时更新产品功能或开发出新产品,持续刺激用户对产品的兴趣,增加用户黏性,实现用户价值最大化。   2业务运营发展的关键问题   移动互联网时代,用户的规模化经营愈发重要,没有市场份额作基础就难言生存,更别谈发展。工业和信息化部的统计数据显示,截至2011年年底,我国的3G用户总数达1.28亿户,其中,中国电信的3G用户超过3700万户,且有近一半的3G用户使用中国电信天翼智能终端。这些智能终端为移动互联网业务的兴起和发展奠定了强有力的基础,除手机移动终端外,其他各种平板电脑、电子阅读器、移动导航等设备终端同样也承载着大量的移动应用。   相比于传统的固话、PC互联网业务,移动互联网时代是个性化更明显的时代,用户提出了更高的能动性需求:用户不再满足于被动地接受信息浏览、信息推送等服务模式,而是希望以参与者的身份与内容提供商一起通过自制或定制的方式来展示自己的独特个性,这也是SNS、UGC等在社交媒体网站火爆的重要原因。因此,移动互联网业务更需要收集这些用户的行为特征,以新颖的创意和可持续的功能优化来吸引用户,以极致的用户体验来提高用户的黏性,并在规模化的基础上,提供便捷新颖的交互性产品,促进移动互联网类业务的创新和发展。   在移动互联网业务中,以满足用户个性化需求为关键出发点,成功把握移动互联网时代个性化、差异化的市场先机,甚至成为业务规则的制定者,需要把移动互联网的内容、产品与用户的年龄、身份、职业等自然属性和消费特点、个性偏好、动态需求等特点相关联,结合下面描述的移动互联网业务特点,以数据挖掘的技术手段,如挖掘潜在用户、提供用户分群和进行交叉营销等,做大做强整个产业链。   2.1个性化的用户数据分析是产品成败关键   SoLoMo应用的基础是个性化信息的整合,因此建立具备能力开放功能的移动用户行为知识库平台是SoLoMo应用的必要前提。   首先,快速圈住一批用户是产品成功的先决条件。中国电信的基础业务积淀了大量的真实用户属性和行为特征,如八大基地数据、移动互联网日志、号百查询记录、用户话务清单、电信CRM资料等,而云计算技术框架为这些海量数据的整合提供了可能。根据确定的主题领域分析建模后可得到综合的用户社交圈、兴趣偏好、消费能力,建立一个最基础的用户知识库平台。   其次,还应该提供一个能力开放平台,使移动用户、终端提供商、应用软件商、电信运营商、第三方平台都可以通过灵活的接口丰富与修正用户知识库,构建一个共赢的生态价值链。   2.2提升用户体验是产品发展的动力和保障   移动应用产生的数据以碎片化的形式填满用户的24h。用户体验正日益成为驱动互联网行业发展的原动力,未来的业务也将以“On-Demand”体验为主,以Apple的产品为例,“简洁是苹果被认识最为普遍的美学特点”,其目的就是把用户体验做到极致,增加用户黏性。   另外,从产品的内容本身来看,产品要不断注入抢眼球的新玩法才能够使产品不断延续生命,保持核心竞争力。否则新鲜感过后,用户容易产生体验疲劳而逐步迈入寒冬。目前大多数SoLoMo应用,用户群规模相对较窄,用户活跃度更低,产品的同质化竞争激烈。故需要通过多种方式吸引用户,提升产品的用户体验,用户的深度参与反过来进一步刺激新的创意型产品。除了常规的界面动效设计、内容定期更新外,精确的屏幕适配性(屏幕尺寸、屏幕分辨率)、便捷的输入输出(如话音交互、手势指令)都会给用户的体验得以升级。   2.3提供合理的用户引导是产品规模化的前提   移动用户的使用技能差异很大,因此提供合理的用户引导可以帮助用户更好地使用产品,最终提升用户满意度。不同于PC界面,移动终端的界面多受屏幕尺寸、适配繁琐等条件所限,再加上产品功能的不断膨胀,在简化设计界面和追求功能丰富的二难选择之间,需要辅助以必要的引导,告之产品的主要功能和独有特色,从而引导用户正确的操作和完成产品的主要功能,而不至于迷失在应用中而放弃产品。这些引导要建立在收集大量用户行为特征的基础上,综合分析用户的多种差异而得出的,甚至可以为了某类用户而定制。   2.4发挥终端优势是提高用户体验的重要途径   硬件功能:本地化位置服务(locationbasedservices,LBS)是目前阶段移动互联网产品中应用最广和最容易接受的服务,它与社交网络、移动支付、移动广告、数字内容发行等诸多移动互联网重点业务领域的融合深度和广度正在与日俱增。充分利用终端提供的定位、图像等特性,对产品提供方便快捷的输入方式、输出满足用户需求的精确内容等方面都起到非常重要的作用,特别是以“签到”类服务为代表的LBS应用中,地理信息以及用户身份及状态跟商业消费更容易契合而创造商机。#p#分页标题#e#   软件功能:以终端定制为例,除了进一步繁荣软件应用商店类似的模式之外,还需要关注当前现状。由于终端的种类繁多,给软件的适配造成很大困难;同时仍有部分智能终端用户在软件的选择、安装、升级维护过程存在一定程度的困难,因此采用终端定制成为电信运营商备受青睐的选择,可以将电信主推服务与移动终端深度整合,大幅度提升用户体验的同时,还可以尽可能圈进部分非智能手机,避免失掉这部分用户群。   2.5服务综合化是产品从用户规模化走向盈利的首选途径   移动、社交和云技术,作为一种综合的驱动力,改变了人们的联系内容、联系方式以及交易方式,单独的垂直搜索类服务已经很难满足用户的需求。信息获取、信息分享、一键支付这类需求要求应用的综合化,使得用户从一个入口进入后可以享受多种服务(如导航门户、应用商店、搜索引擎、社区门户、音乐、视频、游戏等),进而实现精准广告投放、流量经营、交叉营销等盈利模式。   3数据挖掘工具及算法   本节重点分析基于商业和开源的挖掘工具、算法的特点及优劣,以及基于移动业务建立面向精确营销的智能化用户模型所面对的关键问题及解决方案。据RexerAnalytics2010年度数据挖掘调查的结果显示,当前数据挖掘的主要特点呈现如下特征[1]。   挖掘算法上来看,决策树、回归和聚类分析依然是最常用的算法,且主要应用领域为CRM、市场营销。   从数据存储来看,数据挖掘依然主要发生在个人电脑上,数据一般也是存储在本地,近几年兴起的云技术远未达到普及。   从关键疑难问题来看,脏数据、数据挖掘概念的普及、对数据的访问依然是数据挖掘人员面临的最大挑战。   从挖掘工具来看,开源数据挖掘软件R-Project已经成为挖掘人员的首选(被调查者的比例高居43%),其次是Statistica(18%)。而且Statistica、IBMSPSSModeler和R-Project在2009、2010年被参与调查人员给了最高满意得分。   从挖掘结果来看,模型输出依然主要依赖于软件本身,只有13%的挖掘人员给自己的公司的分析能力评为“优秀”,只有8%的人认为他们的数据质量可以被认为“很强”,可见这个领域仍存在很大上升空间。   3.1商业套件和工具概要   2007年Gartner“客户数据挖掘魔力象限”的客户数据挖掘工具评估中[2,3],SAS和SPSS还被评为处于领先地位,但跟2011年的报告对比后就会发现,经过几年的技术和软件发展后,该领域发生了很大的变化:主流的元数据管理软件厂商(如Oracle、IBM)进入领导行列,而数据发现供应商(如Quiterian、Tibco、Tableau)正逐渐崭露头角并占据重要角色。因此Gartner给出的结论是,目前商业智能(BI)市场分裂为截然不同的两个阵营,一方由传统的BI平台供应商组成,另一方由数据发现供应商组成。   以Quiterian的动态数据网络(DDWeb)产品为例,核心价值在于它使数据挖掘和统计分析简单易行,从而使这些工具更容易在以市场为导向的企业得到利用,后者虽然市场份额不是很大,但对前者的挑战正逐步加强。   目前数据挖掘相关的工具主要有以下系列:SASEnterpriseMiner是一种通用的数据挖掘工具,按照SEMMA(抽样、探索、转换、建模、评估)的方法进行数据挖掘,性能较高,但SAS的软件许可证的成本及开发预测分析的人力成本对其普及造成很大阻碍;而Clementine作为一种可视化数据挖掘工具,提供了多种图形化技术,有助理解数据间的关键性联系,指导用户以最便捷的途径找到问题的最终解决办法,提出了CRISPDM(业务理解、数据理解、数据准备、数据建模、评估建模、模型)的6步方法论;另外还有数据库产品内置的数据挖掘模块,如:SAPNetWear7.0DataMiningWorkbench、Oracle11gDataMining、MicrosoftSQLServer2005AnalysisServices等。   3.2开源软件简介   开源(opensource)数据挖掘软件有R-Project、Weka、Mahout等,但从实际应用来看相对成熟、完整、现成的开源解决方案较少:R-Project有很强的面向对象功能,可通过下载用户撰写的扩展包进一步增强,但由于R-Project需要较扎实的统计知识,造成了其学习曲线非常陡峭。Mahout是作为推荐引擎的一种实现框架,可以把常用的Content-Based推荐算法及协同过滤算法(Item-Based、User-Based)相结合,但在实际应用中要解决冷启动、大数据量的性能下降等问题。   3.3云计算技术对数据挖掘的影响   根据Gartner的预测,尽管云计算的市场仍处于早期阶段,但“云”作为一种颠覆力量,对多数的产业可能具有广阔的、长期的影响。下一代的分析必然面对数据规模、复杂格式和交付速度的挑战,甚至从传统的离线分析转向在线嵌入式分析。   云计算的MapReduce计算模型适合结构一致的海量数据,但像点击流数据、互联网访问日志、社交网络评论等非结构化数据更适合把云计算作为一种ETL工具来构建用户行为库;而对于大量的数据密集型应用(如数据挖掘任务),往往涉及数据降维、程序迭代、近似求解等复杂的算法,用云计算的方式实现比较困难。   4LBS应用框架及前景LBS提供了移动互联网时代聚拢用户的基础能力,其核心概念(精准营销、信息定位、区域受众、位置服务)在SoLoMo模式下被广泛应用,并形成了多种新型的创意产品的试验田和新产品体验的促成物。随着移动定位技术的发展,不同精度的位置服务提供者相继出现,服务的“本地化”概念也将呈现从米级到城市级多种尺度,但关键核心其实是服务和内容,“位置”在这里只是服务的一种载体形式。LBS应用的关键在于把移动互联网的线上用户和线下商店联系起来并形成良性互动,重点应用模型有基于位置信息推送实时服务、基于协同过滤进行消费智能推荐、基于偏好构建虚拟社交圈等。#p#分页标题#e#   诚如ThomasHusson“移动位置趋于无形”[4]报告中提到的LBS应用范畴所述:当位置和地图越来越成为新移动产品和服务的标配功能之后,基本信息的提供已经远远不能满足用户的需求了,用户生成内容(UGC)、实时数据(交通信息、优惠券和促销等)、动态数据(评论和促销)、虚拟现实等与用户环境耦合的精准本地数据需求愈发显著,把地理信息及其附属的时间信息、行为预测引入商业模式中,必然带给用户全新的体验。互联网时代,数据量呈爆炸式增长,数据来源多样化,如何把海量数据处理和挖掘算法结合起来,“淘金式”地寻找有价值的用户信息成为关键,把消费者行为和本地数据连接起来的新模式,会产生与用户环境耦合的更多精准本地数据。通过把线下和线上活动嫁接起来,带动整合产业链的良性循环。   基于海量数据处理的LBS业务框架模型,按照处理流程可分为多源数据获取层、云计算ETL处理层、用户行为分析层、业务建模及应用层等逻辑架构,如图2所示。该模型已经在“中国电信爱音乐”的相关项目应用,其中基于用户已听歌曲的内容推荐、基于当前位置的友邻听等功能的应用,在用户的黏性和活跃度提高方面取得了良好效果。   多源数据获取层主要靠离线方式收集用户在业务消费过程中产生的历史明细、行为习惯以及电信CRM用户资料数据。这些数据因为来源于不同的业务系统,其业务标志、数据真实性、数据重复性等需要建立一套数据过滤规则来初步清洗。在海量数据ETL过程中,其大量的运算、临时存储等会产生严重的性能问题,可以借助云计算技术解决这一难题。在项目中,使用了基于Hadoop的开源分布式数据处理框架,通过几台廉价的PCServer即可处理“亿×亿”级的数据关联。云计算的结果是已经格式化的用户行为、兴趣偏好等通用行为知识数据,通常存储在关系型数据库中,根据业务主题的需求即可构建对应的用户模型并应用于移动位置业务。   5结束语   本文从SoLoMo业务特点和数据挖掘技术应用相结合的角度,以LBS为代表的典型移动互联网应用,探索其业务框架及前景,但是受新算法复杂性和高效性的限制以及流量费用、隐私习惯等问题的影响,要实现更广泛的应用还有很长的路要走。但随着云计算技术的初现成效和更多数据挖掘工具、算法的改善,数据挖掘在移动互联网时代的用户行为分析、精确营销以及市场预测中必然会发挥更大作用。