5.4.1 网站结构和布局调整。
TC 企业通过在公司网站相应页面增加 google 公司的隐藏收集页面相关数据的代码,收集 PV、UV 等各指标分析网站常规指标。通过 Hadoop 大数据日志分析工具统计网站性能指标,包括浏览量、访问量、单页面停留时间、全站停留时间、跳出率、退出率、转化率以及留存率等指标。通过分析用户对 TC 企业官网的访问路径以重新设计页面跳转关系;通过分析 TC 企业官网网站点击的热点区域重新布局;通过分析 TC 官网的网站日志验证网站的设计或改善网站的设计。
5.4.2 用户课程产品推荐。
基于大数据的推荐和用户画像的支持,所以在 TC 企业的官网购物车界面中增加了课程产品推荐栏。但对于第一次登录官网的用户存在冷启动的问题,所以基于产品内容的推荐无法完成时,在用户注册的时候要求用户填写姓名、性别、手机号、年龄等信息加上登录网站的地域信息等,系统会根据地域信息推荐离用户最近的学校点,根据年龄判断推荐 K12 课程还是非 K12 课程,与目前热售课程相结合,解决用户冷启动的问题,有效的缩小了推荐范围。若用户已经在 TC 企业的官网上注册过账号甚至购买过课程产品,在其本机上留下带有个人信息的永久性 Cookie,就会在他\她的数据库中检索此客户的 ID,相关的购物记录、个人喜好等信息,查询购买相同产品的其他客户还购买过的产品推荐给购买此产品的客户,这就是所谓的基于客户协同过滤的推荐方法。而通过 Web日志的分析方法称其为基于知识的推荐方法。TC 企业官网的推荐栏里的推荐信息是基于产品内容的推荐、基于客户协同过滤的推荐和基于知识的推荐三种方法共同完成的推荐功能,为客户未来选择行为的预测,完成对特定客户提供 topN 推荐列表。通过精准营销,扩大市场份额。
用户属性是形成用户画像的基础数据,直接通过 TC 企业官网收集的原始数据称为静态信息,而通过挖掘的二次加工数据称为动态数据。用户的静态信息数据相对稳定的信息,主要包括用户基本属性,如姓名、性别、地域、语言各类、联系方式等方面数据。
这类信息为结构化信息,其收集方式主要是通过 TC 企业官网注册或购课时所留下的信息为主,为显性收集。而用户不断变化的行为信息为动态信息数据,如观看视频、搜索信息、发表评分,这类信息一般为非结构化或半结构化信息,其收集方式主要为隐匿收集。用户在 TC 企业官网的推荐栏中的交互行为会产生很多相关数据,如用户搜索了某类课程产品、查看了某个教师信息、收藏了某课程产品、阅读浏览的时长等表明用户的感兴趣程度,系统会在用户无意识的操作下和上下文信息中获取。一般情况下,隐式用户信息收集的准确性低于显性用户信息收集的准确性,所以要通过大量用户信息的收集和挖掘才可以提高准确性,或将隐式信息收集只作为显性信息收集的一种补充。
5.4.3 分析。
通过运用大数据技术对企业官网访问路径的重新设计页面跳转关系的调整,加上基于用户推荐、协同推荐、知识推荐与用户画像更好的结合,使得基于内容推荐和基于客户协同过滤的推荐方法得到更好的应用。2017 年北京学校共计有 1332225 人次报名,剔除带有挂失和收回标志的 230175 个听课证之外,有效听课证为 1102050 人次,比 2016年有效听课证的 851910 人次增加 250140 报班人次,报名人次明显增加。
但语言类教育培训 TC 企业不但有社招的非 K12 学员客户,也有 K12 的学员客户,所以简单只用环比来衡量大数据在 TC 企业中应用的结果并不是很科学,因为 K12 的学员客户在一年中有春、秋季之分,也有寒、暑假阶段,如果能细化到春、秋季的报名人次和寒、暑假阶段的同比数据的比较,持续几个周期才能更好的说明大数据在 TC 企业中的应用效果。
本章小结。
由于 TC 企业存在课程产品设置问题、教师教学质量问题、教学管理效率问题和客户市场占有率低的问题,又由于北京学校的领导意识到充分发挥大数据在企业中的作用和优势对企业的意义,所以率先将大数据技术应用到官网网站展示内容的结构优化方面,已经初见成效。现在为了配合企业新业务,运用内部大数据重新建模,根据用户画像的支持进行推荐,增加对九年义务教育学员和出国考试学员在语言类科目中的精准定位,扩大北京市场份额。同时运用内部数据提高北京学校教学质量和管理效率。
本章主要介绍 TC 企业北京学校通过运用大数据优化后的课程产品为双师教学。通过对系统中学员数据的分析可真正做到因材施教。根据登录系统日志预测新增客户量来提前协调教师、教室、多媒体等资源,还可以很好的对学生各方面进行管理。通过网站运用大数据技术的推荐功能,有效的扩大市场份额。同时介绍如何运用 Hadoop 中的 Map和 Reduce 对日志进行统计、分析、给出预测客户报名数量。最后给出运用大数据技术前后两年的专、兼职教师数据,班级数据和报名人次数据,证明运用大数据技术的效果。