基于大数据分析的新媒体用户画像构建及应用 ——以第一财经为例

第一财经根据财经媒体特点,自主设计并构建了集用户行为分析、用户画像、精 准运营推送于一体的用户系统。本文以第一财经用户系统为例,分别对用户画像 系统的架构设计、算法模型、数据可视化、应用场景等问题进行深入阐述。

摘要

近年来,随着互联网的发展,媒体形态不断发生着变革。用户对于内容资讯的接受方式由传统媒体时代的被动接收模式向新媒体时代的自主选择模式演变。伴随着媒体内容的海量化以及用户对于内容选择的多样化,如何发掘并把握每位用户的真实兴趣,提供与其相匹配的内容,成为了当今媒体内容生产者的一个重要研究课题。


用户画像是大数据挖掘与分析技术的应用产物。内容生产者通过对用户来访行为的客观数据分析,识别并理解目标用户,更精确地了解用户的实际需求、来访目的以及访问体验,并基于用户个人或群体画像对内容呈现等进行适配,为用户提供更精准的媒体内容服务,提升用户体验。第一财经作为国内知名的财经专业媒体,依托其报纸、电视、广播、网站、App 等多样化渠道,长期为广大投资者及财经爱好者提供精确、实时的市场信息。根据财经资讯内容的特点,第一财经对各渠道用户进行侧写,构建了集用户行为分析、用户画像、运营数据分析、内容精准运营等各类功能于一体的用户系统,通过精细化运营,为用户提供更高效的财经资讯服务。

一 系统设计与实现

1. 总体架构设计

第一财经用户画像系统从软件架构层面,可以分为信源层、采集层、存储层、服务层、应用层和展示层共六层。其中,信源层到存储层主要实现各类基础数据的采集;服务层中构建了多类型的业务模型和标签算法,并对完成清洗整理过程的各类基础数据进行数据建模;应用层实现各类数据画像以及基于数据画像的各类衍生服务,如:用户运营、内容推荐、活动推送等,形成多个独立的功能模块或组件;展示层则利用数据可视化技术对用户画像、运营数据等进行可视化呈现。系统总体架构如图1 所示。


image.png

2. 日志采集

为了实现各渠道海量日志数据的采集、清洗、分析,第一财经设计并部署了基于ELK 大数据分析架构的日志采集系统。在具体实现上,基于事件触发机制以及http 请求,根据业务自定义大量事件参数,实现基于不同应用的个性化日志采集,覆盖网站、WAP、App 等多样化渠道,实现跨渠道的数据汇聚、去重、合并;通过logstash 配合redis 实现多路数据流的高性能缓存和过滤,最终存入elasticsearch集群中进行保存,以满足前端数据建模所需的高性能数据检索。

3. 标签体系

用户标签体系是构建用户画像的业务基础[1], [2]。第一财经在用户标签体系的设计过程中,在横向上,结合财经媒体的业务特点,共建立了包括行为偏好、内容偏好、投资偏好、产品偏好、用户价值、社交偏好等在内的七大维度100 余组标签组、1000 余个具体用户标签,通过这些用户标签的匹配与组合,快速勾勒出用户个体或群体特征;在纵向上,对标签进行分层设计与管理,形成事实标签、模型标签和预测标签三个标签层级,针对不同层级的标签采用相匹配的算法模型和实现方式,确保了系统的可实施性。标签的分层设计如图2 所示。


image.png

4. 算法模型

各类原始数据经过数据清洗整理后,将通过算法和数学模型实现最终的标签匹配,因此算法模型的设计很大程度上决定着用户画像的最终实现效果。在第一财经用户画像体系的构建中,为了更精确地实现用户特征的提取与标签化,技术团队根据不同维度标签的特点,构建了科学而多样化的计算模型及用户标签算法体系。其中,图3 列举了三个比较有代表性的标签匹配模型。针对内容阅读类标签, 采用了TF-IDF 计算模型。通过分别计算某个标签T 对于某个用户P 所有标签的比重TF(P,T)=w(P,T)/ Σ w(P,Ti), 以及相应标签在全部标签中的稀缺程度IDF(P,T)=log( Σ Σ w(Pj,Ti)/Σ w(Pj,T)),再结合用户浏览、搜索、收藏、转发等不同行为的权重类型和次数以及时间衰减因素N(t)=e-0.05t,最终得到符合内容阅读规律且与第一财经业务场景(资讯栏目、资讯分类、用户操作等)相匹配的用户内容标签。

针对活跃度等评分类标签,采用了行为类型权重及时间衰减算法:Σ行为类型权重× 时间衰减× 行为次数。通过考虑时间衰减因子N(t)=e-0.05t,对各类行为事件进行加权,最后采用min-max标准化方法实现归一化 ,最终获得可以直接进行横向比较的行为评分。

针对消费类标签,则采用了RFM 模型,动态地显示了一个客户的全部消费轮廓,对消费用户个性化的沟通和营销提供了充分的依据。标签计算时,通过对每个用户最近消费(R)、消费频率(F)、消费金额(M)三个维度的综合计算,实现客户群体的精确细分,区别出低价值客户、高价值客户,便于用户部门、经营部门进行针对性的用户运营与营销。

5. 数据可视化

数据可视化作为对用户画像最终的展现,可根据不同用途对数据进行多维度呈现。第一财经除了通过各类基础图表、用户标签勾勒出个人和群体的基础用户画像外,还针对内容生产者、产品运营团队、决策者等不同群体设计了独立的仪表盘和数据分析工具。

●用户行为路径可视化。通过页面访问路径分析功能,了解不同环境、不同用户群体的自然流向,一方面,帮助定位并解决产品设计及运营中所隐藏的问题;另一方面,根据用户群组行为特征的挖掘,辅助广告及运营部门制定针对性的营销及运营策略。

●多层级用户访问指标分析。

面向记者编辑、栏目或频道总监等内容生产者提供多层级的数据导航仓,对产品总体流量、频道流量、详情页流量、活跃用户、来源渠道等与内容生产息息相关的数据指标进行综合分析并呈现,让内容生产者快速掌握特定范围的用户访问情况以及对用户内容的反馈情况,从而进一步指导内容生产。

●多视角的数据决策看板。

分别基于全媒体产品矩阵、内容生产流程、用户访问行为等不同视图,定制50 余个面向决策者的数据透视看板,构建数据决策大屏。通过对生产端、产品端等多维度的海量数据挖掘,发挥数据的运营及决策辅助价值。

image.png


image.png

二 用户画像应用

1. 个性化推荐

用户画像可以辅助个性化推荐系统的设计[3]。借助不同用户标签,可实现资讯、产品、投资标的、广告等不同维度的个性化内容推荐,如图4 所示。通常基于用户画像的推荐算法可作为推荐混合算法之一加入最终的结果排序。

2. 用户聚类

第一财经在用户系统设计过程中,将不同维度的用户画像作为用户智能聚类的主要依据,在技术上实现自动、智能的用户聚类和分群。除系统提供的智能聚类外,还为运营者提供了基于用户画像的灵活聚类工具,可自定义聚类标准,实现精准的用户分群及群组分析,智能生成群体用户画像,实现针对特定用户客群的多维度数据分析以及精准内容推送,帮助实现精细化运营管理,提升运营效率。

3. 运营推送

第一财经基于用户画像,开发了集App、邮件、短信推送等于一体的多元化运营平台,帮助实现多渠道、高精度的用户运营。系统针对不同的运营渠道,内置了多种灵活快捷的消息内容编辑工具,从而实现用户筛选与运营的无缝衔接,帮助业务部门实现App、邮件、短信等多渠道的快速消息推送,并提供了推送效果的统计反馈功能,便于运营团队对运营效果进行实时监控。

三 结束语

用户画像作为大数据技术在用户研究领域的应用,可以有效帮助媒体机构实现新媒体端的用户识别和用户理解,从而为用户提供更精准的内容服务。

用户画像系统的构建涉及数据采集、标签体系、算法模型、数据可视化等多个环节。在系统设计时,企业需要结合自身业务形态、关键业务指标、核心用户特征等多个维度对各个环节进行定制,以确保获得良好的业务适配能力。

用户画像不仅能将用户分析清晰地呈现给企业决策者,还能通过后续的应用开发实现个性化推荐、用户聚类、运营推送等面向产品或运营团队的各类衍生应用,提供更丰富的应用场景。


参考文献 :

[1] 谭浩, 郭雅婷. 基于大数据的用户画像构建方法与运用[J].包装工程,2019,40(22):95-101.

[2] 王仁武, 张文慧. 学术用户画像的行为与兴趣标签构建与应用[J]. 现代情报,2019,39(09):54-63.

[3] 王正友, 张海迪. 大数据时代基于用户画像的视频精准推荐[J]. 电子商务,2019(10):62-65. 

转载请注明来源:《现代电视技术》 作者:第一财经传媒有限公司 姚学润 张琦 倪明昊 韩杨