所获奖项     BIRTV奖
评委点评     
附件  
项目名称     橙视传媒-无-新闻智能选稿系统
项目名称(英文)     
项目属性     产品
项目研制生产单位     成都市广播电视台
项目申报推荐单位      成都市广播电视台
申报联系人      张懿
电话     15928622157
E-mail     zhangyi@cditv.tv
邮编     610041
申报单位通信地址     成都市高新区高朋大道2号
项目构成情况综合介绍     成都橙视传媒科技股份公司(以下简称“橙视传媒”)系成都市广播电视台新媒体子公司,注册资本3000万元,现有员工180余人,自2010年起全面致力于成都台新媒体战略推进和产业拓展。近年来,橙视传媒立足广电、创新实施与城市电视台相适应的媒体融合发展模式,累计投入资金上亿元构建了行业领先的“云计算”、“大数据”平台产品,与电信运营商等合作开展成都IPTV和多种增值业务服务,推出“看度”APP、“蓉城先锋”智慧党建体系、“廉洁成都”网站集群、融媒体采编全流程管理工具--度客等新媒体多元化产品服务体系,已向50余家政企机构提供了融媒体系统集成整体解决方案、大数据云服务和基于“看度云”平台的媒体政务服务,具备了全面的融媒体业务支撑能力和项目开发运营经验,已发展为极具成长性和竞争力的广电媒体融合运营商和服务商。 “新闻智能选稿系统” 是橙视传媒按照成都市广播电视台媒体融合发展的总体要求自行研发的,具有独有知识产权的系统平台,其作为全台“中央厨房”内容生产制作体系的重要组成部分,提供全互联网新闻资讯的及时监测和各渠道信息的快速爬取,为记者编辑提供辅助编稿工具和全面的传播效果分析。系统依托于大数据技术,按照“私有云”方式构建,首先通过部署在全网的“爬虫”抓取海量互联网信息,再按照预设的数据模型和关键词进行数据清洗和预处理,并打通与融媒体内容生产系统(CMS)的接口,最终通过统一的PC管理端为使用人员提供各种智能的新闻采稿和辅助采编功能。 新闻智能选稿系统的主要功能,包括有新闻日历、突发新闻、国际国内、视频与直播、主题主线、敏感事件、用户原创、热点监控、编辑辅助、系统管理等板块,以及适用于通过大屏展示“首页”调度窗口。自2014年起,该系统已全面应用于成都市广播电视台“全媒体生产调度中心”以及各频道、栏目,并已在2017年6月升级为2.0版本。除成都台外,该系统还为绵阳电视台、凉山州电视台、河北廊坊电视台,以及成都市委组织部、成都市纪委、成都市妇联、成都市文广新局等近20余个党政机构和广电台提供智能选稿和大数据分析等综合服务,在业内已具有广泛的影响力,并已获得了较高的经济效益。
项目主要技术参数、系统指标     系统运行环境 1)软件环境: 操作系统:centos6.5 内核2.6.32-431.el6.x86_64 数据库系统:mysql-5.6.20 大数据软件环境:Kylin-2.0、Hbase-1.1.2、Hadoop-2.7.1、Spark-1.6.2、Yarn-2.7.1、Kafka-0.9.0、Elasticsearch-2.3.1; 应用服务:jdk1.8.0_45、Python 2.6.6、nginx-1.6.2、tomcat8 2)硬件环境: 核心数据采集服务器4台:x86服务器, 8核CPU, 32G内存, 500G存储, Linux操作系统, Java 1.7及以上; 分布式数据采集节点16个,节点服务器共计16台,4核8G; Web服务器4台:x86服务器, 8核CPU、16G内存、500G存储、Linux操作系统、Java 1.7及以上,采用nginx做反向代理提高系统的并发,以3台tomcat服务器做多实例系统,实现系统的高效负载 数据库服务器4台:x86服务器, 共计48核CPU、48G内存、2T存储、Linux操作系统、Java 1.7及以上,采用主从同步,读写分离实现数据库的高负载。 Spark大数据平台服务器集群:x86服务器,32颗每颗12线程物理核CPU、300G内存、2T存储、Linux操作系统、Java 1.7及以上。存储利用率达到85%,CPU利用率约80%,网络利用率约85%。 3)网络环境 集群节点间网络为万兆带宽,外网出口带宽1.5G。 (3)大数据集群处理指标 1)通过流处理的方式对每日任意时间汇入平台的数据进行数据清洗和数据预处理,达到秒级处理能力,数据信息处理速率为10000条+/s; 2)针对hdfs上的存储节点IO性能:写入为150M/s,读取为155M/S,IO性能偏差约为0.014; 3)mapreduce Terasort:3G/分钟/node Wordcount:3G/分钟/node 随机排序150G:1.5G/分钟/node 4)spark Wordcount:10G/分钟/node Terasort:3.3G/分钟/node 随机排序:2.5G/分钟/node (4)软件模块 1)数据的采集和收录:依托于分布式数据采集系统(模型图如下),实现多线程自动采集,收录的目标网站站点数量已超过20000,日均采集的数据量级近6000万2)数据清洗:通过数据清洗程序,完成垃圾数据过滤,信息去重处理等,可用度达到99.5%; 4)分词处理:采用了HanLP分词工具包,利用条件随机场(CRF)算法来进行对新闻文本的标题及内容分词,分词准确性高且分词速度最快能达到每秒千万字量级,还可以通过用户自定义词典来使分词结果达到更优良的效果。 5)地域与人名识别:采用隐马尔可夫模型(HMM)及维特比(Viterbi)算法进行地域及人名识别。 6)文本分类:通过一种用于信息检索与信息探测的加权技术算法—TF-IDF,将文本权重向量化,再通过潜在语义索引将文本向量进行分解,将原数据映射到文本语义空间上,最后采用机器学习的方式利用支持向量机(SVM)、XGBoost及神经网络算法训练生成文本分类模型并对新闻文本进行分类,文本分类准确率很高,F度量值可达95%,AUC面积值可达约0.93。 7)热点计算:热点新闻计算组件每隔2分钟计算一次。用户可设定热点计算的时间范围,将满足条件的新闻内容加载到热点计算队列中,并调用热点新闻与热点人物计算方法,热点新闻计算的数据模型包含传播载体渠道权重、信息发布及时性、新闻相似度等多个维度,而热点人物计算主要是根据人名出现的频次来判断的。根据不同的需求,可选择不同的热点计算机制。
项目技术及工艺创新要点     (1)在数据采集方面,具有独立可配置的数据采集工具,具有以下特色: 1)信息采集广泛:支持四大信息源(网络社区、网络媒体、博客网站、SNS社区)、门户网站等各类渠道的新闻数据信息,并支持对指定网络媒体进行深层次数据采集; 2)采集频率可定制:可依据需要,自定义信息采集数据源及采集频率; 3)采集设置简易:采集设置只需写入url链接和数据源分类描述,工具自动的进行解析、抓取,并按标准统一入库; (2)在数据处理方面,采用大数据架构进行数据源实时采集和处理: 将流处理、大数据处理技术应用到数据抓取及处理过程中,提升数据采集与处理的及时性,具有如下特征: 1)数据源实时采集:利用流处理技术完成数据源实时采集 2)数据实时处理:利用流处理、大数据计算完成数据实时处理 3)实时分析:完成对突发事件、热点事件的实时分析 (3)在自然语言处理方面,我们基于挖掘文本的语义空间模型将文本特征向量化,形成能尽可能表示文本语义的特征向量,这是异于传统方法且优于传统文本处理方法;其次,利用机器学习的算法来挖掘文本特征向量的数值模式来形成分类模型,这种监督学习模型在处理文本分类问题时,比聚类模型的文本处理准确率及效率上更具备优势。
项目与当前国内外同类产品或
同类技术的比较情况
  
  1)我们基于大数据计算框架与自然语言处理技术,结合媒体融合下“中央厨房”内容生产要求,创新研发了新闻智能选稿系统,为成都台各频道、栏目和新媒体提供数据支撑服务,应用于新闻选题、一件转稿、辅助编辑、传播分析和绩效考核,这在全国属于首创。 2)在应用层面,系统能根据不同频道和栏目的需求进行分类分组,灵活选择各自关注的数据源类型(如时政新闻组、体娱新闻组、自媒体组等),并能对热度计算数据模型的初始参数按需进行微调,更为智能精确的获知所需类型的热点新闻。系统所具备的灵活性,使得其除了应用在成都台外,也为其他兄弟台以及各级党委政府新媒体提供服务。如,该系统已应用于重大活动的网络传播价值分析,应用于主管部门的新闻媒体监测和审读等。这种创新和灵活的应用方式,在全国也属于首创。 3)在大数据处理技术层面,将分布式爬虫采集到的数据汇聚到数据缓冲池kafka,供spark-streaming进行数据清洗,清洗含数据格式规范化、脏数据清洗等,将原始数据存入hive、hbase数据仓库中,文本分词、人名识别、文本特征提取、文本内容识别、文本地域识别、文本分类、文本热度计算、新闻舆情判断等数据分析手段依托于分布式计算框架的机器学习算法对数据生成各个维度特征;这些维度特征为新闻系统的推荐、分类、预警等提供快速、准确的智能化服务,依托spark、hbase、kylin为用户提供多维度的OLAP能力,从行业的角度去观察未来。系统依托于大数据平台的海量存储、分布式节点的高效计算和动态负载平衡,依托海量的数据资源,构建能够自我学习提高准确度和识别度的机器学习模型,满足新闻系统的快速、精准的需求,并且为新闻的选题提供更加智能化的决策辅助。
项目的配置特点和功能特性     系统功能主要包括“新闻实时监测”“辅助稿件编写”“传播效果分析”三大类型,简要功能介绍如下: (1)首页 • 可选择各功能页面需要的模块进行拼装展示 • 目前包括突发新闻、重要提醒、视频与直播及国际国内5个模块的部分功能 • 后期将增加主题主线功能模块展示页 (2)新闻日历 • 重要领导人重大讲话、重大活动历史时间提醒 • 重要领导人重大新闻事件预告 • 国际国内重大新闻事件历史时间提醒 • 国际国内重大新闻事件预告 (3)主题主线 • 重要领导人政治活动轨迹展示 • 重要领导人发表重要讲话地理位置呈现 (4)突发新闻 • 实时监测各类重大突发新闻事件(交通事故、暴力事件、自然灾害等) • 详细呈现各类重大突发新闻事件历史信息 (5)国际国内 • 展示国际国内各类热点新闻 • 可详细展示各类新闻热度值、标题、来源、发布时间等 (6)视频与直播 • 监测媒体机构的新闻门户及客户端视频或直播内容被观看、评论、点赞的数据量; • 监测媒体机构的新闻门户及客户端视频内容在社交网站、搜索引擎、门户网站及其它渠道的传播趋势。 (7)敏感事件 • 可自定义关键词,支持与或非多种逻辑关联关系; • 实时展示关键词相关新闻信息及舆情信息; • 可进行内容页溯源。 (8)用户原创 • 展示社交类网站中用户的热门话题内容; • 展示各热门话题互联网热度变化趋势; • 可查询各热门话题相关文章详情。 (9)热点监控 • 按地域实时展示全国各地热点新闻信息; • 可针对每条新闻具体内容进行溯源; • 可一键转载至审核后台。 (10)编辑辅助 • 可自定义关键词,实时查询相关热度趋势,按日或按周的新闻信息总量; • 展示相关新闻的媒体来源渠道占比、正负面调性占比等; • 可分析每条新闻内容在互联网上的传播趋势、被其它媒体转载情况。 (11)系统配置 • 包含部门、用户个人的账号设置,权限管理; • 可配置每个部门、用户个人所关联的数据来源渠道; • 可配置每个功能模块的相关参数,如关键词设置,新闻类别筛选、人名设置等。
项目实际应用案例和用户评价意见     (1)新闻智能选稿系统V1.0已于2014年底上线,并用于成都市委宣传部主管、成都市网信办主办的“成都手机报4G版”、新媒体党端“看度”;系统为参与看度运营和编辑20余人员开设近30个账号,并与“看度”内容管理系统(CMS)打通,实现新闻选题、一键转载、编辑辅助、绩效考核等功能,已成熟使用2年多,并在2017年6月,逐步升级到V2.0版本; (2)2015年该系统应用于成都公共频道(CDTV-5),作为全台构建“中央厨房”,打造全媒体大数据演播中心项目的重要组成部分。系统供CDTV-5记者及编辑共计80余人使用,开放了100余个账号。传统频道利用该系统开展新闻选题,作为分派记者外出采稿、跟进热点的重要依据;系统的部分界面也被引入到演播室中,作为传统频道节目制作的背景画面,并开发各类“数据新闻”;同时,CDTV-5在“看度”开设“第五视频”专区,通过本系统实现外部直播、视频内容引入,或转载到该专区中。 (3)2015年该系统应用于成都台“全媒体生产调度中心”,辅助全台调度中心的值班总监实现对全台各频道、频率和各栏目记者的统一调度和绩效管理。 (4)2015-2017年,该系统逐步应用于成都市委组织部主管主办的“蓉城先锋”智慧党建体系,成都市纪委“廉洁成都”网站集群,成都妇联“蓉城姐妹”新媒体矩阵,用于上述新媒体产品的内容智能采编和编辑辅助,并开展在相应行业的传播分析;2017年,该系统应用于成都市文广新局的新媒体审读项目,用于监测、评估成都市各级官方新媒体平台的新闻发布和内容质量。 (5)2015年起,该系统还服务于四川绵阳台、凉山州台、广安台,以及河北廊坊台等近10个兄弟电视台,助推城市台媒体融合发展。 (6)2015-2017年,该系统应用于中国网络视听大会、成都创意周、第六届中国成都国际非遗节等重大活动,一方面为新闻中心提供新闻素材采集,另一方面为主办方提供传播价值分析和广告投放价值评估等。
项目获奖和获得专利情况     1)获得专利 基于大数据的新闻智能选稿方法及系统 专利号(申请号) 2016107956123 (2)获得著作权 新闻智能选稿系统V1.0 登记号:2-17SR272813
项目经济评价分析     1)在媒体融合方面,该系统可广泛应用于媒体编辑记者,为新闻选题提供一种客观的大数据热度计算模型,改变传统记者凭个人喜好主观的、不及时的新闻选题方式,提升了节目创作质量;同时,系统可及时监测相关新闻在互联网中的传播效果,以及各栏目与市民互动的实际成效,并针对性开展绩效评估,进一步提升节目质量,提升收视率,带来直接的经济效益; (2)在工作效率方面,系统具备自动匹配、一件转载的功能,机器智能替代人工,将原来新媒体编辑 “搜索、选择、复制、粘贴、图文编辑、校对、审核、发布”的内容转载流程进行了精简;同时,系统提供针对突发事件进行及时提醒,并将相关内容的周边信息进行整合展示,并具备关键词提炼、正负面判断等功能,极大的提升编辑质量和效率,原来针对某一主题需2-3人参与选题、编稿的情况现在只需1人即可更高效完成,降低人员工作成本近60%,调整出的人员更多的开展原创和活动策划等工作,创造了更多的经济价值; (3)在传播价值评估方面,系统能针对广告投放效果进行全面分析,精确到传播途径、点击数量等,能为重大活动的广告投放提供即时建议,调整投放渠道,提升投放效果。在参与的近10场大型活动中,我们通过该系统为组委会广告投放提供客观的数据支撑,形成了对投放渠道、投放内容、投放时间节点的有效建议,提升了广告投放效果近40%(按曝光量和点击量等预估); (4)在拓展应用方面,除成都台内自用外,系统也广泛应用于党委政府机构和兄弟台的新媒体内容采编,获取账号费、定制开发费以及系统集成建设等费用,2016年在该系统上的直接经济收益约计300万元,后续可预期的还将进一步逐渐扩大收益规模,预计在2020年能达到2000余万。这是成都台开展媒体融合转型升级的重要产品之一。