本篇文章8807字,读完约22分钟
正文/余良
无论2016年科技界流行多少噱头,数据基础设施的培育仍是决定其实力的关键。阿里和其他电子商务数据帝国是不言而喻的,今天的头条和一点信息在信息数据领域更引人注目。与电子商务中的物流数据相比,信息算法驱动和用户数据分析更加感人。
1月15日,在大标题主办的“珠海未来媒体峰会”上,具有技术背景的首席执行官张一鸣走上讲台,发表了题为《我眼中的未来媒体》的演讲。从古腾堡到贝佐斯,从应用商店到即时文章,他在媒体发展的历史和国内外现状方面都取得了巨大的成就,这似乎雄辩地证明了媒体人向算法推荐平台传递内容是大势所趋。
接下来是一些信息。1月20日,在与凤凰博客联合举办的“凤凰一点通”年度影响力自媒体仪式上,小小信息宣布两个资源共享平台开通。小信息副总裁吴晨光在舞台下面对数百名自媒体人士,他也尽最大努力渲染算法技术,比如读者对小信息的描述。鹬蚌相争刚刚升温,背后已经有一只黄鸟——腾讯的类似产品《每日快报》(Daily Express)已经低调运营了一段时间,我不知道有什么大花招被压制了。
人们应该记得,2014年,许多传统媒体因版权问题对今天的头条发起了大规模诉讼。2015年11月,一些媒体也对一些信息提起了版权诉讼,但反响很小。现在,媒体人坐在舞台下为张一鸣鼓掌。或许时代变了,科技的发展让内容制作者恐慌,不得不适应。
标题不是百度,推荐引擎不同于搜索引擎。事实上,标题引以为豪的算法推荐并没有在最近几年出现。谷歌和百度是前辈。为什么标题让算法成为一颗神秘的星星?
自从头条新闻出名以来,一些人一直在抱怨不准确的推荐算法和创建信息茧屋。一些评论者声称在安装时卸载了它们。我也有同感。然而,就像《皇帝的远征》的人类洪流所带来的震撼一样,今天头条的巨大流量也促使我重新审视算法的洪流。别忘了招聘启事的标题是:“有一个强烈的愿望和坚定的信念,用机器学习算法解决实际问题。”
一个粗略的算法,一个成长的人生
我首先抛出算法的一般观点,它有三个层次:
首先,算法类似于金融资本,是一种方法。正如金融投资者不必寻求了解公司的具体产品一样,他们只关心是否能增加价值。无论内容是什么,算法都可以数字化、分类和设置,并反馈优化,这是一种处理海量信息的方法。像资本一样,它可以提高效率,但它也与个人有矛盾。
第二,张一鸣在他的演讲中说,facebook已经把技术支持变成了像水、电和煤气这样的公共服务。此外,当算法深入生活的各个方面时,积累的智能本身将成为基础设施。Kk (kevin kelly)在他的新书《必然性》中说,未来的人工智能网络(主要包括算法)将成为“一个像电一样无处不在的低级持续存在。”例如,办公室里的桌子、椅子和电脑会认出你,记录你最喜欢的姿势,一进办公室就调整你的姿势,打开你常用的软件和网站。
但是对于信息内容的传播来说,这还不够。内容不是桌椅。只要桌椅为我们服务,内容就充满了他人灵魂的存在,这些灵魂应该与我们互动和磨练。这是第三层。如果算法想要触及灵魂,它必须努力工作。
标题是什么?据说它不是一个新闻客户,而是一个信息发布平台。就这些吗?
张一鸣在一次讲话中说:
“我们将在今天的头条平台上对媒体的用户数据进行更详细的统计分析。除了对诸如性别、终端、年龄和地理分布等用户属性的基本分析之外,它还将提供对用户兴趣和情感倾向的分析。通过这种功能性媒体,你可以知道受众喜欢哪些分类文章,用户最喜欢文章中的哪些关键词,以及关心你的人喜欢什么内容。"
该声明是针对微信的。目前,微信公众平台只能提供“性别、终端、年龄、地域分布”的受众分析。兴趣和情感是算法的更高追求。
当销售自己的产品时,标题销售人员可以告诉汽车制造商,用户的阅读行为数据可以显示哪个地方的人最喜欢哪辆车,我们会将您的广告推给合适的读者。今天的标题类似产品“小信息”正在做同样的事情。方正赵辉曾向内容总监吴晨光强调:“比阅读更重要的是读者的行为。”
那么头条新闻在做什么呢?今天的头条是伪装成新闻客户端的用户行为数据收集器和分析器!(感觉就像一位美国政治学者说的,现代中国是一个伪装成民族国家的文明帝国。每条新闻都应该被看作是对用户的一个测试问题,用户的每一次点击和评论都是一个答案,由系统记录下来,与关键词、dom标签、作者、阅读时间、网络环境(wifi还是4g?)等等一起形成多维数据矩阵,描绘了这个读者的特征。每一个“测试问题”都很粗糙,但就像kk的“蜂窝思维”一样,通过大量信息测试的用户特征更加准确。而且,因为用户是无意识地完成测试的,所以答案更真实。这是头条新闻技术和商业模式的核心。
读者不可避免地会质疑你收集了好的数据,但是你给了我们什么呢?读者不需要流量,他们需要准确和理解的信息。
我们不妨将算法视为一种成长的生命。
近年来,普通读者对算法推荐的直觉感觉并不好:当他们浏览一个淘宝页面,然后去其他网站时,页面上会出现类似产品的广告。如果他们浏览性玩具,在阅读头条新闻时很容易遇到这种情况——类似的信息不断出现。(参见老虎嗅探对这一批评的回应:“为什么我会看到不良内容的个性化推荐?】
今天标题的粗解算法
标题员工经常引用的简单算法是ab测试和双盲测试。
算法架构师曹欢欢和成长团队张南都公开解释了如何使用ab测试来判断产品修改的效果。例如,如果一个按钮是红色或蓝色的,那么1%的用户将被发布两种颜色的产品,而下载良好的产品将被按下。如果在新闻中使用,编辑会给同一个新闻起两个标题,并测试哪个标题点击得好。
双盲测试是让算法先判断一条新闻的分类和推荐对象,然后让两个编辑分别检查。如果结果相同,它们通过;如果它们不同,请第三个人来判断并向程序员报告,然后重新调整算法。在我看来,这背后是一个类似于神经算法的“刺激-反应”模型——根据算法的正确或错误反应来调整参数(权重),这也是人工智能中常见的“半监督学习”。这可能是张一鸣口中的人与机器结合和人类智慧发挥的证据之一。
然而,在这个例子中,编辑的角色是被动的,就像工厂装配线上的螺丝。
我注意到今天的头条广告在拉古有百万美元的年薪。招聘算法架构师,并要求他们擅长:贝叶斯相关算法、超大规模离散lr、深度神经网络、各种基于树的算法等。算法工程师的其他岗位要求相似。
这些在技术人员眼中并不特殊,对于许多it公司来说是必要的,而且大多与概率统计有关。例如,贝叶斯算法出现在常用的邮件客户端上。
Foxmail截图
我想尽力简单介绍一下这位有着百万年历史的工程师的算法知识,不是从专业的角度(我不知道专业的角度,否则我会申请~),而是从用户的角度,“算法想要什么”。
以职位发布中基于树的算法为例。为了处理信息,该算法最初的吸引力在于对海量信息进行分类和聚合。人类眼中的单词都是参数(维度),由1000个不同单词组成的文章是由1000个维度组成的向量。然后机器测量代数世界中不同向量的相似性-简单向量距离分类、贝叶斯算法、knn(k最近邻)算法、线性返回、逻辑返回...
维度太多,所以算法进化了。它不是把每个单词作为一个维度,而是把html代码中的dom作为一个维度,这大大减少了维度的数量。人类看到的标题、文字和图片通过代码放置在不同的dom节点中,如head、body、tr和td(表示表格的代码),形成一个树形结构。该算法以这些节点为维度,用不同的算法比较不同文档的异同——最大最小算法、硬聚类算法...此外,通过在图论范畴中引入模式树,获得了更高级的基于树的算法。
下图是一个普通的html dom显示,不需要理解,只需要理解文章在机器眼中的样子。
(在机器看来,各种标记是最重要的,然后由各种公式处理。图片来自艾凡儿,公式来自库琴。(
有很多算法,我不知道该说什么。这主要取决于气质算法。这个孩子不知道新闻说了什么,只知道哪个新闻是相似的,哪个是热门的(人数当然是热门的,机器可以通过一种“组合”。从算法上看,你可以看到南京大学新闻与传播学院助理研究员、奥美数据科学实验室主任王成军的文章《如何计算今天的头条?》:“网络爬虫+相似度矩阵”文章标签、关键词等。也发挥了作用。
该算法的行为非常有趣,仿佛试图以各种方式避免对内容灵魂的认知,而只通过外观的形式特征来猜测内容的相关性。
读者没有关键词或标签,那么算法怎么能掌握它们呢?数学家有办法,贝叶斯算法就是其中一种。
经典的贝叶斯问题存在于小学奥林匹克(也出现在美国电视连续剧《生活大爆炸》中):如果A和B分别有两个口袋,A口袋里有七个红色的球和三个白色的球,B口袋里有一个红色的球和九个白色的球。现在,从这两个口袋中随机抽出一个球,它就是一个红色的球。这个红色的球从A口袋出来的概率是多少?
让我们用一种更有新闻价值的方式来说:如果我们知道朝鲜每五年发射一次卫星,每次爆炸的失败率是60%,朝鲜每两年发射一次卫星,每次爆炸的失败率是40%。现在,当卫星发射失败并爆炸时,朝鲜半岛传来一声巨响。这枚火箭来自朝鲜的可能性有多大?
根据贝叶斯公式[p(b|e) = p(b) × p(e|b)/p(e)],可以推导出这种概率,即概率是反过来计算的。
(图片来自“机器之心”网站)
只是标题本身提供了一个例子:
2015年10月,在由中国传媒大学新媒体研究所和《今日头条》联合举办的“洞察数据的力量——电视媒体峰会论坛”上,一位名叫安娜的女士说:
标题有一个独特的算法,可以计算用户的年龄,即使你没有订阅标题。系统根据确定的年龄组的行为、特征和兴趣,制作一个模型,并通过合作原则判断读者是否符合这个模型。这时,机器首先预测它是否是这个年龄组的用户,同时,机器最终根据你的阅读行为来确定这个年龄组。
这种独特的算法可以是贝叶斯算法(当然,可能有不止一种算法,例如,专门用于挖掘不同数据集之间相关性的apriori算法等。)。我猜想算法架构师会根据心理学和社会学的统计数据以及以往读者的点击数据,预先建立一个用概率描述的个性特征模型。例如,男性模特的一个特点是阅读新闻时点击军事新闻的概率为40%,而女性模特的概率为4%。一旦读者点击军事新闻,算法就开始颠倒ta的性别。结合ta点击其他新闻的行为数据,通过综合计算可以更准确地判断ta的性别。通过整合清晰的信息,如ip地址(地理信息)、点击时间、评论参与和表扬行为,可以区分不同读者的取向和兴趣。
这个原则不难理解,但做它考验智慧和耐心。
然而,算法并不像它吹嘘的那样神奇,它有很大的困难
困境1:它不能区分风格,也不能产生风格
算法团队本身很难产生风格。标题、一点信息和每日快报有什么区别?
风格既是人类的,也是灵魂的。鸡蛋是不同的,但这不是风格,这只是最初的特征。风格是一种需要积极建构的气质,是一种充满活力的行动。
传统媒体有风格,没有风格的媒体不是死了就是僵尸媒体。
以下微博截图反映了这种风格:
《纽约时报》和《赫芬顿邮报》分享着同一个“美国梦”,他们也有着明显不同的气质。有自己信奉和追求的价值观,有追求新闻事实时不可避免的冲动,也很难在写作中变成无休无止的歌曲,这就是风格。
风格是独创性、观点的对立、议程的设定和话语的创新。算法还没有学会这个,因为设计算法的技术人员可能不太了解这个。
这不仅是差异化竞争的问题,也是产品的内在矛盾。标题不仅仅是平台,因为伪装不是白色的,新闻客户端的出现和算法机器之间的矛盾是不可避免的“原罪”。除了内容,形式不是可有可无的东西,但形式就是内容。标题注定不会是一个没有任何情感和立场的完全中立的平台,就像没有主页推荐的微信公众账户平台一样。人们认为你是一个信息客户,所以你必须做信息媒体,即使这与算法的特性相矛盾。然而,矛盾不是缺陷,矛盾是自我进化的驱动力。
他们想要时尚。
“一点信息”,起步较晚,试图表达自己的风格,例如,声称对搜索感兴趣,这不同于标题的算法推荐。吴晨光声称一点信息就是“百度+头条”:
“正如利特尔信息公司(Little Information)董事长刘爽所说,如果头条新闻是造纸术和印刷术,那么利特尔信息就是火药和指南针。这两个应用都以“成千上万的人和成千上万的面孔”为核心竞争力,因为它真的像造纸一样改变了交流。但比标题更近一步:火药通过搜索唤醒了应用程序中的睡眠信息。您可以通过两步搜索和订阅来定制您感兴趣的任何内容。至于指南针,我是这样理解的:因为背景中有非常准确的用户肖像,我可以把最适合你兴趣的内容分发给你。用我们内部的一句话来说:重大事件引起共鸣,个性化就像一条虫子。”
可以看出,作为一个后来者,一点信息必须通过标题来定义自己,同时它必须是不同的,特别强调搜索。然而,从用户的直觉感受来看,这种差异很难看出。标题具有相同的搜索功能,也记录读者的搜索行为。也许,郑有雅虎的经验,并将在搜索方面有独特的经验。
至于“指南针”,这只是一个更生动的比喻。可以猜测所描述的“用户肖像”类似于贝叶斯算法。
看一下拉古在线招聘的“一点信息”,唯一的招聘广告是:
“文本分类和语义理解、社交网络分析、网络搜索、推荐系统等领域的具体算法。,了解自然语言处理、机器学习、web搜索、推荐系统、用户数据分析和建模的基本概念和常用方法。”
应该说,所谓的“特定算法”对每个人都是相似的。具体的公式和策略各不相同,但这只是鸡蛋的不同。我们最多是在竞争谁的算法是最先进的。能够区分这种风格的是运营商的想法、媒体的感受以及在舆论领域的洞察力和判断力。对于同样的算法,我们也应该在具体开发它的时候关注理解和灵性。在用户眼中,谷歌和百度最直观的区别是理念和情感的不同。
相比之下,吴晨光强调通过信息提高自我媒体门槛的做法,这是由媒体团队完成的,我认为这更重要。
“在过去的两个月里,一些信息已经封锁了大约7000个号码。古董、健康、金融和经济都是受影响最严重的领域。我们的竞争对手正在放宽参赛条件,但我们恰恰相反——高标准和严格的评分制度。从第1级到第6级,级别越高,内容质量越高,因此显示的内容越多。”
这是利用人类智能为算法提供有价值的参数。
标题招募媒体人落户平台,加大对自媒体平台的投资,这是为了自觉地抢占底盘,获取内容版权,也是为了不自觉地让自己更加生动。
然而,算法无法理解这种程式化的努力。
困境2:引导读者进入信息的茧,陷入本我
我试图用社会心理学的语言来描述算法利己主义带来的信息茧问题。
算法和读者陷入了本我的漩涡。对本我的渴望让你点击一条令人震惊的社会新闻,但本我不是人的本性,而是对本我的内省和超越是人的本性。重复的社会新闻会让读者厌烦。这个问题一直受到质疑,但似乎没有得到彻底的解释和改进。
在核实员工对这个问题的看法后,如果你不喜欢,他们会告诉你用手指划掉这些信息,系统会减少这种信息推送。我在老虎嗅嗅上也看到了类似的答案,如下所示:
该算法只计算相似性和差异性,只机械地询问您是否需要,而不计算复杂的关系,如相对关系、主从关系等。就像一个不能坠入爱河的直男,当他听到对方说不时,他不明白对方真正的意思
我同意老虎嗅这个读者:
算法能否采用更好的策略不仅取决于数学思维本身,还取决于算法对人性的理解。非线性思维可以接近人性——即使是普通人也渴望有一只手托起他们的头。如果用户多次点击惊悚社交新闻,该算法可以继续推送同类信息,但它必须显示一个手势“我猜你实际上是一个有着高尚兴趣的人”——你可以突然在惊悚新闻信息流中插入一条洗眼信息,可以是正面能量、反面或新闻分析。既然广告可以插入瀑布流,为什么我们不能插入与用户点击相反的文章呢?
我不知道具体的算法设计问题,可能需要更复杂的集合算法。每条信息都有自己的镜像,就像本我对应超我,就像西斯武士对应绝地武士。不愿做机器保姆的边肖可以参与创作这样一个系列,在提升机器灵魂的同时提升自己,共同进化。他们是彼此的启蒙者,而不是被动的仆人。可能会有偏差和游戏,但魅力就在这里。在《失控》中,为了共同进化,人和机器之间必须有某种对抗。也许算法正在等待读者走出困境,但是对抗要求算法更加灵活和抢先,并主动测试读者是否想逆风而行。
用信息来检验读者,就是把读者看作一个完整的人格。人性永远是路上未完成的事情。人性和人类创造需要相互刺激,并螺旋上升。分类聚合算法只把自己当成一个置身事外的观察者,就像科学实验中的观察者一样,认为自己不在事件中。但这是不可能的,因为算法已经在参与人性的构建,只是采用了一种消极的方式——人们分成小组,每个人都沉浸在自己的兴趣中。结果是读者的两极分化,就像母体中的一个茧。随着茧变弱,系统的活动也变弱。
极度分化的人,就像极度分化的信息一样,缺乏活力。另一方面,搜索引擎在去极化人方面不太活跃。人们在搜索方面更加积极,但我希望一些信息能够在利用搜索引擎收集读者的积极性方面取得一些成绩,从而激发算法。
我们可以用贝叶斯算法本身的问题来解释这种危险:
研究员约翰·霍根在《科学美国人》上发表了一篇文章,“贝叶斯理论,这是追求和扭曲的,有什么大不了的?”(中文翻译由“机器之心”网站提供),讲述了贝叶斯算法本身的一个矛盾(具体的演示过程在此省略,请参考上面的文章链接):
“贝叶斯理论没什么神奇的。归根结底,这意味着你的信仰只和它的证据一样有效。如果你有好的证据,贝叶斯理论可以得到好的结果。如果你的证据不可信,贝叶斯理论就没用了。进来的是垃圾,出来的是垃圾。”
对于贝叶斯算法来说,初始确定的概率非常重要。例如,如前所述,“40%的成年男性喜欢阅读军事新闻”,这种概率判断是初步确定的概率,可以通过社会统计获得接近现实的数字,一般符合常识。但是对于很多事情,比如“上帝存在”,最初的概率很难说。有些人会把它设置为100%,而另一些人会把它设置为零,所以最终的结果只反映了那些给出初始条件的人的主观愿望。即使“40%的成年男性喜欢阅读军事新闻”,它也表达了现存的社会状况。最终的信息推荐结果反过来加强了这种最初的可能性——那些喜欢看军事的人将会看到更多的军事新闻。认为性别是后天形成的女权主义者可能会讨厌这种刻板印象。
因此,目前的算法没有很好地考虑到人类的各种需求。在未来,它应该让不同的品味和人相遇。
今天的头条应该是买豆瓣,而不是投资各种媒体
张一鸣的讲话批评了微信朋友圈信息推荐的低效,这在一定程度上是正确的。在朋友圈中获取高质量信息的效率取决于你朋友的素质。只有当你有了好朋友,你才能有好的信息。如果你们都在海滩上晒太阳,那肯定很无聊。标题不受社会关系的限制。对于那些缺乏丰富社会层次的人来说,获取信息是有效率的。然而,标题的弱点在于缺乏社会属性和社会关系的积累。
腾讯目前低调运营《每日快报》,与微信平台和腾讯媒体开放平台分离,未来可能不会整合。这样,我们可以将社会推荐和算法推荐结合起来,特别是利用朋友圈中各种专业人士和学者的行为,他们喜欢推荐或阅读和撰写信息(只要他们愿意公开)。帝国的反击迟早会到来,头条的算法战士应该尽快建立具有熵增能力的信息关系,并发展一种拟人化“利益”的算法社会方式。
算法需要人。这不仅仅是社会关系,而是计划者的想象。我看到人们在豆瓣上给电影打分,并手工收集评分者的阅读数据,这非常有趣。例如,人们喜欢为五星级电影《胜利大游行》读什么书,为一星级电影读什么书?在此基础上,如果使用智能算法,可以刺激新的社会模式,但它不会在这里发展。
蓝色媒体交易所报道称,头条新闻购买了大量媒体股票,如《世界报道》、《新名单》、《华尔街新闻》等。从算法的逻辑来看,我认为这不是最好的获取方向。在我看来,与微博等有社会数据的媒体合作是正确的。头条应该买豆瓣。不是社交,而是拥有社交数据并使用算法激活它。为什么豆瓣这样的人的想象力不能用机器算法互相滋养呢?
这些科技公司已经聘请了资深媒体人士加盟,以林楚芳为头条,吴晨光为小信息员,他们都是媒体圈的知名编辑。然而,目前媒体人的角色主要是公关,煽动他们所掌握的丰富的媒体资源,或者用自己的表达能力为无法表达的技术人员表达产品。
我想,如果媒体灵魂和算法的结合暂时很困难,谁应该是第一个智囊团?目前,政府支持智囊团的建设,稍具媒体视野的头条数据可以提供许多技术落后的智囊团无法提供的报道。
这需要人们的想象力。例如,最近“皇帝的远征”的脸书页面震惊了整个国家,引起了许多评论。无论各方如何评价,这都是90后甚至00后网络新人的出现。各方都不太了解它们,商业公司需要了解它们,政府机构也需要了解它们。有许多不同的意见,其中许多是基于主观偏见。
有很多方法可以了解他们,比如采访他们,收集统计资料。然而,通过阅读相关评论信息和其他相关数据,百度或标题显然可以更快、更智能地检查相关人员的特征、地理分布、收入状况以及兴趣爱好。
在9月份的阅兵式上,克里斯汀因为在微博上晒婴儿而遭受了很多虐待。一些人批评这个滥用权力的人是一个民粹主义者和一个买不起好产品的失败者。但学者邹振东通过大数据分析发现,他们的构成与其他群体相似,iphone使用率很高,这颠覆了主观判断者的观点。最后发现微博的算法推荐导致了克里斯汀和读者之间的意外碰撞。
这些命题在被算法处理之前需要被考虑。然而,与算法不同,人的因素可以总结为可重复的标准算法。
洞察并善用人的智慧,玩人的游戏,而不是让个人成为信息喂养的对象,会使算法更有灵气。今天的头条新闻,一点信息还是每日快报,哪一个更进一步?
*本文是作者的独立观点,并不代表老虎嗅探网络的立场
这篇文章由joypain发表,老虎嗅探网络编辑。转载这篇文章必须得到作者的批准,并请附上来源(老虎嗅探网络)和本页的链接。原链接户县/文章/138205/1
标题:隐藏在今日头条百亿市值背后的算法:巨大可能与现实困境
地址:http://www.3mta.com/xlxw/3838.html