欧美深夜视频_国产精品99视频_国产精品网站一区_亚洲最大av网

知乎如何洞察你的真實喜好?首頁信息流技術揭秘

2024-8-6 09:10| 發布者: 叁拐洞幺| 查看: 757| 評論: 0

11月8-9日,由中國 IT 社區 CSDN 與硅谷 AI 社區 AICamp 聯合出品的 2018 AI 開發者大會(AI NEXTCon) 在北京舉行,就人工智能的最新技術及深度實踐,進行了全方位的解讀及論證。本文是機器學習技術專題中知乎首頁業務總監、首頁推薦技術負責人張瑞的演講實錄。
信息爆炸時代,信息過載已經成為互聯網核心問題之一,而通過 AI、機器學習等技術過濾低質無用信息,推動有價值信息的生產和迭代,被視為一種有效解決方案。以知乎為例,這家知識內容平臺很早就開始著手機器學習的開發實踐,并于 2016 年正式組建機器學習團隊,利用站內豐富的中文語料庫訓練AI算法,推動有價值信息更高效觸達用戶,為內容產業提供了很好的技術借鑒。日前,在 2018 AI 開發者大會上,知乎首頁業務總監張瑞就機器學習在知乎首頁中的應用做了技術分享。以下是分享內容摘要。
一、知乎信息流推薦框架
知乎的信息流推薦框架是一個基于多策略融合的多源內容推薦系統,代號“水晶球”。如圖所示,在這個系統中,首頁上出現的內容經歷過兩次排序。第一次是從數十個推薦隊列里被“召回”,第二次是在合并后經過深層神經網絡(DNN)的“排序”。

  • “召回”的第一個步驟是,召回模塊根據用戶的歷史行為表現(用戶畫像、內容標簽、內容源信息),確定數十個推薦隊列。這數十個推薦隊列是含有特定標簽的內容池,有些隊列里內容性質相似,比如熱點新聞隊列、視頻隊列,還有的隊列與用戶行為緊密相關,比如關注關系隊列、搜索關鍵詞隊列。比如說,根據用戶的關注關系向外擴展更多關注關系,根據用戶興趣召回感興趣的內容,根據搜索關鍵詞進行相關推薦。



水晶球系統架構

  • “召回”過程的第二個步驟是,各召回源根據用戶的需求分別將自己的隊列中的內容做排序后,按召回數量返回內容。我們會從內容類型、內容質量、召回技術三個維度對內容分類,召回源的數據經過匯聚之后會進行融合,最后,DNN 可以在 20ms 內對這些數據完成打分和排序過程,決定推送給用戶的內容。
  • API 的數據還會反饋到 Feedback & Control 的模塊里面,應用這些數據進行業務控制的操作,比如我們會記錄每個用戶看到的內容是什么,大家都知道在 Feed 信息流推薦有個很重要的應用是去重,推薦內容不能是有重復的,我們會用過濾保證推出來的內容沒有重復。用戶在一天里面看到哪些內容點擊了哪些內容,這些內容都可以為業務提供一定數據支撐。
二、知乎信息流推薦系統的技術演進
2016 年之前,知乎的 Feed 流是比較簡單的,你關注了什么樣的人,這個人產生的各種各樣的動態會在你的界面進行時間倒序的排序,和朋友圈的邏輯非常相似。2016 年初我們上線了一個叫 EdgeRank 的排序系統,第一代 Feed 流算法在這個系統支持下取得了一定收益,系統維持了一年時間。



知乎首頁排序技術演進路線
2016 年 10 月份知乎上線了一個基于 GBDT 的排序系統,對召回的內容進行一個排序。我們使用 GBDT 做排序持續了一年時間,引入 GBDT 后用戶的 Feed 流使用時長的變化,是呈上升的趨勢。在使用 GBDT 進行排序的過程中,我們逐步完善了我們用戶畫像和內容分析的系統,在用戶特征和內容特征方面做了非常多工作,把用戶的實時行為集成到 GBDT 里面,用戶 Feed 流使用時長得到了激增。
2017 年 10 月開始知乎先后在召回側和排序側引入 DNN 模型,在引入之后的 2017 年 10 月份到 2018 年 7 月份周期內,知乎的使用時長和閱讀量也呈現出快速增長。
在這之后,我們又做了一些優化工作,一個是 7 月份在 DNN 做的優化,把注意力機制和 LSTM 模型引入到 DNN 的模型里面去,一個是嘗試強化學習在推薦系統中的應用。經過這么長時間的優化之后知乎的信息流系統已經在知乎整體業務中占了非常大的體量,用戶滲透率(即有多少用戶會有效來到首頁看內容)達到 88%,使用時長占比(包括刷知乎的時長以及在知乎中消費內容的時長等)達到 76%。
三、Feed 流推薦系統中的 AI 應用

  • 基于深度學習的推薦召回模型
知乎在 2017 年上線了基于深度學習的推薦召回 1.0 版本,左邊這張圖是第一版上線時候的深度學習召回網絡框架,整個系統把用戶和用戶的特征表示成了網絡,它和庫里幾萬條內容做了一個多分類,在上層進行 SoftMax 。整個網絡訓練下來可以得到兩個成果。首先是一個 User Representation Network,它把用戶信息表示成 128 維的網絡,我們用了畫像里的所有信息,包括他的興趣標簽、各種各樣的用戶信息,都會放到模型的輸入里面去,這個輸入經過四層網絡之后得到用戶 128 維的 Embedding 表示。與此同時,使用 Faiss 作為向量化 ANN 召回的 Backend,用 ANN 召回的方式從這幾個條目里選出他最感興趣的內容推薦給他,這是整個召回框架的工作過程。



基于深度學習的推薦召回-1.0版本
我們在訓練集里包含了幾萬個內容的 Embedding,我們首先會在訓練中生成一批 Embedding,比如今天的數據來自于過去一周內分發量比較高的數據,這些內容數據會生成 Embedding,我們先通過這些召回源把這些機制分發出去。還有一批內容是新產生的、未在訓練集中包含的內容,這些內容通過其他的渠道分發出去之后,可以得到看到內容用戶的 Embedding 是什么以及點擊這些內容用戶的 Embedding 是什么,我們可以利用這份數據把這些新產生內容的 Embedding 計算出來更新到 Embedding 庫里面去,這個時候就可以拿到每天新產生內容的表示,并且把這些內容推薦出來。
后來我們又對召回框架進行了 2.0 升級。在 1.0 版本的召回框架里,“新內容 Embedding 怎么得到的”這個問題是延遲解決的。用戶的表示網絡和 Embedding 召回在效果收益非常明顯,協同過濾用戶矩陣分解最常用的方法就是 ALS,我們拿了一個關鍵的指標也就是召回從這幾萬條里挑出的 100 個結果里準確度有多少,這 100 個結果里有沒有預測到用戶下次點擊的數據,在這個指標上, DNN 比起 ALS 來講提升了10倍的量級,我們希望一個內容產生之后馬上算出 Embedding 放到網絡里。



基于深度學習的推薦召回-2.0版本
在 2.0 版本中,我們嘗試了三個層面的技術升級:

  • 使用了 Content 的原始特征,一個內容上打了標簽,原始數據比如長度有多少,有沒有圖片,經過三層的網絡之后會生成 Feed Embedding,可以直接得到 Content Embedding,解決新內容的召回機制問題;
  • 在用戶表示網絡這一側我們也做了優化,這個網絡里就是一個最簡單的全鏈接神經網絡,我們做優化的時候是在 User Representation Network 引入 FM Pooling 層,學習用戶高頻消費行為的交叉特征,會讓 Top100 的精確度提高 8%。
  • 用戶在 Feed 流里“展示未點擊的 Skip 數據”比線上“展示已點擊數據”量級還要高,代表用戶對內容并不是真正感興趣。第一,我們把展示未點擊的數據作為特征引入到 User Representation Network 里面,其中會用到歷史搜索和歷史閱讀數據。第二,我們會把 Skip 數據作為指導采樣的一種方式,訓練大規模的標簽 Embedding 時我們往往把正向數據之外的其他數據都當成負向數據使用,所有負向采樣的 sample 都是在剩下的數據中,根據概率的方式或控制采樣頻率的方式提取。展示了但是跳過的內容會在采樣的時候加大權重,把它成為負例的概率變得更大,讓用戶的行為來指導采樣。
Skip 這兩個數據為 Top100 ACC 產生了比較好的效果,從召回數據里來的 CTR 和整體的閱讀量都有比較大的提高。
2. 基于深度學習的 CTR 預估模型
知乎還在排序側采用了 CTR 預估的模型。1.0 版本總體結構和基于 DNN 的召回框架類似,使用兩層 Relu 而不是直接點積作為 Embedding 的預估網絡。這個模型上線一段時間之后,我們剛開始沒有進行任何的參數裁剪的操作,收效沒有達到我們的預期。后來我們做了一個簡單的嘗試,按照業務的理解把特征組合成不同的 Field,這些 Field 之間先做連接,用戶先分成 N 個 Field,比如,Field1 是自己填寫的資料,Field2 是用戶興趣標簽,Field3 是歷史搜索行為,先經過一個簡單的子網絡再全連接到上層。這個 trick 能夠有效的減少特征在初始輸入時候的錯誤交叉,會減輕模型的過擬合,線上應用則達到了非常明顯的收益,AUC 提升了 1%,CTR 提升了 5.8%。



基于深度學習的 CTR 預估模型 - 1.0 版本
使用了 DNN 之后,我們還試用了谷歌出品的 Wide & Deep Network,Deep 是圖上部分,效果沒有明顯的提升。隨后我們做了一個分析判斷,發現 Wide & Deep Network 的 wide 部分,都會在原始特征輸入交叉方面做一個比較強的特征工程,否則所有信息在 Deep 部分已經得到比較好的應用,Wide 部分并沒有提供什么額外的輸入,也不會拿到特別好的數據表現。



基于深度學習的 CTR 預估模型 - 2.0 版本
今年我們開始在深度學習的 CTR 預估模型上嘗試更加激進更有意思的優化,也就是 2.0 版本。其中最早引入的優化還是特征之間的交叉,我們引入 FM 層作為這些類別之間的 Sparse Input 之間的交叉,AUC 提升了 0.2%,CTR提升了 1%。引入 CNN 及 LSTM 分別作為文本Encoder/Last Action Encoder,單用戶使用時長提高 50 秒。
第三個 trick 參考了阿里的一篇論文,我們引入 Attention 機制作為用戶 Embedding 和 Candidate Embedding 之間的交叉權重。舉個例子,用戶點擊的十篇文章中,有九篇是關于體育的一篇是關于互聯網的,等到下次體育相關內容的分數會比互聯網相關內容的分數高得特別離譜,平均之后互聯網信息淹沒在體育信息里,但互聯網內容也是用戶喜歡的,權重卻很難發揮出來。我們引入 Attention 機制,把用戶的閱讀歷史跟當前候選集里相關的數據和權重學習之后,收到了良好效果,單用戶使用時長增加了 40 秒左右。



基于深度學習的 CTR 預估模型-多目標預估


知乎是一個社區化的平臺,常常需要平衡很多指標的收益,預估閱讀時長、點贊、收藏、分享、創作等行為。為了解決多目標預估中訓練和預測效率問題,我們使用了 CTR 預估模型預訓練網絡,利用 Parameter Hard Sharing,點擊和點贊這兩層共享之前的權重,會有一個獨立的隱藏層 model task 自己的目標,這樣能降低前向/反向傳播中的計算量。
我們常常預估到一些非離散的目標,對于非離散目標如閱讀時長,很多同行的做法是線性預估的方式預估,你閱讀了 60 秒,我盡量把預測的值逼近。知乎的做法是,把一篇文章的閱讀時長做一個 Normalize 操作。我們觀察了一下閱讀時長的分布,這個分布與正態分布比較類似。所以我們使用了 z-value 來對閱讀市場進行離散化,離散化之后會把閱讀時長分為五等——沒點擊、點擊了閱讀時長低、點擊了閱讀時長中等、點擊了閱讀時長偏高、點擊了閱讀時長非常高——將連續值預測轉化成離散值預測。
在訓練過程中,我們也修改了 Softmax 函數,如果預測出的檔數和實際用戶閱讀時長檔數差太多,我們加一個比較大的修改函數,讓這種樣本的 loss 加大。閱讀時長這個模型上線之后,對知乎的使用時長和單篇文章的閱讀時長都有提升。
四、Feed 流推薦系統中遇到的實際問題
模型訓練問題

  • 樣本組織方面,大家可以看到剛才我們用了很多實時特征,這些實時特征對用戶和樣本來講都是不斷變化的,最初知乎組織這些樣本的時候都是使用從離線庫里 Join 數據的方式做特征的梳理,后來我們發現線上往往會出現特征穿越的狀況,你在線下記錄的日志畢竟不是實時的,日志都是流失的放到數據庫里,處理數據流的過程中也會出現順序上的錯誤,所以我們會在線上進行實時打點避免穿越。
對于 CTR 預估的正向樣本和負向樣本,后者與前者相比存在幾倍的量級差異。通常我們會對正負樣本進行不同采樣率的實驗,不同的業務指標下采樣率不一樣,最終回有一個最佳的采樣率。但采樣率多少跟數據的分布和業務需要預估的指標特性相關,1比1不一定是最好的采樣比例。

  • 特征工程方面,我們在實際應用場景里發現對于分布范圍比較大的特征,有一萬個贊也有幾萬個贊的,做 CTR 預估的過程中贊量的影響會變得非常不平均,所以通常會進行特征的歸一化和 boxing,分成不同的段輸入到 CTR 預估模型里達到比較好的效果。
  • 模型評估方面,AUC 是基礎指標,我們發現 AUC 是一個特別基礎的指標,對于兩份離線文件之間的評估確實有比較大的意義,尤其 AUC 在現在狀態下大家都能訓練到 0.7 到 0.8 的水平,上線之后各種數據指標并不一定能提升那么多,我們做了一個 DCG Gain 收益的指標,它具有更高的參考意義。
業務問題

  • 多樣性問題如何解決?大家都知道 Feed 流里很多時候最精準不一定是用戶最想要的,重復太多對于各種線上業務數據的改進也不一定是正向的結果,我們會引入各種框架進行業務導向的調權、打散、隔離和禁閉,一個內容出現幾次之后你沒有點擊,之后都不會推薦相似的內容。
  • 如何避免「信息繭房」的產生?以各種行為表現預估的方式去排序和推薦的推薦系統,最后會讓用戶傳遞一個信息繭房,推薦列表里翻來覆去就是這么幾個內容。我們的解決方案是,采用一個 Explore & Exploit 機制,針對老用戶及興趣比較均勻的用戶,適當減少興趣探測力度,在探測過程中也會盡量使用 Tag 之間的關聯信息增強探測效率。
作者:starays
出處:https://zhuanlan.zhihu.com/p/50477119
分享到:
您需要登錄后才可以回帖 登錄 | 立即注冊

本版積分規則

交流熱線
17501437970 周一至周日:09:00 - 21:00

創贏網-致力于幫助普通人在創業之路上披荊斬棘、走向成功的專業網站,匯聚創新智慧與成功機遇的網絡天地,是創業者開啟贏之征程的首選之地。

Powered by Discuz! X3.5 © 2023-2050 CHUANYING Team.

QQ|Archiver|手機版|小黑屋|創贏網 ( 湘ICP備17022177號-3 )

GMT+8, 2025-12-17 07:46 , Processed in 0.328707 second(s), 26 queries .

快速回復 返回頂部 返回列表
欧美深夜视频_国产精品99视频_国产精品网站一区_亚洲最大av网
国产精品久久久久一区二区三区| 国产成人午夜片在线观看高清观看| 亚洲在线视频免费观看| 夜夜嗨av一区二区三区网页| 日韩电影免费一区| 午夜成人免费电影| 国产成人丝袜美腿| 在线不卡a资源高清| 亚洲国产高清不卡| 日韩和的一区二区| 岛国一区二区三区| 99精品在线免费| 欧美高清精品3d| 中文字幕亚洲一区二区va在线| 亚洲一卡二卡三卡四卡| 国产高清精品久久久久| 欧美狂野另类xxxxoooo| 国产精品萝li| 男女性色大片免费观看一区二区 | 日韩—二三区免费观看av| 国产精品123| 色哟哟一区二区在线观看| 69堂成人精品免费视频| 亚洲同性同志一二三专区| 狠狠色狠狠色综合系列| 欧美日韩一卡二卡三卡| 乱一区二区av| 色av成人天堂桃色av| 国产精品国产自产拍在线| 不卡大黄网站免费看| 国产蜜臀av在线一区二区三区| 狠狠色丁香婷综合久久| 欧美videos大乳护士334| 久久99精品久久久久婷婷| 91精品国产一区二区三区香蕉| 午夜电影一区二区| 欧美一区二区三区在线观看 | 欧美亚洲综合网| 亚洲电影在线免费观看| 欧美午夜精品一区| 日韩精彩视频在线观看| 日韩欧美在线1卡| 国产自产v一区二区三区c| 国产喂奶挤奶一区二区三区| 北岛玲一区二区三区四区| 中文字幕在线观看一区二区| 97se亚洲国产综合自在线不卡| 亚洲日本乱码在线观看| 蜜臀久久久久久久| 久久婷婷国产综合国色天香 | 国产三级三级三级精品8ⅰ区| 国产河南妇女毛片精品久久久| 国产精品色眯眯| 欧美性生活大片视频| 日韩成人午夜电影| 久久精品一区二区三区四区| 成人美女在线观看| 亚洲超碰97人人做人人爱| 日韩精品中文字幕一区| 白白色亚洲国产精品| 亚洲无人区一区| 久久亚洲捆绑美女| 日本高清无吗v一区| 秋霞午夜av一区二区三区| 国产丝袜欧美中文另类| 91成人在线精品| 国产精品一品二品| 亚洲成人一区在线| 欧美经典一区二区| 欧美日本韩国一区| 粉嫩欧美一区二区三区高清影视| 亚洲综合精品自拍| 国产视频一区二区在线| 欧美日韩国产综合久久| 国产成人免费视频精品含羞草妖精 | 欧美精品久久一区二区三区| 韩国v欧美v日本v亚洲v| 亚洲一区二区在线观看视频 | 亚洲一区二区在线免费看| 精品国产乱码久久久久久免费| 99re成人精品视频| 国产精品一区二区在线播放| 香蕉久久一区二区不卡无毒影院| 中文字幕精品在线不卡| 宅男噜噜噜66一区二区66| 91蝌蚪porny| 国产大陆精品国产| 蜜桃av噜噜一区二区三区小说| 亚洲欧美日韩国产成人精品影院| 久久免费精品国产久精品久久久久 | 欧美日产在线观看| 波多野结衣的一区二区三区| 免费精品视频在线| 亚洲国产美女搞黄色| 国产精品久久久久三级| 国产香蕉久久精品综合网| 精品人在线二区三区| 欧美剧情电影在线观看完整版免费励志电影| 国产成a人无v码亚洲福利| 久久aⅴ国产欧美74aaa| 日本三级韩国三级欧美三级| 性欧美疯狂xxxxbbbb| 亚洲一二三四在线| 一区二区三区四区蜜桃| 日韩一区有码在线| 国产精品美女久久久久久久网站| 久久亚洲欧美国产精品乐播| 精品粉嫩aⅴ一区二区三区四区| 欧美电影影音先锋| 91九色最新地址| 91伊人久久大香线蕉| 91在线视频网址| 国产98色在线|日韩| 国产激情91久久精品导航| 狠狠v欧美v日韩v亚洲ⅴ| 亚洲va中文字幕| 亚洲一区二区视频在线观看| 亚洲黄色免费电影| 一区二区三区日韩精品| 亚洲综合在线第一页| 亚洲自拍与偷拍| 五月天激情小说综合| 日韩精品成人一区二区在线| 免费日韩伦理电影| 国产一区二区在线视频| 成人在线视频首页| 99久久综合99久久综合网站| 91玉足脚交白嫩脚丫在线播放| 91蜜桃网址入口| 欧美喷水一区二区| 欧美一区二区久久| 久久久久亚洲综合| 亚洲人被黑人高潮完整版| 亚洲一区二区三区四区五区黄| 天天影视网天天综合色在线播放 | 亚洲国产精品久久久男人的天堂 | 亚洲欧美日韩在线不卡| 亚洲国产综合人成综合网站| 日本va欧美va精品发布| 国产二区国产一区在线观看| 91女厕偷拍女厕偷拍高清| 欧美精品123区| 日本一二三不卡| 亚洲图片欧美一区| 国产成人综合在线播放| 欧美专区日韩专区| 欧美电影免费观看完整版| 中文字幕制服丝袜成人av | 亚洲免费观看高清完整| 五月综合激情网| 粉嫩av一区二区三区粉嫩 | 日韩电影网1区2区| 成人黄色综合网站| 欧美一级久久久久久久大片| 国产精品护士白丝一区av| 日本欧美一区二区| 91亚洲精品乱码久久久久久蜜桃| 欧美一区日本一区韩国一区| 中文一区在线播放| 日本欧美久久久久免费播放网| av在线不卡电影| 久久这里都是精品| 婷婷综合五月天| 91免费国产在线| 国产午夜精品久久久久久免费视| 午夜视频一区二区三区| 成人网男人的天堂| 欧美mv日韩mv国产| 日日骚欧美日韩| 色婷婷综合五月| 中文字幕一区二区三区在线不卡 | 欧美日韩国产另类不卡| 国产精品女同一区二区三区| 青青草精品视频| 欧美色图片你懂的| 亚洲欧洲精品天堂一级| 国产在线精品一区二区夜色 | 欧美性xxxxxxxx| 国产精品乱码一区二三区小蝌蚪| 久久99精品国产麻豆婷婷| 欧美日韩国产高清一区二区| 国产精品九色蝌蚪自拍| 国产高清久久久久| 欧美r级电影在线观看| 日本成人中文字幕| 91精品国产品国语在线不卡| 亚洲成人www| 欧美人妖巨大在线| 亚洲午夜久久久| 欧美综合一区二区| 亚洲在线观看免费| 欧美日韩一区在线| 亚洲午夜精品网| 欧美日韩精品一区二区| 一区二区三区四区不卡在线 | 精品在线视频一区| 日韩久久精品一区| 美女性感视频久久| 久久蜜桃av一区精品变态类天堂| 九九九久久久精品|