黄色综合网站_亚洲一区二区三区国产精华液_成年人网址在线观看_va在线_亚洲另类视频在线观看_在线播放欧美日韩

歡迎來到好門好窗!
2000人來審核內(nèi)容,今日頭條招的是數(shù)據(jù)勤雜工?
時間:2018-01-07 | 來源:窗博城 | 閱讀量:1256 次

    今日頭條的跨年并不是在興奮與喜悅中度過。12 月 29 日,北京市互聯(lián)網(wǎng)信息辦公室針對今日頭條“持續(xù)傳播色情低俗信息、違規(guī)提供互聯(lián)網(wǎng)新聞信息服務(wù)”等問題,責(zé)令其“立即停止違法違規(guī)行為”。

  這是官方在拋出“算法有沒有價值觀”、“機器有沒有溫度”等系列命題之后的最后一次“強干預(yù)”。雖然,今日頭條的平均用戶停留時長已比肩 Facebook、微信等黑洞級應(yīng)用,但其 “琳瑯滿目”的信息呈現(xiàn)與用戶的期待依然有不小的落差。如頭條所倡導(dǎo)的“算法沒有價值觀”,用腳投票的用戶也沒有價值觀,只有好惡。

  在六個“重危”頻道被整頓 24 小時并將“新時代”這一“價值觀頻道”設(shè)為默認(rèn)后,今日頭條的開年第一件大新聞是:在天津招聘 2,000 名內(nèi)容審核編輯崗位,加強內(nèi)容審核。該職位要求熱愛新聞,關(guān)心時事,具有良好的政治敏感度和鑒別力,要求本科及以上學(xué)歷,黨員優(yōu)先。而此前今日頭條的審核團隊已逾千人規(guī)模。

  其中的被動式應(yīng)戰(zhàn)意味顯而易見,透露出的一個重要的信息就是:包括今日頭條在內(nèi)的個性化推薦引擎的算法在性能調(diào)優(yōu)、千人千面這件事上貌似失效了。大家都看到了臟的東西,只是內(nèi)容不一樣而已。于是,我們不由得去思索一個問題:這些個性化資訊提供商真的是黑燈工廠嗎?在“下一代搜索引擎”面前,人與機器的關(guān)系是怎樣的?

  我們先從即將為今日頭條工作的 2,000 名“內(nèi)容審核編輯”入手,猜猜看他們的工作是什么。落點在編輯,核心卻在審核,甚至是在數(shù)據(jù)標(biāo)注。畢竟一個號稱沒有編輯的推薦系統(tǒng)怎么可能需要 2,000 多名編輯?審核的含義就顯而易見了,頭條號的內(nèi)容(數(shù)據(jù))能不能分發(fā)、發(fā)出去的能不能展示、怎么展示,被迫務(wù)實的今日頭條需要緊急解決的就是減少“低俗色情”內(nèi)容了,機器不行人來湊。

  今日頭條已經(jīng)越來越離不開繁重的人力勞動了,這家“高舉高打、向 BAT 全面開戰(zhàn)、作戰(zhàn)半徑越來越長”的小巨頭正在通過更多的、更底層的人力勞動來夯實地基,完善數(shù)據(jù)標(biāo)注和分類,彌補低水平人工智能的缺陷。當(dāng)然,需要這么做的不僅僅是今日頭條,還有整個人工智能領(lǐng)域。

  人工智能的核心是機器學(xué)習(xí),它涉及了算法、統(tǒng)計、概率等多學(xué)科,那些看似簡單甚至笨拙的語音反饋、圖像搜索和個性化內(nèi)容推薦,都基于無數(shù)繁復(fù)單調(diào)的人力勞動。就像蘋果公司帶動的智能手機產(chǎn)業(yè)鏈一樣,人工智能這一輝煌的朝陽產(chǎn)業(yè),依然離不開三四線城市的勞動力、在校大學(xué)生以及大量社會兼職人員的工作,今日頭條此次在天津釋放的 2,000 個審核編輯名額正是瞄準(zhǔn)了這一群體。

  人力勞動與人工智能的關(guān)系最直觀的體現(xiàn)正是由今日頭條所掀起的新聞客戶端“個性化推薦革命”了,在此類產(chǎn)品中,內(nèi)容的多級分類、垃圾內(nèi)容的清洗及過濾、用戶行為畫像都涉及復(fù)雜的機器學(xué)習(xí),而需要人工標(biāo)注數(shù)據(jù)去喂養(yǎng)機器的可以是分詞、關(guān)鍵詞,也可以是文章分類、文章中圖文的比例。如果將一整套算法比作一個健全的有機系統(tǒng),每一個維度的數(shù)據(jù)都是構(gòu)建這套系統(tǒng)的神經(jīng)元,它們或多或少會影響用戶展現(xiàn)層,可謂是差之毫厘謬以千里。

  那么,那些你喜歡的、你不喜歡的內(nèi)容是如何從數(shù)百萬級的內(nèi)容庫里被選擇推薦到你的信息流里?我通過與幾位個性化算法工程師、今日頭條的前產(chǎn)品經(jīng)理和從事這個“內(nèi)容審核編輯”工作運營人員聊天,了解到了密集的人力勞動是如何喂養(yǎng)機器智能的。

  分詞標(biāo)注:理解你的興趣之前,先理解漢字的意義

  眾所周知,英文是以詞為單位的,詞和詞之間靠空格隔開,而中文是以漢字為單位,把中文的漢字序列切分成有意義的詞,就是中文分詞。中文自然語言處理(Natural Language Processing)中,分詞是必不可少的一個過程。

  個性化推薦引擎,最重要的就是把有意義的信息前置,其核心是相關(guān)度排序。分詞準(zhǔn)確與否直接影響排序,影響你的信息流列表里是否都是你個人感興趣的東西。

  即便是有了成熟的分詞算法,也很難解決中文分詞遇到的困境。因為漢字本身的多義性和模糊性使得在機器看來詞和句充滿了歧義。而且一個健康的語言系統(tǒng)也是在不斷進化中,每天都會有新的詞匯產(chǎn)生。就歧義而言,同樣的一句話,可能有兩種或者更多的切分方法。比如,乒乓球拍賣完了,切分成“乒乓球拍/賣完了”和“乒乓球/拍賣完了”就是完全不同的意思。

  第二個需要人力不斷去跟蹤的就是漢字的“新詞”,術(shù)語是“未登錄詞”,即沒有被收錄在分詞詞表中但必須切分出來的詞。在這部分最直觀的產(chǎn)品體驗就是輸入法的云詞庫,每天都會有運營人員統(tǒng)計新詞上傳云端。而在個性化推薦系統(tǒng)里,新詞的識別也要以人力為主,輔助機器去不斷添加并處理。

圖 | 機器學(xué)習(xí)在技術(shù)層面的應(yīng)用圖 | 機器學(xué)習(xí)在技術(shù)層面的應(yīng)用

  處理完有意義的詞,還需要排除無意義的詞,這就是所謂的停用詞庫(Stop Words),略相當(dāng)于過濾詞(Filter Words),術(shù)語為“非檢索用字”,因為要節(jié)省存儲空間和提高搜索效率,以及出于法律及政治的訴求,搜索引擎需要自動忽略的一些過濾詞也需要人工輔助機器標(biāo)注。

  停用詞包括兩部分,一種是使用十分廣泛甚至過于頻繁的詞,英文里如“I”、“is”、“the”,中文如“我”、“的”、“了”,幾乎在每個文檔里都有體現(xiàn),但很難保證搜索的準(zhǔn)確性及推薦無意義的結(jié)果,也需要過濾。

  然而,需要人工干預(yù)的停用詞更需要在不同場景下的詞庫里去維護,比如在體育新聞中,“比賽”這個詞的價值就不是很大;在娛樂新聞中,“演員”就不是一個特別有意義的詞。但是這兩個詞如果放在科技新聞里就不一樣了。

  作為理解文本最核心的工作,分詞標(biāo)注其實是自然語言處理的一部分,而離開了大量的基礎(chǔ)的人力工作,機器對文本的處理其實就是一句空話,除非你有一個現(xiàn)成的、龐大的、動態(tài)的數(shù)據(jù)庫。而在許多公司,自然語言處理部分已經(jīng)完全外包了,靠售賣成型的數(shù)據(jù)庫已經(jīng)是一門生意了。

  分類標(biāo)注:你需要忘記的文章分類,恰恰是機器需要記住的

  分詞停詞的標(biāo)注牽扯到算法模型里對文本的識別,文本本身也需要通過建立訓(xùn)練集來輔助機器學(xué)習(xí)。在一個完善的個性化推薦系統(tǒng)里,文章分類樹的構(gòu)建也相當(dāng)有必要。

  文章分類是最簡單的個性化步驟,在大而全的門戶時代,會通過頁面的版塊來區(qū)分你的閱讀興趣,現(xiàn)在的個性化產(chǎn)品雖然也排設(shè)了各分類頻道,但其主要功用是滿足一些垂直喜好。個性化水平夠高的話,以興趣推薦為主的首頁流量會是頻道的數(shù)倍不止。

  個性化資訊產(chǎn)品的一個優(yōu)勢在于,從各渠道爬蟲抓取過來的內(nèi)容天然自帶分類,比如抓了新浪科技頻道的內(nèi)容,那么這些文章自然帶“科技”分類標(biāo)簽。此類文章會出現(xiàn)在正確的分類頻道。然而,這是一種粗顆粒度的“個性化”,完全談不上興趣推薦,且抓取渠道的多樣并不能保證所有文章都自帶標(biāo)簽,從門戶到個性化推薦,最重要的特征就是興趣顆粒度的細(xì)化。

  以前,用戶喜歡看科技類內(nèi)容,現(xiàn)在,這個興趣溶解為 iPhoneX、共享單車等標(biāo)簽。因此,一個合理的文章分類是包含至少三層的分類標(biāo)注過程。即一級分類(科技、娛樂、軍事等標(biāo)簽);二級分類(一級分類的分拆及內(nèi)容源分類);三級分類(一個龐大的標(biāo)簽庫,一篇文章里最關(guān)鍵的主題詞等)。

  以某手機瀏覽器在做的分類工程為例,機器學(xué)習(xí)想要實現(xiàn)分類準(zhǔn)確性,需要通過百萬級文章的訓(xùn)練數(shù)據(jù)去習(xí)得。負(fù)責(zé)人楊某告訴我,首先,需要建立一個 150 萬篇的數(shù)據(jù)庫,然后由機器進行原始分類,30 多個人耗時一個月進行校審,正確的分類繼續(xù)標(biāo)注二三級分類,錯誤的要進行糾正重新進行分類,而只要準(zhǔn)確率能達到 90%,就是工程師可以接受的水平。

  在最終實現(xiàn)的完整分類樹里,一共有 27 個一級分類,300 多個二級分類,將近 10 萬多個標(biāo)簽。以一點資訊為例,用戶訂閱的關(guān)鍵詞或者分類,正是基于這種龐雜的分類標(biāo)注所形成的文章與關(guān)鍵詞之間的映射。

圖 | 文章的三級分類圖 | 文章的三級分類

  人工干預(yù):讓你困擾的推薦興趣列表,是一堆人設(shè)計的邏輯重疊

  如果在你的理解中,機器學(xué)習(xí)是根據(jù)一些粗笨的規(guī)則和你的興趣關(guān)鍵詞為你生成興趣推薦列表的話,那就大錯特錯了。你可以打開你的推薦頁面往下刷一刷,這里邊至少包含了多種關(guān)聯(lián)性推薦的內(nèi)容。

  有你關(guān)注的了賬號、有被強制展示給你看的時政新聞、有今天最火的短視頻、有運營編輯認(rèn)為今日不可錯過的 100 件大事。當(dāng)然,現(xiàn)在可能會有2,000名審核編輯想讓你或不想讓你看到的東西。客觀而言,現(xiàn)在呈現(xiàn)在你面前的信息流其實很難做到完全的個性化,這個看似簡單讓人“震驚、轉(zhuǎn)瘋了”的列表里重疊了太多的運營邏輯。

  算法模型的核心是預(yù)判+反饋,對一個新用戶而言,你喜歡看什么東西?機器需要預(yù)測,即使對今日頭條而言,抓取其社交關(guān)系鏈給一個初始化列表,但這些是否能真正體現(xiàn)你的閱讀趣味就是另外一說了。因此,在這個初始列表里,有一個候選池的概念,以“全局最熱”、“用戶所在城市最熱”、“用戶最關(guān)注類別最熱”、“用戶最關(guān)注關(guān)鍵詞最熱”組合構(gòu)成信息列表。

  看似很關(guān)心用戶,但是站在“個性化用戶”的角度而言,這種體貼又有什么用呢?人工可以干預(yù)的不像以前頁面運營的單條維護更新,而是變成一個“文章庫”。因此,在一個主模型的基礎(chǔ)上,還需要引入其它次要邏輯,以更好地“模擬”用戶的興趣列表。

  在號稱沒有編輯部的個性化資訊產(chǎn)品部門里,依然存在大量的垂直領(lǐng)域的編輯,他們的主要職責(zé)就是設(shè)計人工干預(yù)準(zhǔn)則、干預(yù)個性化排序。以鳳凰新聞客戶端為例,依然存在著至少 30-50 人的編輯運營團隊。

  目前,編輯精選+個性化推薦的組合首頁列表成為主流,這一肇始于搜狐新聞客戶端的內(nèi)容推薦方法成為門戶新聞客戶端的選擇。鳳凰新聞客戶端運營負(fù)責(zé)人告訴我,編輯每天會將熱門、時效、有格調(diào)的新聞放在一個動態(tài)的精品內(nèi)容庫里,少則幾十條、多則一百條,以平衡新聞的時效性與個性化內(nèi)容的可讀性。

  人工干預(yù)可以保障信息流的健康度和豐富度,對于提升用戶體驗有非常重要的作用,一定程度也能調(diào)整模型的方向。人工干預(yù)的規(guī)則也會以 A/B 測試的方式驗證規(guī)則的數(shù)據(jù)效果,但唯獨不能保證的是——這是不是你想要的個性化?

  垃圾處理:一個勞累且持久的系統(tǒng)工程

  這正是即將入職今日頭條的 2,000 名審核編輯需要做的事情,在未來的一段時間內(nèi),他們有可能將看遍今日頭條上所有內(nèi)容空洞、價值低的垃圾內(nèi)容。

  標(biāo)題黨、情色低俗、廣告營銷類的帖子在個性化資訊產(chǎn)品里并不少見,而在被官方媒體及用戶詬病的背后,則是平臺不遺余力地反垃圾工作。如果將大面積自媒體化后的資訊產(chǎn)品比作淘寶的話,那低質(zhì)量內(nèi)容就像是假貨,雙方的博弈勢必是一場持久戰(zhàn)。前今日頭條算法產(chǎn)品經(jīng)理透露,事實上,大多數(shù)資訊產(chǎn)品里的垃圾內(nèi)容含量都在 30% 以上。

  反垃圾系統(tǒng)里邊有兩種邏輯,一種是過濾;一種是通過機器學(xué)習(xí)識別和過濾垃圾內(nèi)容來輔助推薦系統(tǒng)。前者見效快,但工作量大,且不利于推薦系統(tǒng)的學(xué)習(xí)成長。就像那些敏感的家長對待性教育的態(tài)度,其隱患在于這種歸類與識別在機器的觀念和經(jīng)驗里是徹底缺失的。在某手機瀏覽器的信息流部門里,僅審核工作人員就有 20 多個,需要 7*24 小時工作,人均日審核量就超過 1,000 篇。這個審核數(shù)據(jù)量剛好和今日頭條對審核編輯的職位描述一致。

圖 | 通過屏蔽來過濾垃圾內(nèi)容的人工操作后臺圖 | 通過屏蔽來過濾垃圾內(nèi)容的人工操作后臺

  過濾的做法簡單粗暴,通過標(biāo)題/正文的關(guān)鍵詞或賬號來屏蔽。然而,事實上,直接在標(biāo)題中踩中違禁詞的概率實在太小,而在正文里踩中的概率卻很大。且詞匯本身則在不同語境下發(fā)揮不同作用,誤殺的概率也大到可怕。

  通過機器學(xué)習(xí)識別和過濾垃圾內(nèi)容更有利于推薦系統(tǒng)的良性成長,對垃圾內(nèi)容進行文章特征、垃圾類型和發(fā)布源等人工標(biāo)注,再結(jié)合上述三個維度的標(biāo)注,將這些數(shù)據(jù)提交給機器進行學(xué)習(xí),進而實現(xiàn)對垃圾內(nèi)容的機器審核,我想,這應(yīng)該是數(shù)千人規(guī)模的審核團隊需要實現(xiàn)的終極目標(biāo)。不過因為工期過長、監(jiān)管風(fēng)險和市場窗口,等你的機器學(xué)習(xí)趨近成熟的時候,早已沒有了用武之地,這正是今日頭條所面臨的尷尬局面。

  某 Android 桌面信息流算法工程師告訴我,反垃圾系統(tǒng)的關(guān)鍵在于給新文章打上是否是垃圾的標(biāo)記,這符合機器學(xué)習(xí)分類問題的定義。例如,現(xiàn)在已經(jīng)有了 10,000 篇垃圾文章,再找到同等規(guī)模的非垃圾文章,挑選機器學(xué)習(xí)模型訓(xùn)練一個分類器,這個問題就迎刃而解了。針對反垃圾系統(tǒng),機器學(xué)習(xí)領(lǐng)域常使用準(zhǔn)確率和召回率來判斷系統(tǒng)的優(yōu)劣。

  準(zhǔn)確率 = 系統(tǒng)預(yù)判垃圾文章中真正垃圾的文章數(shù)目 / 系統(tǒng)判定垃圾文章數(shù)目

  召回率 = 系統(tǒng)預(yù)判垃圾文章中真正垃圾的文章數(shù)目 / 真正垃圾的文章總數(shù)

  比如系統(tǒng)里總共有 1,000 篇文章,反垃圾系統(tǒng)判定其中 100 篇文章為垃圾,在這 100 篇被判定垃圾的文章中有 60 篇真的是垃圾文章,此外還有 40 篇垃圾文章被標(biāo)記為非垃圾。這樣準(zhǔn)確率就是 60/100=60%,而召回率也是 60/100=60%。準(zhǔn)確率能夠幫助判斷標(biāo)記垃圾文章的性能,而召回率反映了系統(tǒng)能夠處理的垃圾文章覆蓋范圍。這兩個概念也被用在數(shù)據(jù)標(biāo)注、分類標(biāo)注中用以判斷算法性能。

  反垃圾系統(tǒng)需要在準(zhǔn)確率和召回率之間進行平衡,如果我們把所有文章都標(biāo)記為垃圾,那么召回率就是 100%,而準(zhǔn)確率就會變成 10%,這樣的話用戶就看不到任何文章了,顯然這是不合理的。因此,機器學(xué)習(xí)分類算法需要做的事情就是引入通過人工標(biāo)注的更細(xì)致的文章特征維度,包括增加文章的特征、多模型融合、加大訓(xùn)練數(shù)據(jù)量等,以提升準(zhǔn)確性。

  在優(yōu)化了特征與模型方面的工作,將準(zhǔn)確率和召回率最終都提升到 85% 左右,這是一個可以接受的及格數(shù)值,不過這意味著依然有 15% 的誤差內(nèi)容需要人工去干預(yù),并需要繼續(xù)加強對機器的訓(xùn)練。

  總之,搭建一套完整的標(biāo)注系統(tǒng),并對數(shù)據(jù)進行持續(xù)維護,這僅僅是個性化推薦需要完成的原始積累,而將這四部分協(xié)同操作并運用在算法模型中,也僅能得到一個及格的個性化信息流產(chǎn)品。在客戶端展現(xiàn)的另外一維,還不能缺少對用戶行為數(shù)據(jù)的理解及清晰畫像,要實現(xiàn)這種匹配關(guān)系還有更長的路要走。

  前幾年,國內(nèi)聚焦于今日頭條模式的個性化推薦系統(tǒng)有大小公司超過 30 家,其展現(xiàn)形式包括原生 APP、信息流 SDK、手機瀏覽器,還有那些企圖刻意拉長用戶停留時長的產(chǎn)品。這種模式很快被復(fù)制到了土耳其、阿根廷、巴西、印尼等國家。然而,以減少數(shù)據(jù)標(biāo)注維度、降低推薦系統(tǒng)性能和犧牲用戶體驗為代價的個性化資訊產(chǎn)品,都不可避免地走向了品牌缺失、產(chǎn)品低留存甚至是監(jiān)管關(guān)停。

  可喜的是,有不少人從專業(yè)的角度發(fā)現(xiàn)了商機。去年 8 月,提供數(shù)據(jù)標(biāo)注眾包服務(wù)的“星塵數(shù)據(jù)”獲得天使輪投資,硅谷出身的創(chuàng)始團隊正是瞄準(zhǔn)了這個行業(yè)的積累不完善、水平層次不齊。此前,成立較早的“數(shù)據(jù)堂”已成功掛牌新三板,此外還有愛數(shù)智慧、泛涵科技、龍貓數(shù)據(jù)、丁火智能等都已獲得融資并著手構(gòu)建自己的數(shù)據(jù)標(biāo)注平臺。從產(chǎn)業(yè)的角度來看,缺失的一環(huán)正在補齊。

  機器算法通過廉價勞動力的單個無意義成果的累積實現(xiàn)質(zhì)的飛躍,這座智能、精巧的大廈的建設(shè)工作從以前高素質(zhì)新聞從業(yè)者手中遞交給了簡單培訓(xùn)即可上崗的重復(fù)工作者。對高級人工智能及深度學(xué)習(xí)而言,讓一些人在機器面前無所適從、找不到工作價值是我們邁向人工智能時代必然要經(jīng)歷的陣痛。

  所以,當(dāng)你在招聘網(wǎng)站上看到“數(shù)據(jù)運營”或者“內(nèi)容審核”的崗位,就需要注意了,這多半是一份看不到頭并很難在短時間內(nèi)體現(xiàn)個人價值的工作,因為你的角色是機器的訓(xùn)練師。對龐雜的算法而言,這些工作是不可或缺的,并且是最基本、最有價值的一部分。但是放眼激烈的商業(yè)環(huán)境,能否在數(shù)據(jù)標(biāo)注這件事上保持足夠的耐心才能最終決定所謂的“個性化”產(chǎn)品走多遠。

免責(zé)聲明:凡注明來源本網(wǎng)的所有作品,均為本網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,歡迎轉(zhuǎn)載,注明出處。非本網(wǎng)作品均來自互聯(lián)網(wǎng),轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé),如轉(zhuǎn)載涉及版權(quán)等問題,請聯(lián)系我們,我們將及時改正或刪除,謝謝!
主站蜘蛛池模板: 成人精品久久日伦片大全免费 | 欧美在线观看一区二区三区 | av无码中文字幕无码王 | 国产一卡二卡三卡四卡网站 | 亚洲大片免费 | 欧美一区日本一区韩国一区 | 午夜精品久久久内射近拍高清 | 午夜福利免费院 | 国产美女A做受大片观看 | 真实国产乱啪福利露脸 | 亚洲精品国产一区 | 久久精品无码一区二区WWW | 丧尸启示录免费观看高清完整在线 | 日本h视频在线观看 | 成人免费无码A片免费看软件 | 国内自产少妇自拍区免费 | 精品久久久成人 | 天天摸日日添狠狠添婷婷 | 噼里啪啦国语高清免费观看在线 | 亚洲午夜精品久久久久久浪潮 | 国产亚洲AV人片在线观看 | 暖暖免费高清日本社区在线观看 | 日韩精品一区二区三区乱码 | 女人国产香蕉久久精品 | 狼色精品人妻在线视频免费 | 欧美成人性生活视频 | 亚洲综合视频网 | 国产在线无遮挡免费观看 | 97久久人人爽人人爽人人片 | 日批在线视频 | 脱了美女内裤猛烈啪啪爽 | 亚洲综合av一区二区 | 啊啊啊用力插视频 | 色综合国产 | 欧美涩涩视频 | 麻豆av在线免费看 | 精品少妇爆乳无码av无码专区 | 久草在线新时代视觉 | 在线观看亚洲专区 | 91精品一区二区三区久久久久久 | 91短视频入口 |