從年底破百億的“羋月傳”和有毒的“太子妃”到年初舉報快播的“背鍋俠”,樂視簡直賺足了國民的關(guān)注?,F(xiàn)在看來,游戲才剛剛開始,最近樂視又在忙活著升級,改Logo改域名,這意味著樂視已經(jīng)準(zhǔn)備火力全開,進(jìn)軍全球市場了。小編覺得,樂視之所以有這么大的野心,是因為背后有大數(shù)據(jù)作支撐,而且未來,大數(shù)據(jù)在樂視全球化戰(zhàn)略中也將發(fā)揮舉足輕重的作用。
從內(nèi)容來看,樂視大數(shù)據(jù)打造的超級IP實力確實強(qiáng)大。2013年樂視最早借大數(shù)據(jù)跑贏宣傳檔為即將上映的《小時代》做了最精準(zhǔn)的預(yù)測和分析,開展了一場漂亮的電影營銷,拉開了大數(shù)據(jù)電影營銷的模式。再后來,國內(nèi)影視開始掀起IP潮,2015年是IP炒的最熱的一年。年底,樂視給用戶呈上滿意的答卷,其自制的“十年劇王”《羋月傳》以全網(wǎng)200多億的播放總量創(chuàng)下紀(jì)錄。網(wǎng)絡(luò)雷劇《太子妃升職記》,目前全網(wǎng)播放量已接近15億。大數(shù)據(jù)+超級內(nèi)容IP給樂視進(jìn)軍全球市場注入了無限動力。
然而,這不是重點,“內(nèi)容+”才是樂視生態(tài)的看點?!读d月傳》播出后,樂視同步推出了《羋月傳》定制版超級電視、智能手機(jī)、羋酒、手機(jī)殼、《羋月傳》經(jīng)典臺詞版手機(jī)鈴聲等個性化產(chǎn)品,還與天貓合作,打造《羋月傳》衍生品旗艦店,《羋月傳》手游也已經(jīng)發(fā)布。注意,請注意,這是一個360°無死角的IP布局,樂視超級IP已經(jīng)形成一個完美的閉環(huán)。
如果說IP是軟件的話,那樂視云就是硬件了。大數(shù)據(jù)時代,最不缺的就是“云”了,樂視云是一個專注于視頻領(lǐng)域的云計算平臺,2016年樂視云已經(jīng)與戴爾達(dá)成兩年全球戰(zhàn)略合作、聯(lián)手全球領(lǐng)先大數(shù)據(jù)運營商Equinix,法國第一大電信運營商Orange、澳大利亞最大電訊公司澳大利亞電信、世界領(lǐng)先綜合性國際電信公司西班牙電信、全球頂級通信方案運營商香港和記環(huán)球電訊有限公司等全球多家頂級運營商,打破數(shù)據(jù)孤島,加速視頻生態(tài)體系建設(shè),未來樂視大數(shù)據(jù)的觸角將會伸向更多行業(yè)。
再來看市值,樂視網(wǎng)2004年成立,2010年上市,當(dāng)年市值僅為50億。五年下來,樂視依托大數(shù)據(jù)平臺在互聯(lián)網(wǎng)視頻、影視制作、智能終端、電子商務(wù)等垂直領(lǐng)域深耕,到現(xiàn)在,總市值已接近1100億。但是,看看樂視這次全面升級沖擊全球的架勢,貌似,樂視的故事才剛剛開始!
白德鑫現(xiàn)在正在從事樂視網(wǎng)超級電視做數(shù)據(jù)挖掘。他表示,原來初期的業(yè)務(wù)做得適應(yīng)不了當(dāng)前業(yè)務(wù)發(fā)展,所以要進(jìn)化。主要做的事情,構(gòu)建每件事的時候,分析數(shù)據(jù)的平臺,給樂視網(wǎng)的超級電視提供數(shù)據(jù)挖掘服務(wù).如何從最初業(yè)務(wù)發(fā)展到現(xiàn)在,包括在超級電視上做實時分析和用戶離線挖掘,通過數(shù)據(jù)挖掘,給很多業(yè)務(wù)部門提供數(shù)據(jù)挖掘的支持。
白德鑫提到自己是谷歌粉絲,目前正在做第一批超級電視數(shù)據(jù)挖掘。云視頻搞清播放機(jī)的時候,那時候比較屌絲,只有幾萬臺數(shù)據(jù),數(shù)據(jù)當(dāng)時也比較少,做了一些開機(jī)數(shù)之類的、日常數(shù)據(jù)。在業(yè)務(wù)里做,在數(shù)據(jù)節(jié)點做計算。
后來性能越來越低,因為量越來越大,當(dāng)時每天數(shù)據(jù)量,當(dāng)時覺得很大,每天只有幾千萬行數(shù)據(jù)。這時覺得需要嘗試一些新的技術(shù),就用Cassandra為存儲,存儲日至,做簡單處理切分以后放進(jìn)里面,使用Hodoop進(jìn)行計算,把結(jié)果塞到MySQL里。每天計算數(shù)據(jù)對自己來說是一個中間數(shù)據(jù)??梢猿鰜硪恍﹫蟊怼?shù)據(jù)組合比較多,剛開始只是盒子、應(yīng)用,后來還有一些視頻播放內(nèi)容,開始嘗試把每天數(shù)據(jù)把MySQL和Kettle進(jìn)行分析。但是做了三四個月又換了,使用Kafka、Storm、Hodoop、Hpase、Hive、Oozie、Sqoop,唯一修改是有一些大的,跟隨開源社區(qū)來做,進(jìn)行相應(yīng)升級,盡量跟社區(qū)保持一致。
樂視網(wǎng)大數(shù)據(jù)的起點
白德鑫表示,剛開始只有一個數(shù)據(jù)分析員,抓一些數(shù)據(jù),這是做的分析。電視的盒子,包括電視開機(jī),看了什么電視節(jié)目,因為樂視網(wǎng)是做視頻內(nèi)容的,點開了什么視頻節(jié)目,看了多長視頻節(jié)目是通過心跳來做的,三分鐘一個心跳,這個放到終端記錄下來。播放有開始、有心跳,電視好一些,但是盒子有些用戶看著看著直接斷電了,結(jié)束就沒有了,只能從心跳往回挖。
自從發(fā)布超級電視以后,剛開始盒子價格比較貴,沒人買,后來盒子賣299,賣出去很多。數(shù)據(jù)量按照三分鐘心跳,幾十萬用戶看視頻,開機(jī)有心跳、播放視頻有心跳,數(shù)據(jù)量特別大,沒辦法,樂視當(dāng)時上了四臺。四臺數(shù)據(jù),看怎么發(fā)布的。之后輸出,然后進(jìn)行分析??从心男﹩栴}。
當(dāng)時做這個事情的時候一個人在做這些事情。然后后來有人離職,后來Cassandra這塊沒人了,交接的時候?qū)懲?,對系統(tǒng)影響很大。在這個時候沒人接手,他走了技術(shù)也走了,一個蘿卜一個坑,蘿卜走了坑很不容易填的。后來想找一個技術(shù)更牛一些的人幫樂視來做,但是到現(xiàn)在一個多月沒有找到。系統(tǒng)要繼續(xù)做,數(shù)據(jù)也在瘋狂增長,沒辦法就把Cassadnra去掉,往MySQL里放。
通過另外一種方式,分析人員對樂視意見很大,他多的時間有兩個小時,要看今天開機(jī)量,和昨天的對比,再分時段看開機(jī)量,兩個小時就過去了。他說系統(tǒng)老死機(jī),我說是查詢太慢了。希望系統(tǒng)可以做大一些。
現(xiàn)階段數(shù)據(jù)量的變化
白德鑫自己說,樂視的數(shù)據(jù)量從年初的三個月翻一番,到現(xiàn)在的我寫得稍微早一些,到每周翻一番,現(xiàn)在每天數(shù)據(jù)量一百G,超級電視以及盒子賣得非??臁脑O(shè)備行為快速向用戶行為轉(zhuǎn)變。我的計劃量是多少,賣得多了老百姓開始考慮業(yè)務(wù)行動,按照互聯(lián)網(wǎng)方式做,用戶拿著我的盒子看什么使的,是看電影還是看電視劇,所以這個時候很多用戶行為來分析?,F(xiàn)在電視版本和盒子版本一周一個,這個版本每周更新一個系統(tǒng)版本,用戶是不是接受,這些都在樂視這里做分析。
還有一個是樂視在這里做了一些測試,因為在盒子里,樂視叫UI里做一些測試,今天做一個海報推薦,明天加一個分析,看用戶量高還是低。
用戶數(shù)據(jù)量增長很快,人也沒有,一邊找土豪開發(fā)者幫樂視解決這個問題,另外自己要解決這個問題了??磾?shù)據(jù)分析的人,團(tuán)隊從內(nèi)部調(diào),數(shù)據(jù)分析招聘了一個。還有一個比較牛的是從公司別的部門挖的一個人。從今年年初開始履行,從原有的來進(jìn)行。最后換成現(xiàn)在的方式。這個是自己在做,研發(fā)團(tuán)隊兩個人,現(xiàn)在也是兩個人。
差不多半年搭成新的,新平臺通過Kafka搭建,通過很多業(yè)務(wù)系統(tǒng),點播、第三方的,包括一些日志,存儲數(shù)據(jù),以及需要對用戶進(jìn)行分析的數(shù)據(jù)。還有一些元數(shù)據(jù),進(jìn)行一些加工、處理。整合之后,其實就是前段所有的請求打到這里。Storme是最后的數(shù)據(jù),另外Hodoop寫的已經(jīng)換了,數(shù)據(jù)量大以后,換其他的數(shù)據(jù)庫,剛開始選,公司自己開始做自己的數(shù)據(jù)庫。通過Hodoop以及數(shù)據(jù)服務(wù)wAD-HOC的搭建、處理,實時查詢、開放數(shù)據(jù)平臺也做了查詢、進(jìn)行了報表,對一些實時數(shù)據(jù)分析系統(tǒng),還有做了門戶,對各個業(yè)務(wù)提供數(shù)據(jù)服務(wù),要調(diào)哪些數(shù)據(jù)。運營商需要知道在四川電信、某個電信部門的視頻點播量。這些都是靠內(nèi)部挖掘的。
樂視的數(shù)據(jù)源通過前端的,從三款到六款,所有數(shù)據(jù)都打到這里,好處是在于跟著開源社區(qū)升級系統(tǒng),依然可以接收數(shù)據(jù),不影響業(yè)務(wù)。后面再隨便操作。數(shù)據(jù)稍微做一下處理放到STORE,放到數(shù)據(jù)實時計算、然后進(jìn)行拆分?,F(xiàn)在沒有用PEED,用戶交互是OEE,把多個任務(wù)組合,把它放到,最后是一個結(jié)果,是一個業(yè)務(wù)流程的管理工具。
數(shù)據(jù)輸出之后通過查詢,然后提供給別人,反饋到前端數(shù)據(jù)。這叫矩陣式的業(yè)務(wù)。這是進(jìn)行的測試。服務(wù)器兩臺4Core cpu、6G,用戶38萬左右,38萬有效數(shù)據(jù)。跟官網(wǎng)50萬對比稍微差一些。因為樂視的機(jī)器性能比他們差很多。
當(dāng)時做的時候兩個節(jié)點做的,用了一個發(fā)送,用的是同步發(fā)送,消息格式是兩種,格式是30字節(jié)、50字節(jié)、200字節(jié)。如果30字節(jié)38萬,其他數(shù)據(jù)基本上是在30萬左右。這是單臺數(shù)據(jù)。單臺差不多30萬。這是樂視的Spout集群,做一些業(yè)務(wù)拆分,比如有些數(shù)據(jù)需要組織,點播、心跳的,其實有些消息是隨機(jī)的,雖然連續(xù)發(fā)過來的,但是每臺機(jī)器都往外發(fā),把數(shù)據(jù)寫到里面,比方說播放時長,每個劇播放時長、按時段的數(shù)據(jù)計算。
這個借用官網(wǎng)的圖,我用的0.9幾,實際上標(biāo)準(zhǔn)是一個,但是樂視怕數(shù)據(jù)丟失,所以做了兩個,其實做得比較簡單,把數(shù)據(jù)復(fù)制。存的一些數(shù)據(jù),這些沒有太多可講的,當(dāng)時做了一些簡單優(yōu)化,這個不多說。默認(rèn)垃圾是關(guān)閉的,自動回收,不想讓它自動回收要手工做一些處理。這是Sqoop,原來的數(shù)據(jù)都在這里存儲,樂視導(dǎo)入集群里,樂視用這個來做。當(dāng)時做了一些事情,把數(shù)據(jù)抽取整合。
沒有寫在上面的OLD,包括查詢,有些數(shù)據(jù)處理處理的中間結(jié)果,中間結(jié)果到最后沒有,不可能到使用階段。
ROI分析
數(shù)據(jù)量每個月翻一番,現(xiàn)在不只這個了,樂視原有架構(gòu)沒辦法滿足新的需求,之前就是日報,現(xiàn)在每天實時數(shù)據(jù)都很多。Kettle方式數(shù)據(jù)整合時間越來越長,采用hadoop-Storm方案,不會對數(shù)據(jù)挖掘產(chǎn)生太大的影響,資源稍微豐富一點,集群不夠使的時候要添加機(jī)器,數(shù)據(jù)每日跑一次,每天晚上12點跑一次收取數(shù)據(jù)生成報表,到現(xiàn)在實時查詢,時間還是比較長的,五分鐘左右。因特爾給樂視推薦過一個,但是它那個對內(nèi)存要求太高,暫時做不到?,F(xiàn)在都是6G內(nèi)存服務(wù)器。支持硬件設(shè)備。
目前還有很多事情要做,其實對樂視來說不同階段選擇不同方案,剛開始初期的時候,一年賣幾萬個盒子,剛開始三千一臺盒子,不可能建十幾個節(jié)點的數(shù)據(jù)。人員流失會導(dǎo)致技術(shù)流失。技術(shù)儲備和內(nèi)部自薦比招聘牛人更快?,F(xiàn)在招聘也很困難,hadoop圈里人比較少。新業(yè)務(wù)平臺都要小心對待。否則出問題很難解決。數(shù)據(jù)這塊還好一些,如果前端沒有,對業(yè)務(wù)影響很大。
數(shù)據(jù)安全很重要,樂視有40多T數(shù)據(jù),放到兩個備份存儲上。服務(wù)器多了就是爽,四臺不夠加八臺,計算量可以很快。