數據到底若何弄定片子票房猜測?

iOS 7.1宣佈第三個測試版:界面大幅調劑
2016-05-13
歡迎4G時期 配音秀馬上來襲
2016-05-13
Show all

數據到底若何弄定片子票房猜測?

  如何應用微博數據從股市中挖金?氣候臺如何預告氣象並宣佈預警?Google若何經由過程搜刮行動預告流感發作?這些風趣的題目背後,實在都隱蔽著大數據的影子。基於對搜刮行動、交際媒體等數據的深刻剖析,能夠丈量億萬用戶的情感變更、描寫用戶的行動形式、發掘用戶的潛伏需求,終極挖掘出數據中包含的真正代價。

  2009年Google在《Nature》上頒佈瞭其應用搜刮數據對環球流感疫情近乎及時評價的技巧:(1)2012年微軟紐約研討院經濟學傢David Rothschild在51個選區中精確猜測瞭50個選區的總統大選成果 (2)美國印第安納大學和曼徹斯特大學的三位學者依附Twitter的情感剖析猜測將來3-4天道瓊斯指數的漲跌 ,精確率高達87.6%(3)。與此同時,大數據技巧還被普遍運用於途徑擁堵、彩虹乃至地動等范疇的猜測。

  搜狗搜刮在大數據研討方面已有必定收成。自2013年開端,我們決議研發一個有挑釁性的社會化猜測體系,定名為#沉思#(這個名字起源於《銀河系周遊指南》中的一部超等盤算機),在分歧范疇舉行趨向猜測,盼望經由過程這個綜合體系來發明隱蔽在大數據背後的神秘。

  

  本文以搜狗為案例,剖析其片子票房猜測的相幹技巧,其他范疇的研討結果將連續宣佈。

  票房猜測:需求與實際

  從1896年西洋電影傳入上海徐園,到1905年中國拍攝首部國產片子《定軍山》,再到2013年天下片子票房沖破200億 大關,(4)有著百餘年汗青的中國片子傢當,在近幾年出現出奔騰式成長的態勢,不管是影片質量、院線扶植照樣投資范圍都有瞭長足的成長。與此同時,跟著大數據時期的到來,片子不雅影群體、不雅影偏好與生理、片子信息流傳和獵取方法也都在產生著深入的變更。

  無庸置疑,多樣化本錢的參加是中國片子弗成或缺的成長引擎,但是,片子行業以投資回報率難以猜測著稱,大投入一定有大產出,票房猜測對象的缺掉使得投資者沒法有用對沖投資風險,華人有名導演吳宇森的《風語者》就拖累瞭米高梅公司終極走向停業。是以制造與刊行公司不能不斟酌全部對票房有影響的身分:辣媽李小璐對《私傢訂制》票房進獻多少;《風暴》票房為什麼遠低於其金牌制片人江志強預期;被吐槽爛片的《富山春居圖》和《小時期》緣何票房卻一起走紅;成龍大叔的《警員故事2013》有沒有需要拍成3D;《泰囧》的抨擊性不雅影效應可否復現這統統的統統實在都能夠從大數據中找到謎底。由於收集上的每次閱讀、查詢甚至點擊所會聚成的群體聰明都胡蝶效應般地影響著片子的終極票房。

  2013年Google在一份名為《Quantifying Movie Magic with Google Search》(5) 的白皮書中頒佈瞭其片子票房猜測模子,該模子重要應用搜刮、告白點擊數據和院線排片來猜測票房,Google宣告其模子猜測票房與實在票房的符合水平到達瞭94%,但並未見其公然對未上映片子的猜測成果。

  搜狗公司借助沉思體系,樹立瞭更加龐雜的模子,用於猜測海內片子票房,並在新浪微博上提早宣佈瞭2013年12月海內上映片子的首周票房猜測成果。很愉快到今朝為止猜測成果與實在數據異常靠近,同時,我們的模子還能夠用於對影響票房的身分舉行定量剖析。

  搜刮查詢量的神秘

  搜狗搜刮天天都相應上億次的搜刮要求,查詢詞的散佈和變更趨向可以或許很好的反應出中國網平易近的興致點和存眷指向。與Google的研討相似,我們也發明,片子上映前相幹查詢詞的搜刮次數與票房支出有著很強的聯系關系性。這一點很好懂得,用戶的自動搜刮行動表現瞭用戶對這部片子的潛伏興致。

  我們拔取瞭2013年1-11月海內上映的180部片子的票房和上映前的搜刮量數據作為練習集,用於練習一個基本的線性回歸模子。試驗發明,純真應用搜刮量練習獲得的模子,猜測獲得的首周票房與實在票房的相幹度R方值僅為68%,這與Google僅用搜刮數據獲得的成果70%很靠近。(註:R方值取值為0至1,值越大表現模子猜測後果越好),這個成果也解釋不管在中國照樣美國,用戶的搜刮行動是很類似的。

  

  用搜刮量來舉行猜測票房是一個好的開端,然則精確度還遠遠不敷。同時許多搜刮詞還存在歧義的情形,好比《生化危急》,既是片子也是遊戲,混在一路會形成票房猜測值偏高。進一步研討發明,遊戲企圖的查詢要求量較為安穩,但片子企圖的查詢要求在上映前則有一個岑嶺,也能夠經由過程用戶點擊的URL來進一步確認用戶的搜刮企圖。是以模子須要再引入查詢量的變更趨向和用戶點擊的散佈情形。修改後的模子能夠到達74%的精確度,這時候模子已能夠對片子票房舉行一個大略的估量。

  

  交際媒體:用戶的情緒剖析

  交際媒體數據對票房猜測也會有必定贊助。假定你是某個明星的粉絲,盤算去看他主演的片子,那末你極可能會提早轉發該片子的相幹微博給你的同夥。外洋已有許多猜測項目都是在針對Twitter數據做研討,這裡我們重要采取海內部門微博網站的數據來舉行猜測。經由過程天然說話懂得技巧,剖析出用戶對未上映影片的情緒偏向,從而轉換為用戶的不雅影需求。進一步能夠斟酌的身分包含微博轉發深度、批評活潑水平,和相幹微博數目隨片子上映日期鄰近的變更趨向,這些數據都能夠被有用的提煉為特點並參加到模子中。

  微博數據的參加使得精確率跨越瞭80%。

  

  基於垂直媒體的猜測

  為瞭權衡片子刊行公司的宣揚刊行力度和用戶對宣揚的存眷水平,我們也引入瞭一些垂直媒體的數據來加強猜測才能。這裡挑選瞭一些著名片子站點和頻道舉行統計,個中包含視頻類站點(搜狐視頻、優酷土豆、愛奇藝、騰訊視頻),文娛類站點(搜狐文娛、新浪文娛、騰訊文娛、鳳凰文娛、網易文娛)和片子資訊類站點(豆瓣片子、片子網m1905、時間網)。這些網站中片子的相幹消息數、預報片播放情形、用戶批評情形都能夠經由過程定向抓取得到,這些都是影響片子票房的主要相幹身分。不言而喻,中小本錢片子每每因為資金有限,弗成能做到大規模的宣揚,而大制造片子的宣揚就會遮天蔽日。

Comments are closed.