林奕彰:即使數據的量再大,賣贗品的人都有相對牢固的形式

周鴻禕:17個有代價的互聯網辦法論
2016-05-13
收集轉變傳統節日 技巧重塑人們生涯
2016-05-13
Show all

林奕彰:即使數據的量再大,賣贗品的人都有相對牢固的形式

和其他在線生意業務平臺一樣,ebay對贗品亦非常敏感。眼下,公司試圖經由過程大數據技巧,讓體系智能地辨認出贗品。

  現實上,收集打假事情其實不輕易。要曉得,贗品經常以各類形狀湧現在收集上,且屢禁沒有止。以rolex為例,贗品商傢大概在單詞中增長一個空格,也大概將個中兩個字母交換地位,乃至稱號裡基本沒有湧現rolex,隻是圖片展現出rolex腕表的模樣。ebay上有如斯多的品牌,天然無形形色色的贗品充滿個中。這類情形下,單是靠在商品稱號或描寫裡抓癥結詞,基本抓沒有住贗品。

  而ebay眼下做的,就是經由過程數據剖析樹立起一種模子或規矩,如果商傢的生意業務相符這類規矩或特點,便有大概是在賣贗品。

  打個比喻,當一個賣傢的商品賣的很廉價,賣得很快,但背面的埋怨和退貨許多,體系就會把這個可疑的形式辨認出來,然後再由事情職員去斷定,這個賣傢是不是在賣贗品。換言之,即使數據的量再大,賣贗品的人都有相對牢固的形式。林奕彰稱。而經由過程這類方法,ebay有用地辨別出很多贗品商傢。

  不外,林奕彰其實不諱言,這類大數據剖析辦法亦有其弊病。就贗品題目來講,這類方法隻能在過後將題目查出來,而沒法事前猜測。他表現,這沒有是那末輕易辦理的題目,由於不管用甚麼樣的模子去套,贗品生意業務老是能先騙你一陣子。

  除剖析的滯後性,ebay的大數據挑釁還表現在宏大的數據處置上。隻管企業數據堆棧為查詢供給瞭偉大機能,但它仍沒法知足ebay存儲和靈巧處置的須要。要曉得,這些體系的造價相稱高貴,當ebay天天增長50tb的數據時,其本錢是相稱昂揚的。

  在此基本上,ebay網絡的相稱一部門數據,在今朝看來是無用的數據。究竟,數據收羅得越多,變量越多,而由此帶來的數據樂音也越多,模子越掉真。從這個角度看,ebay要做的是記載那些故意義的數據,並燒毀那些沒有須要的信息。題目在於,ebay要剖析的85%的題目都是新的或未知的,ebay其實不曉得哪些信息將來大概會有效,林奕彰坦言,那些如今看起來無效的數據,明後年大概就會跟著科技提高被消化,我們如今隻能先把這些數據貯存起來。

  但另外一廂,如果將全部信息都貯存起來,那末ebay每一個月都邑新增數以億計的數據信息。在如斯眾多的數據陸地中,剖析事情基本無從動手。是以對ebay來講,這是一個必需均衡的困難。

  須要指出的是,ebay當下的剖析模子也還不敷完善。不管是猜用戶,照樣剖析商傢在ebay上的買賣,ebay猜錯的情形異常異常多。對付這一點,林奕彰舉瞭信譽卡的例子。在他看來,銀行實在是應用大數據最鋒利的,但不管風控模子怎樣完善,環球依舊有2%閣下的信譽卡賠率。何況,ebay用的其實不是成熟機構認證過的模子,許多時刻要靠本身去猜,那末偏差也就無獨有偶。

Comments are closed.