楊叫獸小講堂又開課了,嚴重打臉了,說好閉關一年的,結果中間被有些事情刺激了又寫了一些東西,而且就這慘淡的閱讀量,居然還有人催更!我也是醉了!
言歸正傳,最近做項目不蹭幾個高大上名詞“大數據”和“AI”都不好意思打招呼。這裡不想講AI技術,如果想看,請隔壁CSDN和CNBLOGS 好走!不謝!既然我轉行產品狗這些年,就來談談“AI”在應用場景中的選擇。
先拋總結:很多場景下用不到機器學習和深度學習,基於統計和場景策略可以很好的完成早期過度。
場景1:首頁推薦,很多產品首頁都會有一個推薦模塊,顯得自己高科技,其實真正要做到有效推薦,早期不一定要用到高大上的機器學習,利用統計數據比如總瀏覽量,然後加入場景策略,用戶喜好的內容分類,然後隨機交叉出現,因為在早期一定有冷啟動的問題,你還沒有拿到個人用戶行為之前,你只能通過統計數據來猜測大概率下用戶閱讀的偏好,當用戶產生訪問行為之後,跟蹤用戶的點擊、瀏覽、停留時間、閱讀的內容,就可以對一個用戶進行畫像,那麼當產生了一定用戶歷史數據,就可以通過協同過濾來進行交叉推薦,這樣最基本的推薦框架就完成了。
場景2:巨量數據融合糾錯,在POI聚合和糾錯場景中,面臨多個渠道的數據合併,因為有多渠道並存難免重複,那麼怎麼糾正重複就是一個關鍵問題。先說多渠道聚合,因為不同的渠道數據格式不一定完全相同,但是都有一定的規律可尋,所以在融合時候採用規則引擎和機器學習都是可行解決方案,具體哪個方案更好,完全取決於團隊研發能力和對精度要求,就我的經驗來看規則引擎相對來說更有效。再說重複糾正方面,那麼機器學習就更有效了,因為重複數據通過人工判斷會產生標註,通過機器學習找到這些數據的特征差異和共性,然後對全量數據做回歸,就是一個很好校準重複進化框架。
場景3:圖片識別歸類和優選,只要和圖片項目打交道的同學就發現,在沒有深度學習技術之前,圖片的編輯優化基本都是人工完成,好的項目可以採用“眾包”方式來分發數據讓用戶參與進來。現在有了卷積神經網絡,這件事情變得相對要容易很多,首先定義好圖片分類,然後通過機器識別,然後再針對結果做二次標註再次學習識別,反復多次之後,就可以得到準確度還不錯的模型數據,這樣可以大大減少人力的投入。說完分類再說優選,先通過人工的方式對分類圖片進行初篩,然後放到真實環境中讓用戶自然選擇,記錄用戶的點擊偏好,通過點擊就相當於做了優選的特征值標註,然後再通過機器學習來找到圖片中的規律,然後就可以應用在全量數據之上,簡不簡單,驚不驚喜!
場景4:文本和語義識別,基於單一語種的文本識別,中文難度要遠大於英文,因為英文不涉及分詞問題,做過搜索引擎的朋友都知道,第一件事情就是切詞,好在有很多開源詞表可以大大提高切詞精度。做完切詞之後要做的事情就是高頻詞聚類,在聚類過程中又涉及到同義詞聚合,這樣就可以拿到一批結構化數據,然後通過文本中主謂賓判斷,就可以簡單識別用戶的喜好和意圖。分析完文本就可以通過對一個人說話的理解,來識別用戶的意圖,那麼結合最簡單的場景控制,就是現在的“智能”音箱。居然米國有公司通過基礎素材,通過多種新聞內容的學習,就可以來編寫內容,是不是感覺記著要下崗了?其實這個擔心還早,至少我們團隊現有能力只能構建短句,不能構建完整文章。
其實要舉例的東西還很多,但是核心要表達的意思就是:“AI是一種技術,還是要為人服務”
在AI時代核心競爭力是:大數據獲取和特徵標註,這兩個都太燒錢了!所以小公司機會真的不大!