在第五屆字節跳動獎學金頒獎典禮上,字節跳動技術副總裁楊震原分享了字節跳動自2014年以來在技術領域的一些探索歷程。
楊震原表示自己是一個技術愛好者,2014年加入字節跳動之后,從最初負責搭建新的推薦系統開始,到現在已經有快12年了,他也一路參與了字節很多的技術探索。
多數人對字節跳動的了解集中在抖音、今日頭條、TikTok等產品上,但楊震原分享了諸多外界不熟悉的技術探索。
以下為界面新聞整理的分享要點:
2014年:第一版機器學習與推薦系統就定了一個非常激進的目標
2014年,工業界最大規模的機器學習系統,是搜索廣告中已經成熟使用的大規模離散LR(Logistic regression)。把這套原理用在推薦系統上,挑戰可不小。那時同時熟悉大規模軟硬件工程和機器學習的人不多,而且,除了能夠掙到很多錢的搜索廣告會使用;其他領域,大家都不愿意花這么大的硬件成本去做計算。
我們第一版就定了一個非常激進的目標:計劃2014年做到萬億(T)級別的特征規模。這里有非常多的挑戰,比如系統建模,處理好推薦的優化目標。工程上,存儲和計算是最前期的門檻。另外我們也要做好算法的優化。
14年底,我們逐漸引入了FM類算法,后來演化成了更通用的deep learning體系。而且從我們上線的第一天,它就是一個streaming training的系統。
到今天,我們發現streaming更新(training only)的、較淺層的神經網絡算法在推薦中依然有著不錯的效果。它可能和現在test-time training中的一些問題相關,也許是更近似RNN的一個實現。
2020年:科學計算的探索
大概2019 年底到2020 年,我們討論過一次,未來AI還能夠怎么發展,如何在全社會發揮更加重要的價值?
當時的思考是,只有很大規模的有價值的數據,才能夠產生足夠有價值的模型和算法。線上世界,推薦、搜索、廣告是主流應用。那么,還有什么場景能夠產生很多有價值的數據呢?顯而易見是現實世界。但現實世界的數據搜集與應用會比較復雜,涉及到無人車、機器人等領域。除了現實世界,我們還想到一點,那就是科學計算。
從2020年開始,我們在第一性原理計算上持續投入。這個領域早期代表性的工作是DeepMind的FermiNet等,2019 年我們幾個人在會議室里就討論過這項工作。這個領域叫做NNQMC(神經網絡量子蒙特卡洛方法)。QMC 是量子蒙特卡洛,根據變分原理,任何試驗波函數計算得到的系統能量總是大于或等于真實基態能量。于是,我們就可以用神經網絡去表示一個波函數,然后,在這個波函數上進行采樣并計算系統能量。然后,我們就可以按照能量更小方向的梯度去更新神經網絡,最終得到一個更優的波函數表示。