哈雷·普萊斯接著道:“總之,我覺得那個LH文本摘要準確度衡量模型對於我們來說非常不利。
或許我們可以參照LIN HUI的思路搞一個自己的衡量標準……”
埃克萊爾·基爾卡加:“你說的這個問題我倒是也設想過。
可是參照LIN HUI的構建標準的過程進行模型構建並不容易。
按照LIN HUI的思路構建類似的標準的話。
首先我們需要運用語言模型來評估算法生成語言的流暢度,然後…
如果我們按照同樣的步驟進行模型構建的話。
很可能會直接卡死在語言模型的構建上。
畢竟我們的語料庫實在是太遜了……
我們以前合作的麻省理工學院NLP那邊給出的報告
也證實了按LIN HUI的思路構建語言模型不可行。”
哈雷·普萊斯:“麻省理工學院那幫人認為不可行,未必就真的不可行。
他們很有可能是他們在逃避責任而已。
反正我覺得完全可以試著借鑒LIN HUI的思路搞一個新的衡量標準。”
埃克萊爾·基爾卡加:“你確定我們能夠按照LIN HUI的思路弄出一個新模型麽?
你怎麽保證我們弄出的模型不會跟他搞得那個一模一樣?”
哈雷·普萊斯:“不管怎麽說,我們也需要走這條路。
如果我們連他衡量準確度的模型都不能複現出來。
我們怎麽知道他在這套模型究竟有沒有貓膩?”
哈雷·普萊斯接著道:“以前我們的語料庫或許很low。
但現在我們采用的語料庫沒什麽問題。
現在是加州大學伯克利分校的自然語言中心在和我們合作。
我們測試X1驗證算法時可是由10萬個文本–摘要序列所組成的語料庫作訓練集的……”
埃克萊爾·基爾卡加反駁道:“不不不,這遠遠不夠!
想要達到LIN HUI算法處理文本那種水平,我們起碼需要百萬級別文本-摘要序列組成的語料庫做訓練集。
而這還隻是冰山一角。
我們還需要構建一個10^4級別帶人工打分標簽的文本–摘要序列作為驗證集。
以及一個10^3級別的個人工交叉打分一致的文本–摘要序列作為測試集。
否則我們的衡量模型很可能達不到LIN HUI搞得那個模型那種置信度。”
哈雷·普萊斯:“你的話確實有道理!
為了縮小邊際誤差最實際的方法就是增加樣本數量。
百萬級別文本-摘要序列組成的語料庫倒是好說。
這個相比於十萬級別的語料庫。
構建難度隻是線性增加而已。
但是你確定我們要構建你說的那般龐大的帶人工標記的驗證集和測試集嗎?
僅僅是帶人工打分標簽的文本–摘要序列驗證集保守估計就需要我們花費近一個月的時間去搭建。
這還得是我們還其他語言學專業通力合作不產生嫌隙的情況下。
而涉及到10^3級別人工交叉打分一致的文本–摘要序列測試集更是難上加難。
<a id="wzsy" href="http://m.cxzww.com">暢想中文網</a>
以前我們隻構建過10^2級別的。
測試集的搭建每上漲一個數量級相應的構建難度可是指數級的往上增長。
先前我們為測試提取式摘要算法構建的那個150條文本交叉打分一致的測試集就用了將近兩個月的時間。”
而且為什麽我們還要引入人工因素?
這樣的話不是相當於又回到以前開發那種帶有主觀色彩的準確度評判標準的老路上了嗎?”
埃克萊爾·基爾卡加:“這也正是我想表達的意思。
本來我也覺得不可能參照LIN HUI的思路搞出新的衡量標準。
即便我們能按著LIN HUI的技術路線走。
也會麵臨著過於龐大的工作量。”
聽了埃克萊爾·基爾卡加的話。
哈雷·普萊斯很絕望:“也就是說僅僅是建立準確度衡量標準時的起步工作就會耗費我們大量的時間?
可是負責決策的那些高層根本不可能坐視我們在這個算法上浪費太多時間。
他們很可能會去直接謀求LIN HUI的算法授權。
對於那些商業精英來說,技術什麽的本來就是資本遊戲的添頭。
當他們獲得LIN HUI的新技術後我們估計會很慘……
我們究竟該怎麽辦呢?”
埃克萊爾·基爾卡加:“誰知道呢?興許我們該收拾收拾準備去y度了。”
哈雷·普萊斯:“能去y度還不錯呢,聽說最近在籌建穀歌非洲研究中心了。
運氣不好的話,估計我們要去非洲了。”
埃克萊爾·基爾卡加:。。。
當然了這些話隻是調侃而已。
好歹也是頂尖研究機構的科研人員。
埃克萊爾·基爾卡加還不是那麽容易就喪失鬥誌。
過了一會兒,埃克萊爾·基爾卡加道:“倒也不完全是無計可施。
我覺得我們不要按照LIN HUI的技術路線走。
這個LIN HUI太狡猾!
他公開在外麵的信息很可能是留下來誤導我們的。
我們現在要做的是明確憑借我們自身歸納出的一些結論。”
埃克萊爾·基爾卡加接著道:“按照以往我們的研究得到的規律。
神經網絡的前一個輸入和後一個輸入是沒有關係的。
沒辦法處理序列數據這種前後輸入是有關聯信息的數據。
而LIN HUI在生成式摘要算法中提到的技術路線裏麵明確表示了要將文本信息通過向量來實現序列化標記之後再進一步處理。
在這種情況下,我覺得LIN HUI所提出的算法裏麵應用的絕對不是一般的神經網絡。
LIN HUI在生成式摘要算法中應用的大概率是循環神經網絡。
畢竟循環神經網路的結構非常適合用於處理序列信息。”
埃克萊爾·基爾卡加的話讓哈雷·普萊斯眼前一亮,不過旋即新的疑惑也隨之產生。
哈雷·普萊斯問道:“循環神經網絡不僅要輸入當前序列的數據。
還要輸入上一時刻循環神經網絡隱藏層參數的信息。
這樣才能很好地處理序列之間的關聯信息。
可是給我的感覺是LIN HUI算法中應用的那個神經網絡雖然有循環神經網絡的影子。
但是似乎又和傳統的循環神經網絡有些不一樣啊?”
埃克萊爾·基爾卡加嘀咕道:“確實如此,一般的循環神經網絡適合處理序列結構,但是卻不擅長處理長序列結構……”
沉吟之際,埃克萊爾·基爾卡加突然想到了什麽,呼喊道:
“我知道了,一定是LSTM神經網絡!”
哈雷·普萊斯被埃克萊爾·基爾卡加突然的呼喊嚇了一跳。
不過埃克萊爾·基爾卡加提到的LSTM神經網絡卻也讓他眼前一亮。
或許我們可以參照LIN HUI的思路搞一個自己的衡量標準……”
埃克萊爾·基爾卡加:“你說的這個問題我倒是也設想過。
可是參照LIN HUI的構建標準的過程進行模型構建並不容易。
按照LIN HUI的思路構建類似的標準的話。
首先我們需要運用語言模型來評估算法生成語言的流暢度,然後…
如果我們按照同樣的步驟進行模型構建的話。
很可能會直接卡死在語言模型的構建上。
畢竟我們的語料庫實在是太遜了……
我們以前合作的麻省理工學院NLP那邊給出的報告
也證實了按LIN HUI的思路構建語言模型不可行。”
哈雷·普萊斯:“麻省理工學院那幫人認為不可行,未必就真的不可行。
他們很有可能是他們在逃避責任而已。
反正我覺得完全可以試著借鑒LIN HUI的思路搞一個新的衡量標準。”
埃克萊爾·基爾卡加:“你確定我們能夠按照LIN HUI的思路弄出一個新模型麽?
你怎麽保證我們弄出的模型不會跟他搞得那個一模一樣?”
哈雷·普萊斯:“不管怎麽說,我們也需要走這條路。
如果我們連他衡量準確度的模型都不能複現出來。
我們怎麽知道他在這套模型究竟有沒有貓膩?”
哈雷·普萊斯接著道:“以前我們的語料庫或許很low。
但現在我們采用的語料庫沒什麽問題。
現在是加州大學伯克利分校的自然語言中心在和我們合作。
我們測試X1驗證算法時可是由10萬個文本–摘要序列所組成的語料庫作訓練集的……”
埃克萊爾·基爾卡加反駁道:“不不不,這遠遠不夠!
想要達到LIN HUI算法處理文本那種水平,我們起碼需要百萬級別文本-摘要序列組成的語料庫做訓練集。
而這還隻是冰山一角。
我們還需要構建一個10^4級別帶人工打分標簽的文本–摘要序列作為驗證集。
以及一個10^3級別的個人工交叉打分一致的文本–摘要序列作為測試集。
否則我們的衡量模型很可能達不到LIN HUI搞得那個模型那種置信度。”
哈雷·普萊斯:“你的話確實有道理!
為了縮小邊際誤差最實際的方法就是增加樣本數量。
百萬級別文本-摘要序列組成的語料庫倒是好說。
這個相比於十萬級別的語料庫。
構建難度隻是線性增加而已。
但是你確定我們要構建你說的那般龐大的帶人工標記的驗證集和測試集嗎?
僅僅是帶人工打分標簽的文本–摘要序列驗證集保守估計就需要我們花費近一個月的時間去搭建。
這還得是我們還其他語言學專業通力合作不產生嫌隙的情況下。
而涉及到10^3級別人工交叉打分一致的文本–摘要序列測試集更是難上加難。
<a id="wzsy" href="http://m.cxzww.com">暢想中文網</a>
以前我們隻構建過10^2級別的。
測試集的搭建每上漲一個數量級相應的構建難度可是指數級的往上增長。
先前我們為測試提取式摘要算法構建的那個150條文本交叉打分一致的測試集就用了將近兩個月的時間。”
而且為什麽我們還要引入人工因素?
這樣的話不是相當於又回到以前開發那種帶有主觀色彩的準確度評判標準的老路上了嗎?”
埃克萊爾·基爾卡加:“這也正是我想表達的意思。
本來我也覺得不可能參照LIN HUI的思路搞出新的衡量標準。
即便我們能按著LIN HUI的技術路線走。
也會麵臨著過於龐大的工作量。”
聽了埃克萊爾·基爾卡加的話。
哈雷·普萊斯很絕望:“也就是說僅僅是建立準確度衡量標準時的起步工作就會耗費我們大量的時間?
可是負責決策的那些高層根本不可能坐視我們在這個算法上浪費太多時間。
他們很可能會去直接謀求LIN HUI的算法授權。
對於那些商業精英來說,技術什麽的本來就是資本遊戲的添頭。
當他們獲得LIN HUI的新技術後我們估計會很慘……
我們究竟該怎麽辦呢?”
埃克萊爾·基爾卡加:“誰知道呢?興許我們該收拾收拾準備去y度了。”
哈雷·普萊斯:“能去y度還不錯呢,聽說最近在籌建穀歌非洲研究中心了。
運氣不好的話,估計我們要去非洲了。”
埃克萊爾·基爾卡加:。。。
當然了這些話隻是調侃而已。
好歹也是頂尖研究機構的科研人員。
埃克萊爾·基爾卡加還不是那麽容易就喪失鬥誌。
過了一會兒,埃克萊爾·基爾卡加道:“倒也不完全是無計可施。
我覺得我們不要按照LIN HUI的技術路線走。
這個LIN HUI太狡猾!
他公開在外麵的信息很可能是留下來誤導我們的。
我們現在要做的是明確憑借我們自身歸納出的一些結論。”
埃克萊爾·基爾卡加接著道:“按照以往我們的研究得到的規律。
神經網絡的前一個輸入和後一個輸入是沒有關係的。
沒辦法處理序列數據這種前後輸入是有關聯信息的數據。
而LIN HUI在生成式摘要算法中提到的技術路線裏麵明確表示了要將文本信息通過向量來實現序列化標記之後再進一步處理。
在這種情況下,我覺得LIN HUI所提出的算法裏麵應用的絕對不是一般的神經網絡。
LIN HUI在生成式摘要算法中應用的大概率是循環神經網絡。
畢竟循環神經網路的結構非常適合用於處理序列信息。”
埃克萊爾·基爾卡加的話讓哈雷·普萊斯眼前一亮,不過旋即新的疑惑也隨之產生。
哈雷·普萊斯問道:“循環神經網絡不僅要輸入當前序列的數據。
還要輸入上一時刻循環神經網絡隱藏層參數的信息。
這樣才能很好地處理序列之間的關聯信息。
可是給我的感覺是LIN HUI算法中應用的那個神經網絡雖然有循環神經網絡的影子。
但是似乎又和傳統的循環神經網絡有些不一樣啊?”
埃克萊爾·基爾卡加嘀咕道:“確實如此,一般的循環神經網絡適合處理序列結構,但是卻不擅長處理長序列結構……”
沉吟之際,埃克萊爾·基爾卡加突然想到了什麽,呼喊道:
“我知道了,一定是LSTM神經網絡!”
哈雷·普萊斯被埃克萊爾·基爾卡加突然的呼喊嚇了一跳。
不過埃克萊爾·基爾卡加提到的LSTM神經網絡卻也讓他眼前一亮。