……
伊芙·卡莉在郵件裏不光表達了她對林灰鼓搗的生成式文本摘要算法的好奇。
還向林灰闡述了很多她在文本摘要研究過程中遇到的一些困難。
說實話,林灰並不是很擅長解答別人的困惑。
不過,正所謂獨學則無友孤陋則寡聞。
林灰蠻好奇伊芙·卡莉在研究過程中遇到了哪些瓶頸。
興許伊芙·卡莉的一些見解會對林灰有所啟發。
花了不短的時間,林灰才將郵件主體內容看了個大概。
林灰前世工作中沒少看英文論文。
否則,想理解伊芙·卡莉發來的郵件還真不是一件容易的事情。
沒辦法,伊芙·卡莉表達困惑的方式有點過於硬核。
林灰覺得伊芙·卡莉發來的這個郵件的主體內容略微改動一下的話都可以當成一篇綜述直接往灌水期刊上發。
當然了,這僅僅是一種比喻,實際上即便能灌水也不要輕易灌水,論文灌水很容易成為學術生涯上的一個汙點。
讓林灰比較意外的是。
伊芙·卡莉在郵件中還給林灰大致介紹了一下西方學術界對於文本摘要的研究情況。
這對於此時的林灰來說尤為有價值。
畢竟各種學報論文之類的公開內容,基本上都是隻談進展不談挫折。
從伊芙·卡莉介紹的內容來看。
這個時空,西方對於文本摘要方麵的研究進展和前世那個時空的西方對文本摘要的研究情況細微之處有些差別。
但客觀地講,差別其實不是太大。
也可以理解,涉及到文本摘要的研究其實由來已久。
無論是前世還是今生,東西方在文本摘要上都會花費很多心血,這種情況下兩個時空即便有差別本質上差別也不是很大。
當然,這種所謂的差別不是很大,僅僅是說這個時空和前世2014年那個時間節點相差不大。
有額外7年的信息,林灰還是占得先機的。
說起兩個時空的人們為什麽都對文本摘要傾注大量的心血。
其實是有原因的,文本作為信息的重要載體,研究文本信息的高度凝練化對於人們快速而準確地獲取所需內容具有重要意義。
對文本摘要的研究由來已久,但實際上對於文本摘要的深入研究還是在新世紀才大規模進行。
之所以文本摘要的研究突然被重視起來。
是因為互聯網技術的迅速發展,海量信息在互聯網中不斷湧現。
不提高對文本處理的能力,即便是海量信息湧現出來,這些信息也注定淹沒在信息海洋中淪為無價值的垃圾信息。
前幾年,大數據概念開始興起。
對文本摘要的研究的重視程度更是達到一個新台階。
衡量文本摘要的意義不能僅僅局限在文本本身。
要知道涉及到文本處理,表麵上看是僅僅是和文字語言有關係。
但實際上這門學問不僅是涉及到文本,還包括對信息、物質和文化的深層次探索。
這樣一種深入的研究,讓整個文明都在進步。
從這個層麵來說,文本摘要對人們的影響很大。
即便多數普通人的生活中察覺不到這玩意對人類的影響。
但並不能因此說文本摘要不重要。
對信息的研究越深入,我們就越能了解到這個世界。
除此之外,對文本摘要的深入研究,某種程度上可以開啟人的心智。
文本摘要的深度探索,讓我們對信息的掌控更強。
也正是因為上述原因,無論是哪個時空。
世界上很多國家都在對文本的探索。
人類社會記錄方式的進步,某種程度上就集中表現在文本的不同凝練形式上。
文本的探索,對於一些大型企業來說,也是一項極為重要的工作。
涉及到文本摘要的發展,決定著一項又一項的產品的問世。
對於文本的探索,不僅僅對文學的深入研究有著很高的促進性,同樣對於科技的推進有著巨大的促進作用。
總而言之,對文本摘要傾注些心血不過分。
畢竟這是林灰在技術領域方麵邁出的第一步。
說到伊芙·卡莉遇到的困惑。
林灰沒想到伊芙·卡莉的困惑主要集中在LH文本摘要準確度衡量模型的構建上。
林灰記得當時他關於這個模型構建已經闡述的夠清楚的了。
構建模型的話首先要運用語言模型來評估算法生成語言的流暢度,然後使用相似度模型評估文本和摘要之間的語義相關性,最後為了有效評估實體、專有詞的複現程度,引入原文信息量模型來評估。
雖然為了避免教會徒弟餓死師傅,林灰在這幾個步驟之間故意遺漏了一些瑣屑的步驟。
不過這種東西對於科研工作者來說,就像塹壕之於坦克。
雖然會有一些影響,但問題應該不大。
真的把所有的技術細節全部公布出來。
那也不能叫做公布技術路線了,那叫編教科書。
對於林灰提到的“運用語言模型來評估算法生成語言的流暢度”
伊芙·卡莉比較困惑林灰是怎麽搞定語言模型訓練的語料庫的?
這個問題往後幾年的話還真不是問題。
因為現成的語料庫就一大堆。
僅僅是簡體中文方麵的語料庫就有國家語委現代漢語語料庫、京大語料庫、語料庫語言學在線等若幹資源。
不過換到現在這個時空節點林灰顯然不能跟別人研究人員說他用的是現成的預料庫。
畢竟一些現成的語料庫基本都是16年左右才問世的。
盡管如此,如何解釋語料庫來源的問題難不倒林灰。
事實上即便沒有現成的語料庫,想要構建一個可堪一用的能調/教出早期生成式摘要算法的語料庫也不是太複雜。
<a id="wzsy" href="http://www.xiaoshuting.info">xiaoshuting.info</a>
最簡單的方式——借助互聯網可以自動構建文本語料庫。
當利用這種方法構建語料庫的時候,用戶隻需要提供所需的文本類別體係。
而後從互聯網中采集大量網站,提取並分析網站的內容層次結構和每個主題詞對應的網頁內容信息。
從每個網站中篩選出用戶所需要的文本作為候選語料。
這個過程其實不複雜,有點類似於爬蟲抓取網頁的過程。
比較困難的是這種方法形成的語料庫如何去噪。
但這對於林灰也不是問題。
隻需要將從多個網站中匹配上的同一文本類別的候選語料合並成每個類別的候選語料庫。
而後再對候選語料庫中每個類別下的文本進行去噪處理就可以提高語料庫的質量。
在完成去噪之後就可以輸出語料庫。
雖然這個過程實現起來仍舊不容易。
但學術領域上除了個別被孤立的杠精喜歡鑽牛角尖之外。
大多數情況下隻要邏輯自洽就沒人死磕。
除了好奇林灰是如何構建語料庫之外。
涉及到“使用相似度模型評估文本和摘要之間的語義相關性”
伊芙·卡莉比較好奇林灰究竟是使用何種相似度模型來評估文本摘要和摘要之間的語義相關的。
額,這個問題就比較涉及到林灰搞定的文本摘要準確度模型最核心的東西了。
關於這個問題的答案就不是三言兩語能說得清的了。
伊芙·卡莉在郵件裏不光表達了她對林灰鼓搗的生成式文本摘要算法的好奇。
還向林灰闡述了很多她在文本摘要研究過程中遇到的一些困難。
說實話,林灰並不是很擅長解答別人的困惑。
不過,正所謂獨學則無友孤陋則寡聞。
林灰蠻好奇伊芙·卡莉在研究過程中遇到了哪些瓶頸。
興許伊芙·卡莉的一些見解會對林灰有所啟發。
花了不短的時間,林灰才將郵件主體內容看了個大概。
林灰前世工作中沒少看英文論文。
否則,想理解伊芙·卡莉發來的郵件還真不是一件容易的事情。
沒辦法,伊芙·卡莉表達困惑的方式有點過於硬核。
林灰覺得伊芙·卡莉發來的這個郵件的主體內容略微改動一下的話都可以當成一篇綜述直接往灌水期刊上發。
當然了,這僅僅是一種比喻,實際上即便能灌水也不要輕易灌水,論文灌水很容易成為學術生涯上的一個汙點。
讓林灰比較意外的是。
伊芙·卡莉在郵件中還給林灰大致介紹了一下西方學術界對於文本摘要的研究情況。
這對於此時的林灰來說尤為有價值。
畢竟各種學報論文之類的公開內容,基本上都是隻談進展不談挫折。
從伊芙·卡莉介紹的內容來看。
這個時空,西方對於文本摘要方麵的研究進展和前世那個時空的西方對文本摘要的研究情況細微之處有些差別。
但客觀地講,差別其實不是太大。
也可以理解,涉及到文本摘要的研究其實由來已久。
無論是前世還是今生,東西方在文本摘要上都會花費很多心血,這種情況下兩個時空即便有差別本質上差別也不是很大。
當然,這種所謂的差別不是很大,僅僅是說這個時空和前世2014年那個時間節點相差不大。
有額外7年的信息,林灰還是占得先機的。
說起兩個時空的人們為什麽都對文本摘要傾注大量的心血。
其實是有原因的,文本作為信息的重要載體,研究文本信息的高度凝練化對於人們快速而準確地獲取所需內容具有重要意義。
對文本摘要的研究由來已久,但實際上對於文本摘要的深入研究還是在新世紀才大規模進行。
之所以文本摘要的研究突然被重視起來。
是因為互聯網技術的迅速發展,海量信息在互聯網中不斷湧現。
不提高對文本處理的能力,即便是海量信息湧現出來,這些信息也注定淹沒在信息海洋中淪為無價值的垃圾信息。
前幾年,大數據概念開始興起。
對文本摘要的研究的重視程度更是達到一個新台階。
衡量文本摘要的意義不能僅僅局限在文本本身。
要知道涉及到文本處理,表麵上看是僅僅是和文字語言有關係。
但實際上這門學問不僅是涉及到文本,還包括對信息、物質和文化的深層次探索。
這樣一種深入的研究,讓整個文明都在進步。
從這個層麵來說,文本摘要對人們的影響很大。
即便多數普通人的生活中察覺不到這玩意對人類的影響。
但並不能因此說文本摘要不重要。
對信息的研究越深入,我們就越能了解到這個世界。
除此之外,對文本摘要的深入研究,某種程度上可以開啟人的心智。
文本摘要的深度探索,讓我們對信息的掌控更強。
也正是因為上述原因,無論是哪個時空。
世界上很多國家都在對文本的探索。
人類社會記錄方式的進步,某種程度上就集中表現在文本的不同凝練形式上。
文本的探索,對於一些大型企業來說,也是一項極為重要的工作。
涉及到文本摘要的發展,決定著一項又一項的產品的問世。
對於文本的探索,不僅僅對文學的深入研究有著很高的促進性,同樣對於科技的推進有著巨大的促進作用。
總而言之,對文本摘要傾注些心血不過分。
畢竟這是林灰在技術領域方麵邁出的第一步。
說到伊芙·卡莉遇到的困惑。
林灰沒想到伊芙·卡莉的困惑主要集中在LH文本摘要準確度衡量模型的構建上。
林灰記得當時他關於這個模型構建已經闡述的夠清楚的了。
構建模型的話首先要運用語言模型來評估算法生成語言的流暢度,然後使用相似度模型評估文本和摘要之間的語義相關性,最後為了有效評估實體、專有詞的複現程度,引入原文信息量模型來評估。
雖然為了避免教會徒弟餓死師傅,林灰在這幾個步驟之間故意遺漏了一些瑣屑的步驟。
不過這種東西對於科研工作者來說,就像塹壕之於坦克。
雖然會有一些影響,但問題應該不大。
真的把所有的技術細節全部公布出來。
那也不能叫做公布技術路線了,那叫編教科書。
對於林灰提到的“運用語言模型來評估算法生成語言的流暢度”
伊芙·卡莉比較困惑林灰是怎麽搞定語言模型訓練的語料庫的?
這個問題往後幾年的話還真不是問題。
因為現成的語料庫就一大堆。
僅僅是簡體中文方麵的語料庫就有國家語委現代漢語語料庫、京大語料庫、語料庫語言學在線等若幹資源。
不過換到現在這個時空節點林灰顯然不能跟別人研究人員說他用的是現成的預料庫。
畢竟一些現成的語料庫基本都是16年左右才問世的。
盡管如此,如何解釋語料庫來源的問題難不倒林灰。
事實上即便沒有現成的語料庫,想要構建一個可堪一用的能調/教出早期生成式摘要算法的語料庫也不是太複雜。
<a id="wzsy" href="http://www.xiaoshuting.info">xiaoshuting.info</a>
最簡單的方式——借助互聯網可以自動構建文本語料庫。
當利用這種方法構建語料庫的時候,用戶隻需要提供所需的文本類別體係。
而後從互聯網中采集大量網站,提取並分析網站的內容層次結構和每個主題詞對應的網頁內容信息。
從每個網站中篩選出用戶所需要的文本作為候選語料。
這個過程其實不複雜,有點類似於爬蟲抓取網頁的過程。
比較困難的是這種方法形成的語料庫如何去噪。
但這對於林灰也不是問題。
隻需要將從多個網站中匹配上的同一文本類別的候選語料合並成每個類別的候選語料庫。
而後再對候選語料庫中每個類別下的文本進行去噪處理就可以提高語料庫的質量。
在完成去噪之後就可以輸出語料庫。
雖然這個過程實現起來仍舊不容易。
但學術領域上除了個別被孤立的杠精喜歡鑽牛角尖之外。
大多數情況下隻要邏輯自洽就沒人死磕。
除了好奇林灰是如何構建語料庫之外。
涉及到“使用相似度模型評估文本和摘要之間的語義相關性”
伊芙·卡莉比較好奇林灰究竟是使用何種相似度模型來評估文本摘要和摘要之間的語義相關的。
額,這個問題就比較涉及到林灰搞定的文本摘要準確度模型最核心的東西了。
關於這個問題的答案就不是三言兩語能說得清的了。