米娜·卡莉對中國還算熟悉。
但伊芙·卡莉還是第一次來到這個古老的東方國度。
這一路上的經曆對她來說就是一次新奇的探險。
盡管妹妹就在帝都,但她幾乎從未設想過要來中國。
此次之所以成行造訪中國還是因為埃瓦爾德·切瑞的建議。
當然,這隻是一方麵原因。
另一方麵是因為林灰在北域,這才是她來到中國最重要的原因。
她迫不及待地想和這位構建出生成式摘要算法的超級天才見麵。
飛抵帝都國際機場之後,經過了一係列必不可少的入境流程之後。
伊芙·卡莉幾乎片刻也沒在帝都逗留,跟米娜·卡莉會合之後二人就乘機直抵北域。
而按照水木和麻省理工方麵先前協商安排好的流程。
在23號到25號這三天,六場學術座談會原本是有三場學術座談會都是需要伊芙·卡莉列席參加的。
但伊芙·卡莉滿腦子都是林灰,渾然沒什麽參加學術會議的興致。
因此這些學術會議全都被伊芙·卡莉以生病作為借口而推脫了。
林灰,這麽一個遠在萬裏之外的陌生人值得讓伊芙·卡莉這麽激動麽?
當然值得,不是相關領域的研究人員很難領略到林灰先前提出的生成式摘要算法意味著什麽。
正如埃瓦爾德·切瑞先前說的那樣:“LIN HUI的出現就像是幽暗而又夐遠的莽原上突然出現的一束耀眼的光。在自然語言處理文本摘要這個細分領域,無論怎樣褒揚他都不算過分。”
這種說法毫不誇張。
作為文本摘要領域頂尖研究小組的負責人,伊芙·卡莉很清楚之所以她們沒能先LIN HUI一步搞出生成式摘要算法,不是因為他們不努力,而是因為現有的自然語言處理涉及到文本摘要這方麵的研究很大程度是走到了死胡同。
在這種情況下,別的算法團隊如果是按照他們的研究思路,即便是將他們超越也不可能將他們超越太多。
而林灰提出的生成式文本摘要算法卻輕而易舉的碾壓他們先前的研究成果。
這意味著什麽不言而喻。
在這種情況下,對於自然語言處理這方麵的研究人員來說林灰提出生成式摘要算法最大的意義不在於這個算法本身的價值如何如何,而在於林灰大概率是在自然語言處理這方麵新打開了一扇門。
正因為如此,林灰在生成式文本摘要算法上的研究成果才會受到麻省理工學院的高度重視。
同樣是因為如此,先前她發給林灰請求見上一麵的郵件得到林灰的同意之後她才會那麽開心。
她似乎聽到林灰在向她發出呼喚:“通往全新世界的大門就在那裏,你渴望推開那扇門麽?”
雖然這種感覺是伊芙·卡莉的腦補,但即便有一絲一毫這種可能,伊芙·卡莉也不會放棄。
科學領域上能夠推開一扇新的門,這意味著什麽呢?
意味著這是一件極有可能載入科學發展史冊的事情!
像伊芙·卡莉這種層次的科研人員對金錢這樣的“利”感覺可能一般般。
但對於能夠載入科學發展史冊的“名”卻不是所有人能都夠坦然自若的說“不”。
反正伊芙·卡莉感覺她麵對這樣的機會是絲毫不能抗拒。
雖然心中充滿了美好的願景,但在和林灰會麵之前伊芙·卡莉心情也不完全是激動。
伊芙·卡莉還隱隱約約有一絲擔心,她很擔心她跟林灰的見麵並不像想象中的那麽順利。
<a id="wzsy" href="http://www.yawenku.com">yawenku.com</a>
因為沒見到林灰的時候,伊芙·卡莉已然知道了林灰是個年僅十八歲的天才。
少年成名的天才固然很讓人仰望,但並不是所有人都希望身邊有一個這樣的天才。
伊芙·卡莉以前沒少見過年少成名的天才,畢竟計算機以及計算機衍生領域最不缺的就是天才。
因為經常邂逅天才,伊芙·卡莉的腦海中對這種年少成名的天才多多少少都有點刻板印象。
基於這些刻板的印象,伊芙·卡莉雖然對林灰有過很多種種設想。
但這些設想基本離不開年輕、聰明、狂傲、偏激、自大、出言無狀、輕慢之類的標簽。
不過縱然料想林灰可能會有很多缺點。
伊芙·卡莉的內心深處已然做好了容忍林灰狂傲、偏激、自大等缺點的準備。
畢竟她是懷著學習的心態才來到這個東方國度的。
在跟林灰見麵之前,伊芙·卡莉對跟林灰將要發生的交流唯一的期盼就是:
——除卻收獲到無理的冒犯之外,多多少少能獲得一些學術方麵有價值的信息。
等真的見到林灰之後,她才發現她先前的想法多多少少有點跑偏。
林灰確實很年輕很聰明。
但全然沒有她先前她設想的那般狂傲、偏激、自大。
非但沒有她先前設想的那般狂傲偏激自大。
林灰人很帥,性格很好,謙虛儒雅,言談舉止間還很照顧別人的感受,給人很舒服的感覺。
除了性格和煦之外,林灰在待人接物方麵還很周到。
此次進行交流的公寓樓,雖然不甚華麗,但勝在環境優美。
最妙的是距離此處不遠還有一個人工湖,這和伊芙·卡莉以前工作的地方多多少少有些相似。
而且這次學術交流的形式和伊芙·卡莉以前團隊交流的方式很相似。
幾個誌趣愛好相同的人聚在一起,以閑談的形式展開。
這一切讓伊芙·卡莉在異國他鄉收獲到了一份難得的親切感。
這些周到的安排讓伊芙·卡莉受寵若驚。
除卻這些,伊芙·卡莉最在乎的還是林灰在學術上的態度。
而最讓伊芙·卡莉意外的也是林灰在學術上的態度。
雖然林灰在研究成果上領先別人一大截,但林灰在學術上全然沒有學閥的架子。
林灰很擅長傾聽。
這是一件極其難得的事情。
在自然語言處理專家學者裏麵找一位擅於傾聽的專家似乎比在地球上找一隻大熊貓還要難。
很多自然語言處理的專家學者都是計算機從業人員出身。
在伊芙·卡莉印象中,這類人員向來都是自顧自的表達,最不擅長的就是傾聽。
或許並非不擅長傾聽,隻是單純的不喜歡傾聽。
似乎傾聽別人的思維路線和研究現狀很容易讓他們想起早年debug時的痛苦經曆一般。
但在林灰這裏情況卻很不一樣,林灰很善於傾聽。
在座談會剛一開始的時候,原本伊芙·卡莉是打算讓林灰先發表意見。
結果卻被林灰示意讓她先說,這讓伊芙·卡莉很不適應。
一時半會她竟不知道該說什麽好,隻能將前不久她發給林灰的郵件再次詳細地加以闡述。
伊芙·卡莉之所以介紹這方麵,除了想不到合適的話題切入點這個原因之外。
還有另一重原因,那就是伊芙·卡莉很好奇林灰在LH文本摘要模型的構建時究竟是如何評估文本相似度的。
但這個問題伊芙·卡莉也不好意思直接問,隻好旁敲側擊。
剛開始表述的時候伊芙·卡莉還有點緊張,很怕贅述郵件上重複的內容引起林灰的不滿。
但林灰似乎毫不介意,就那樣認真地聽她陳述。
林灰這種態度讓伊芙·卡莉沒那麽緊張了。
在陳述的時候,伊芙·卡莉注意到一個小細節:
在機場往回來的路上,當她向林灰建議找個翻譯進行同傳的時候林灰幾乎不假思索就同意了。
但在實際溝通的時候,伊芙·卡莉從林灰的一些反應判斷出林灰其實是能直接聽懂她所表達的內容的。
既然如此,林灰當初為什麽還答應她的請求?
而不是直接丟掉翻譯跟她溝通呢?
或許這一切都是為了給予對等的尊重吧!
這份對等的尊重不光是給予伊芙·卡莉的,主要是給予米娜·卡莉的。
試想一下,如果林灰壓根不需要翻譯就能和伊芙·卡莉交談。
似乎最尷尬要數跟伊芙·卡莉一塊同行的米娜·卡莉了。
一個男人能夠做到這份細心確實不容易。
伊芙·卡莉對林灰的好感增添了零點幾個百分點。
妹妹似乎也注意到林灰在同傳方麵這個善解人意的做法了。
伊芙·卡莉注意到米娜·卡莉有意無意地不知道撩動過幾回頭發了。
當然米娜的示好也可能僅僅是因為林灰的顏值。
按理說東方男性的外貌在西方人眼裏是很難區分的。
但人帥到一定程度是超越地域局限的。
林灰似乎就是這種情況,哪怕以最苛刻的審美體係來評判,林灰的顏值也能打99分,滿分10分。
第一眼看到林灰時,如果不是林灰主動表露身份,伊芙·卡莉甚至覺得林灰的身份會是一個模特。
當然這些都是題外話了。
注意到林灰在細節方麵有意無意釋放的善意之後。
伊芙·卡莉在進行陳述的時候徹底放鬆了下來。
在向林灰著重介紹了這個時空裏人們是如何評估文本相似度的。
伊芙·卡莉注意到林灰聽說她的團隊先前是利用基於網絡知識的方法來評估文本相似度時眉毛蹙了一下。
莫非是林灰並不認同基於網絡知識評估文本相似度的方法?
還是說林灰覺得有什麽方法比這種方法更好呢?
伊芙·卡莉默默將這件事記在心裏。
在伊芙·卡莉陳述完成後。
林灰領略到了她的意思。
不過卻並沒有正麵回答伊芙·卡莉的問題。
而是反問伊芙·卡莉:“為什麽不考慮使用向量介入到文本相似度評估呢?”
雖然這是林灰在這次交流中提出的第一個問題。
但這個問題讓伊芙·卡莉多少有點措手不及。
早期在機器識別文本時為了要機器識別自然語言,往往將自然語言數值化。
而後再將這些數值通過向量化後進行屬性區分。
這種方法不算新鮮,伊芙·卡莉記得在1977年(這個時空)就有研究人員首次提出向量空間模型VSM了。
當時這種研究方法還比較受歡迎,但也僅僅是當時而已。
很快這種方法就被發現了有不小的漏洞。
利用VSM方法的話,當文本量很大時,生成的文本向量是非常稀疏的,這就導致了空間和計算資源的浪費;
另外VSM為達到簡化模型的效果忽略了詞語間的關係,而在很多情況下詞語之間是存在聯係的,因此簡單地認為詞語間相互獨立是不合理的。
這距今已經有近四十年的曆史了,現在這種研究方法似乎已經被遺忘了。
雖然四十年後,當年遇到的所謂的“空間和計算資源浪費”某種程度上可以通過硬堆計算力可以暴力解決。
但這僅僅是能解決當年遇到的難題而已。
現在文本處理時麵對的信息量複雜程度和當年完全不可同日而語。
如果仍要向量化數據之後進行處理的話會帶來全新的困難:——維度爆炸!
維度災難(又名維度的詛咒)是一個最早由理查德·貝爾曼在考慮優化問題時首次提出來的術語,用來描述當(數學)空間維度增加時,分析和組織高維空間(通常有成百上千維),因體積指數增加而遇到各種問題場景。
當在數學空間上額外增加一個維度時,其體積會呈指數級的增長。
這樣的難題在低維空間中不會遇到。
比如物理空間很少會遇到這樣的問題,畢竟物理上通常隻用三維來建模。
說起來很神奇,盡管物理上很難遇到維度爆炸問題。
但在自然語言處理、機器學習方麵維度爆炸是常有的事情。
如果按照林灰提到的引入詞向量來將單詞進行向量化時。
隨便一點信息量都會輕而易舉地突破三維。
其實在很多領域中,如采樣、組合數學、機器學習和數據挖掘都有提及到這個名字的現象。
這些問題的共同特色是當維數提高時,空間的體積提高太快,因而可用數據變得很稀疏。
在高維空間中,當所有的數據都變得很稀疏,從很多角度看都不相似,因而平常使用的數據組織策略變得極其低效。
不過在機器學習、自然語言處理方向的維度爆炸並不是那麽容易解決的。
林灰為什麽突然提到這個東西呢?
莫非他有什麽更好的解決方案麽?
可是維度神馬的就擺在那裏,莫非能平白無故的降維?
第155章 爆炸了的維度
但伊芙·卡莉還是第一次來到這個古老的東方國度。
這一路上的經曆對她來說就是一次新奇的探險。
盡管妹妹就在帝都,但她幾乎從未設想過要來中國。
此次之所以成行造訪中國還是因為埃瓦爾德·切瑞的建議。
當然,這隻是一方麵原因。
另一方麵是因為林灰在北域,這才是她來到中國最重要的原因。
她迫不及待地想和這位構建出生成式摘要算法的超級天才見麵。
飛抵帝都國際機場之後,經過了一係列必不可少的入境流程之後。
伊芙·卡莉幾乎片刻也沒在帝都逗留,跟米娜·卡莉會合之後二人就乘機直抵北域。
而按照水木和麻省理工方麵先前協商安排好的流程。
在23號到25號這三天,六場學術座談會原本是有三場學術座談會都是需要伊芙·卡莉列席參加的。
但伊芙·卡莉滿腦子都是林灰,渾然沒什麽參加學術會議的興致。
因此這些學術會議全都被伊芙·卡莉以生病作為借口而推脫了。
林灰,這麽一個遠在萬裏之外的陌生人值得讓伊芙·卡莉這麽激動麽?
當然值得,不是相關領域的研究人員很難領略到林灰先前提出的生成式摘要算法意味著什麽。
正如埃瓦爾德·切瑞先前說的那樣:“LIN HUI的出現就像是幽暗而又夐遠的莽原上突然出現的一束耀眼的光。在自然語言處理文本摘要這個細分領域,無論怎樣褒揚他都不算過分。”
這種說法毫不誇張。
作為文本摘要領域頂尖研究小組的負責人,伊芙·卡莉很清楚之所以她們沒能先LIN HUI一步搞出生成式摘要算法,不是因為他們不努力,而是因為現有的自然語言處理涉及到文本摘要這方麵的研究很大程度是走到了死胡同。
在這種情況下,別的算法團隊如果是按照他們的研究思路,即便是將他們超越也不可能將他們超越太多。
而林灰提出的生成式文本摘要算法卻輕而易舉的碾壓他們先前的研究成果。
這意味著什麽不言而喻。
在這種情況下,對於自然語言處理這方麵的研究人員來說林灰提出生成式摘要算法最大的意義不在於這個算法本身的價值如何如何,而在於林灰大概率是在自然語言處理這方麵新打開了一扇門。
正因為如此,林灰在生成式文本摘要算法上的研究成果才會受到麻省理工學院的高度重視。
同樣是因為如此,先前她發給林灰請求見上一麵的郵件得到林灰的同意之後她才會那麽開心。
她似乎聽到林灰在向她發出呼喚:“通往全新世界的大門就在那裏,你渴望推開那扇門麽?”
雖然這種感覺是伊芙·卡莉的腦補,但即便有一絲一毫這種可能,伊芙·卡莉也不會放棄。
科學領域上能夠推開一扇新的門,這意味著什麽呢?
意味著這是一件極有可能載入科學發展史冊的事情!
像伊芙·卡莉這種層次的科研人員對金錢這樣的“利”感覺可能一般般。
但對於能夠載入科學發展史冊的“名”卻不是所有人能都夠坦然自若的說“不”。
反正伊芙·卡莉感覺她麵對這樣的機會是絲毫不能抗拒。
雖然心中充滿了美好的願景,但在和林灰會麵之前伊芙·卡莉心情也不完全是激動。
伊芙·卡莉還隱隱約約有一絲擔心,她很擔心她跟林灰的見麵並不像想象中的那麽順利。
<a id="wzsy" href="http://www.yawenku.com">yawenku.com</a>
因為沒見到林灰的時候,伊芙·卡莉已然知道了林灰是個年僅十八歲的天才。
少年成名的天才固然很讓人仰望,但並不是所有人都希望身邊有一個這樣的天才。
伊芙·卡莉以前沒少見過年少成名的天才,畢竟計算機以及計算機衍生領域最不缺的就是天才。
因為經常邂逅天才,伊芙·卡莉的腦海中對這種年少成名的天才多多少少都有點刻板印象。
基於這些刻板的印象,伊芙·卡莉雖然對林灰有過很多種種設想。
但這些設想基本離不開年輕、聰明、狂傲、偏激、自大、出言無狀、輕慢之類的標簽。
不過縱然料想林灰可能會有很多缺點。
伊芙·卡莉的內心深處已然做好了容忍林灰狂傲、偏激、自大等缺點的準備。
畢竟她是懷著學習的心態才來到這個東方國度的。
在跟林灰見麵之前,伊芙·卡莉對跟林灰將要發生的交流唯一的期盼就是:
——除卻收獲到無理的冒犯之外,多多少少能獲得一些學術方麵有價值的信息。
等真的見到林灰之後,她才發現她先前的想法多多少少有點跑偏。
林灰確實很年輕很聰明。
但全然沒有她先前她設想的那般狂傲、偏激、自大。
非但沒有她先前設想的那般狂傲偏激自大。
林灰人很帥,性格很好,謙虛儒雅,言談舉止間還很照顧別人的感受,給人很舒服的感覺。
除了性格和煦之外,林灰在待人接物方麵還很周到。
此次進行交流的公寓樓,雖然不甚華麗,但勝在環境優美。
最妙的是距離此處不遠還有一個人工湖,這和伊芙·卡莉以前工作的地方多多少少有些相似。
而且這次學術交流的形式和伊芙·卡莉以前團隊交流的方式很相似。
幾個誌趣愛好相同的人聚在一起,以閑談的形式展開。
這一切讓伊芙·卡莉在異國他鄉收獲到了一份難得的親切感。
這些周到的安排讓伊芙·卡莉受寵若驚。
除卻這些,伊芙·卡莉最在乎的還是林灰在學術上的態度。
而最讓伊芙·卡莉意外的也是林灰在學術上的態度。
雖然林灰在研究成果上領先別人一大截,但林灰在學術上全然沒有學閥的架子。
林灰很擅長傾聽。
這是一件極其難得的事情。
在自然語言處理專家學者裏麵找一位擅於傾聽的專家似乎比在地球上找一隻大熊貓還要難。
很多自然語言處理的專家學者都是計算機從業人員出身。
在伊芙·卡莉印象中,這類人員向來都是自顧自的表達,最不擅長的就是傾聽。
或許並非不擅長傾聽,隻是單純的不喜歡傾聽。
似乎傾聽別人的思維路線和研究現狀很容易讓他們想起早年debug時的痛苦經曆一般。
但在林灰這裏情況卻很不一樣,林灰很善於傾聽。
在座談會剛一開始的時候,原本伊芙·卡莉是打算讓林灰先發表意見。
結果卻被林灰示意讓她先說,這讓伊芙·卡莉很不適應。
一時半會她竟不知道該說什麽好,隻能將前不久她發給林灰的郵件再次詳細地加以闡述。
伊芙·卡莉之所以介紹這方麵,除了想不到合適的話題切入點這個原因之外。
還有另一重原因,那就是伊芙·卡莉很好奇林灰在LH文本摘要模型的構建時究竟是如何評估文本相似度的。
但這個問題伊芙·卡莉也不好意思直接問,隻好旁敲側擊。
剛開始表述的時候伊芙·卡莉還有點緊張,很怕贅述郵件上重複的內容引起林灰的不滿。
但林灰似乎毫不介意,就那樣認真地聽她陳述。
林灰這種態度讓伊芙·卡莉沒那麽緊張了。
在陳述的時候,伊芙·卡莉注意到一個小細節:
在機場往回來的路上,當她向林灰建議找個翻譯進行同傳的時候林灰幾乎不假思索就同意了。
但在實際溝通的時候,伊芙·卡莉從林灰的一些反應判斷出林灰其實是能直接聽懂她所表達的內容的。
既然如此,林灰當初為什麽還答應她的請求?
而不是直接丟掉翻譯跟她溝通呢?
或許這一切都是為了給予對等的尊重吧!
這份對等的尊重不光是給予伊芙·卡莉的,主要是給予米娜·卡莉的。
試想一下,如果林灰壓根不需要翻譯就能和伊芙·卡莉交談。
似乎最尷尬要數跟伊芙·卡莉一塊同行的米娜·卡莉了。
一個男人能夠做到這份細心確實不容易。
伊芙·卡莉對林灰的好感增添了零點幾個百分點。
妹妹似乎也注意到林灰在同傳方麵這個善解人意的做法了。
伊芙·卡莉注意到米娜·卡莉有意無意地不知道撩動過幾回頭發了。
當然米娜的示好也可能僅僅是因為林灰的顏值。
按理說東方男性的外貌在西方人眼裏是很難區分的。
但人帥到一定程度是超越地域局限的。
林灰似乎就是這種情況,哪怕以最苛刻的審美體係來評判,林灰的顏值也能打99分,滿分10分。
第一眼看到林灰時,如果不是林灰主動表露身份,伊芙·卡莉甚至覺得林灰的身份會是一個模特。
當然這些都是題外話了。
注意到林灰在細節方麵有意無意釋放的善意之後。
伊芙·卡莉在進行陳述的時候徹底放鬆了下來。
在向林灰著重介紹了這個時空裏人們是如何評估文本相似度的。
伊芙·卡莉注意到林灰聽說她的團隊先前是利用基於網絡知識的方法來評估文本相似度時眉毛蹙了一下。
莫非是林灰並不認同基於網絡知識評估文本相似度的方法?
還是說林灰覺得有什麽方法比這種方法更好呢?
伊芙·卡莉默默將這件事記在心裏。
在伊芙·卡莉陳述完成後。
林灰領略到了她的意思。
不過卻並沒有正麵回答伊芙·卡莉的問題。
而是反問伊芙·卡莉:“為什麽不考慮使用向量介入到文本相似度評估呢?”
雖然這是林灰在這次交流中提出的第一個問題。
但這個問題讓伊芙·卡莉多少有點措手不及。
早期在機器識別文本時為了要機器識別自然語言,往往將自然語言數值化。
而後再將這些數值通過向量化後進行屬性區分。
這種方法不算新鮮,伊芙·卡莉記得在1977年(這個時空)就有研究人員首次提出向量空間模型VSM了。
當時這種研究方法還比較受歡迎,但也僅僅是當時而已。
很快這種方法就被發現了有不小的漏洞。
利用VSM方法的話,當文本量很大時,生成的文本向量是非常稀疏的,這就導致了空間和計算資源的浪費;
另外VSM為達到簡化模型的效果忽略了詞語間的關係,而在很多情況下詞語之間是存在聯係的,因此簡單地認為詞語間相互獨立是不合理的。
這距今已經有近四十年的曆史了,現在這種研究方法似乎已經被遺忘了。
雖然四十年後,當年遇到的所謂的“空間和計算資源浪費”某種程度上可以通過硬堆計算力可以暴力解決。
但這僅僅是能解決當年遇到的難題而已。
現在文本處理時麵對的信息量複雜程度和當年完全不可同日而語。
如果仍要向量化數據之後進行處理的話會帶來全新的困難:——維度爆炸!
維度災難(又名維度的詛咒)是一個最早由理查德·貝爾曼在考慮優化問題時首次提出來的術語,用來描述當(數學)空間維度增加時,分析和組織高維空間(通常有成百上千維),因體積指數增加而遇到各種問題場景。
當在數學空間上額外增加一個維度時,其體積會呈指數級的增長。
這樣的難題在低維空間中不會遇到。
比如物理空間很少會遇到這樣的問題,畢竟物理上通常隻用三維來建模。
說起來很神奇,盡管物理上很難遇到維度爆炸問題。
但在自然語言處理、機器學習方麵維度爆炸是常有的事情。
如果按照林灰提到的引入詞向量來將單詞進行向量化時。
隨便一點信息量都會輕而易舉地突破三維。
其實在很多領域中,如采樣、組合數學、機器學習和數據挖掘都有提及到這個名字的現象。
這些問題的共同特色是當維數提高時,空間的體積提高太快,因而可用數據變得很稀疏。
在高維空間中,當所有的數據都變得很稀疏,從很多角度看都不相似,因而平常使用的數據組織策略變得極其低效。
不過在機器學習、自然語言處理方向的維度爆炸並不是那麽容易解決的。
林灰為什麽突然提到這個東西呢?
莫非他有什麽更好的解決方案麽?
可是維度神馬的就擺在那裏,莫非能平白無故的降維?
第155章 爆炸了的維度