第246章 訓練ai
員工超過國企,你說我沒貢獻? 作者:熋大 投票推薦 加入書簽 留言反饋
訓練ai是件大事,陸恒已經有成熟的技術,是係統根據現在的時間給出的最優技術方案。
但恒創掌握的數據其實並沒有度娘騰達這些成立很久的互聯網公司多。
頭條軟件也才運營半年罷了,目前用戶還沒破千萬,而且也隻是新聞類軟件,最好的訓練數據其實是包含用戶信息的數據。
比如評論、貼吧討論、前世的自媒體時代產生的大量文章。
但現在這些都沒有。
不過也有辦法解決,陸恒的解決方案也比較簡單,那就是使用書籍訓練。
從人類誕生到現在數千年產生的所有文字數據來訓練ai。
新技術的最大優點就是一種類人邏輯算法,最基礎的架構仿生人類思維,隨後投入任何數據都在增加知識寬度。
並不是前世那種靠著無數文字壘砌,計算前後文字字符出現概率等等。
因為參觀團就要到公司了,在這之前最好將ai助手也安裝在手機內,這樣才能帶來更大震撼,讓合作夥伴更有信心。
陸恒這幾天也參與到訓練ai當中。
公司總部還沒有完善,軟件工程師們目前還在老大廈工作,這並不會影響訓練ai的速度,ai就在服務器裏麵,不停投入數據就行了。
陸恒叫來楊程,公開版權的電子圖書數據已經用的差不多了,現在到了網絡小說產生的數據。
接下來還有論文數據庫的數據。
“買斷的小說現在有多少,愛閱小說書庫一共多少本書?”陸恒問道。
楊程有些疑惑陸恒怎麽關心起小說,他想了想回道:“字數達到百萬的差不多四五萬本吧,每天有近萬作者日更新4000字以上。”
愛閱小說前期發展比較困難,多數都是走的買斷路線。
再加上當初投資囧係列電影賺了不少錢,都花在了小說上。
這倒是方便陸恒使用這些數據訓練ai了。
數據量還不夠多,陸恒說道:“和陳總談一談吧,把啟點收購了,我們需要他們小說書庫用來訓練小說。”
記得前世再過兩年,啟點的團隊也會和陳天蕎的管理團隊發生衝突,最後帶著一批人出走成立了新的網站,現在應該也有不少矛盾了。
去年陳天蕎修改作者合同,想要掌控小說的更多版權話語權,也讓不少作者出走。
現在應該還是有希望收購小說網站。
陳天蕎和他有些矛盾,不過在利益麵前這都不是事兒。
當初陳總還在媒體麵前說,陸恒身價多少,和他比?
現在不過一年過去,再看當年他說的話,已經成為陳總的汙點之一了。
陸恒幾家公司加起來估值不說萬億級別,幾千億那是妥妥的,絕對的華國首富級別,反倒是陳天蕎在商場上聲音是越來越小,也沒折騰出什麽東西。
楊程倒是更加了解競爭對手,他皺眉道:“恐怕比較困難,現在陳總的盛達主要戰略就是文娛、遊戲了,小說網站是核心業務。”
“先去問問,實在不行那我們就用盜版數據訓練了!”陸恒說道。
現在還真是盜版泛濫,陸恒就算沒有收購成功,也能使用這些數據,並且對於作者來說到底有沒有侵犯他們的權益,也沒有法律法規作為先例。
畢竟訓練ai,到底使用了那些內容,很不好界定取證,而文字又屬於公開的內容。
就像是一個人看了盜版小說,產生了更多想法,那不能說這個人看了盜版小說就犯罪了吧。
ai也是差不多的,就和人看了小說產生更多想法類似,將來ai在使用文字時,也不會照搬吸取到數據庫的原生數據。
陸恒想要收購小說網站,也是為了以後持續獲得更多具有邏輯性的文字,而提前準備。
後麵楊程也沒走,在陸恒的邀請下一起見證一本小說被ai吸收消化後是什麽樣子。
ai叫做小恒,目前已經初步完成訓練,給它一本小說,幾秒鍾內就能提取出小說大綱,所有人物和對話,各種情節等等。
這些情節和對話,又能和無數本小說或者圖書的內容對比,最後形成一套思維邏輯閉環。
在麵對將來用戶的一些提問時,能夠找到最佳切入點,進行回複。
親眼看到一本小說被拆解,所有對話情節都被小恒吸收消化後,楊程目瞪口呆,他完全不知道公司還有這樣的技術!
簡直顛覆他的三觀,就像是睡了一覺醒來後發現,地球文明已經變成了科幻作品裏的文明一樣。
“這,這怎麽做到的?太誇張了吧,以後是不是根本不需要網絡小說作者了啊,ai就能代替人類寫小說?”楊程震驚的問道。
陸恒搖頭道:“小恒的確能寫小說,不過在創造性上很差,它擅長歸納總結,當然了要是我給它提供詳細大綱,主要情節走向,讓它豐富細節,比如人物景物描寫,小說人物對話等等,還是沒問題的。”
“我打算當初沒有完本的小說也繼續寫下去,不過不是我親自寫了,我弄一份大綱,到時候讓小恒去寫。”
“你們網站也不用擔心,未來這個功能不會開放出去,畢竟真要把內容開放出去後,對於新產出的文字內容質量,肯定要降低很多的。”
“小恒需要無數網絡作家用腦海裏的靈感,創作出一個又一個性格鮮明的角色,他們的對話都是小恒成長的養料。”
“接下來我們還要升級小恒的核心數據庫,讓它能夠處理視頻內容。”
“首先是將電視劇、電影、短劇、小品、評書等等內容,直接語音轉換成文字,然後丟到數據庫訓練小恒。”
“等到技術更加成熟,小恒甚至能閱讀分析人物表情,場景圖像,到時候將一部電影丟到數據庫,小恒很快就能分析出一大堆內容,甚至提出建議,哪些地方拍的不好....。”
楊程今天算是開了眼界了,原來恒創集團已經有這麽強大的技術。
他好奇道:“那未來小恒的使用場景有哪些呢?同聲翻譯、聊天軟件、論文分析、電影分析助手等等嗎?”
“當然不止這麽多,如今它就像是幼苗,需要我們澆灌才能成長,等到能夠分析圖像動作,靠著無數電影電視劇或者網絡上的所有人類活動的視頻信息,就能建立起一套動作模型,不管是人物的還是動物的,配套成熟的機器,甚至能造出機器人!”陸恒自信的說道。
但恒創掌握的數據其實並沒有度娘騰達這些成立很久的互聯網公司多。
頭條軟件也才運營半年罷了,目前用戶還沒破千萬,而且也隻是新聞類軟件,最好的訓練數據其實是包含用戶信息的數據。
比如評論、貼吧討論、前世的自媒體時代產生的大量文章。
但現在這些都沒有。
不過也有辦法解決,陸恒的解決方案也比較簡單,那就是使用書籍訓練。
從人類誕生到現在數千年產生的所有文字數據來訓練ai。
新技術的最大優點就是一種類人邏輯算法,最基礎的架構仿生人類思維,隨後投入任何數據都在增加知識寬度。
並不是前世那種靠著無數文字壘砌,計算前後文字字符出現概率等等。
因為參觀團就要到公司了,在這之前最好將ai助手也安裝在手機內,這樣才能帶來更大震撼,讓合作夥伴更有信心。
陸恒這幾天也參與到訓練ai當中。
公司總部還沒有完善,軟件工程師們目前還在老大廈工作,這並不會影響訓練ai的速度,ai就在服務器裏麵,不停投入數據就行了。
陸恒叫來楊程,公開版權的電子圖書數據已經用的差不多了,現在到了網絡小說產生的數據。
接下來還有論文數據庫的數據。
“買斷的小說現在有多少,愛閱小說書庫一共多少本書?”陸恒問道。
楊程有些疑惑陸恒怎麽關心起小說,他想了想回道:“字數達到百萬的差不多四五萬本吧,每天有近萬作者日更新4000字以上。”
愛閱小說前期發展比較困難,多數都是走的買斷路線。
再加上當初投資囧係列電影賺了不少錢,都花在了小說上。
這倒是方便陸恒使用這些數據訓練ai了。
數據量還不夠多,陸恒說道:“和陳總談一談吧,把啟點收購了,我們需要他們小說書庫用來訓練小說。”
記得前世再過兩年,啟點的團隊也會和陳天蕎的管理團隊發生衝突,最後帶著一批人出走成立了新的網站,現在應該也有不少矛盾了。
去年陳天蕎修改作者合同,想要掌控小說的更多版權話語權,也讓不少作者出走。
現在應該還是有希望收購小說網站。
陳天蕎和他有些矛盾,不過在利益麵前這都不是事兒。
當初陳總還在媒體麵前說,陸恒身價多少,和他比?
現在不過一年過去,再看當年他說的話,已經成為陳總的汙點之一了。
陸恒幾家公司加起來估值不說萬億級別,幾千億那是妥妥的,絕對的華國首富級別,反倒是陳天蕎在商場上聲音是越來越小,也沒折騰出什麽東西。
楊程倒是更加了解競爭對手,他皺眉道:“恐怕比較困難,現在陳總的盛達主要戰略就是文娛、遊戲了,小說網站是核心業務。”
“先去問問,實在不行那我們就用盜版數據訓練了!”陸恒說道。
現在還真是盜版泛濫,陸恒就算沒有收購成功,也能使用這些數據,並且對於作者來說到底有沒有侵犯他們的權益,也沒有法律法規作為先例。
畢竟訓練ai,到底使用了那些內容,很不好界定取證,而文字又屬於公開的內容。
就像是一個人看了盜版小說,產生了更多想法,那不能說這個人看了盜版小說就犯罪了吧。
ai也是差不多的,就和人看了小說產生更多想法類似,將來ai在使用文字時,也不會照搬吸取到數據庫的原生數據。
陸恒想要收購小說網站,也是為了以後持續獲得更多具有邏輯性的文字,而提前準備。
後麵楊程也沒走,在陸恒的邀請下一起見證一本小說被ai吸收消化後是什麽樣子。
ai叫做小恒,目前已經初步完成訓練,給它一本小說,幾秒鍾內就能提取出小說大綱,所有人物和對話,各種情節等等。
這些情節和對話,又能和無數本小說或者圖書的內容對比,最後形成一套思維邏輯閉環。
在麵對將來用戶的一些提問時,能夠找到最佳切入點,進行回複。
親眼看到一本小說被拆解,所有對話情節都被小恒吸收消化後,楊程目瞪口呆,他完全不知道公司還有這樣的技術!
簡直顛覆他的三觀,就像是睡了一覺醒來後發現,地球文明已經變成了科幻作品裏的文明一樣。
“這,這怎麽做到的?太誇張了吧,以後是不是根本不需要網絡小說作者了啊,ai就能代替人類寫小說?”楊程震驚的問道。
陸恒搖頭道:“小恒的確能寫小說,不過在創造性上很差,它擅長歸納總結,當然了要是我給它提供詳細大綱,主要情節走向,讓它豐富細節,比如人物景物描寫,小說人物對話等等,還是沒問題的。”
“我打算當初沒有完本的小說也繼續寫下去,不過不是我親自寫了,我弄一份大綱,到時候讓小恒去寫。”
“你們網站也不用擔心,未來這個功能不會開放出去,畢竟真要把內容開放出去後,對於新產出的文字內容質量,肯定要降低很多的。”
“小恒需要無數網絡作家用腦海裏的靈感,創作出一個又一個性格鮮明的角色,他們的對話都是小恒成長的養料。”
“接下來我們還要升級小恒的核心數據庫,讓它能夠處理視頻內容。”
“首先是將電視劇、電影、短劇、小品、評書等等內容,直接語音轉換成文字,然後丟到數據庫訓練小恒。”
“等到技術更加成熟,小恒甚至能閱讀分析人物表情,場景圖像,到時候將一部電影丟到數據庫,小恒很快就能分析出一大堆內容,甚至提出建議,哪些地方拍的不好....。”
楊程今天算是開了眼界了,原來恒創集團已經有這麽強大的技術。
他好奇道:“那未來小恒的使用場景有哪些呢?同聲翻譯、聊天軟件、論文分析、電影分析助手等等嗎?”
“當然不止這麽多,如今它就像是幼苗,需要我們澆灌才能成長,等到能夠分析圖像動作,靠著無數電影電視劇或者網絡上的所有人類活動的視頻信息,就能建立起一套動作模型,不管是人物的還是動物的,配套成熟的機器,甚至能造出機器人!”陸恒自信的說道。