隨便輸數字 就可“寫宋詞”
統計學研究生挖掘99個高頻詞匯編號碼 武大博導說,這只是一個文字游戲
一位學習統計學的網友,利用所學將《全宋詞》中出現的99個“高頻詞匯”統計出來,發在博客上。沒想到,這篇博文很快就被大量轉載,并有網友利用這些高頻詞匯重新“寫詞”。圓周率、生日、身份證號碼都可以組成一首形式上的“宋詞”。
在江漢大學剛剛舉辦的“詩詞吟誦暨詩歌大賽頒獎會”上,不少學生討論這個話題。真的存在網友說的“自動寫詞機”嗎?記者展開采訪調查。
《全宋詞》中的99個高頻詞匯
話題的“始作俑者”是一位學習統計學的研究生,網名“yixuan”,他在博客上發表一篇文章:“突然想看看宋詞里面什么樣的意象是最常見的,比如可以做個頻率分析什么的。當然文本挖掘需要分詞,我沒法在其中花太多時間,于是想出了一個土辦法。”
宋詞的句子都很短,最常見的詞語一般是兩三個字,這樣可能的組合就更少了。比如“猶解嫁東風”這句話,可能的二字組合是“猶解”“解嫁”“嫁東”“東風”,三字組合是“猶解嫁”“解嫁東”“嫁東風”,詞的字數越多,可能的組合就越少。
“yixuan ”統計出99個《全宋詞》中的高頻詞匯。排在前面的依次為“東風(1382次)、何處(1230次)、人間(1202次)、風流(857次) 、歸去(812次、)春風(802次)、西風(779次)、歸來(771次)、江南(765次)。
“yixuan ”的這篇博文一發出來,很快就被另外一家網站轉載,大量網友被這個有趣的話題吸引,紛紛發帖評論。
高頻詞匯被演繹成“自動寫詞機”
在大量評論后面,一位名叫“達芬奇的雞蛋”發現,利用這些“高頻詞匯”的代碼,可以隨意拼湊出一首首宋詞來。比如用“圓周率”的數字排序,結果就是:回首明月(一看就是抒情詩)
悠悠心事空
西湖何事寂寞中
風吹斜陽匆匆
芳草平生斜陽
風吹寂寞今日
一枝富貴年年
斷腸長安不知
一時間,眾多網友用自己的身份證號碼、各種數字組合來“寫宋詞”。如網友“葉綠彘”的“作品”是:“東風何處?人間風流。歸去春風,西風歸來。江南相思,梅花千里。回首明月,多少如今?闌干年年萬里,一笑黃昏當年……”
記者用多位同事的身份證號碼、生日號碼等,套用這些代碼,果然也能產生出一首首有模有樣的“宋詞”。
原意不是為了“寫詞”
看到帖子被大量轉發,“yixuan ”在自己的博客上又寫了一篇解釋,他說,“自動寫詞機”并不是我的創意,也不是我的初衷。
“yixuan ”說:“我學的專業是統計和精算,平時會和各種類型的數據打交道,之前寫那篇博文也是出于興趣,想利用學到的專業知識來對一些實際問題進行分析。”
他說,很多人肯定都會提到“自動寫詞機”,就比如拿生日、QQ、物理常數等套用里面的排序來“寫詞”。但我想說的是,這其實不是我的創意,也不是我寫那篇博文的初衷。如果大家看過那篇轉帖,就會發現大家開始“狂歡”是因為“達芬奇的雞蛋”的創意,而詞頻統計本身并沒有任何特殊之處。
事實上,大家可能聽說過“文本挖掘”這個名詞,它就是對文本數據進行分析,來得到有用的結論。文本挖掘是個很復雜的過程,牽涉到分詞、詞頻統計、特征選擇、聚類等等,如果大家對這一塊內容有所了解的話,就會知道詞頻統計是一個很平凡的過程。
“yixuan”說:可能有些朋友覺得我得到宋詞的詞頻是一件技術含量很高的活兒,但從技術層面上來講,我做的那些東西也并無任何高級之處(當然需要有一些編程經驗)。
只是一個文字游戲
這99個“高頻”詞匯真的有那么神奇?昨天,武漢大學文學院博導王兆鵬教授看了后評論說:“這只是一個文字游戲”。
王兆鵬說,漢語語言中,詩詞的語序不需要確定性,同時漢語語言具有多義性。很多詞語組合起來,都可以說得通。比如我們說“吃飯”大家能聽懂,但說“飯吃”,也能理解是怎么回事。
從嚴格意義上說,通過這99個編碼做成的“詞”,平仄完全不符合要求,也不符合詞牌的要求。但形式上挑不出什么毛病,也有一點詞的味道。
王兆鵬說,宋詞是一種文學藝術,講究獨創性和意境,讀者通過讀詩詞能夠看到里面的意境,這是藝術。“如果寫詞這么容易,那誰都可以寫詞了。”
不過,王兆鵬也認為“yixuan ”的做法很有創意,“能從這么多詞中總結出99個高頻詞匯,是需要花功夫的,也說明這個學生很努力,這是一個比較高級的文字游戲,雖然談不上有什么文學意義。”
中南財經政法大學統計與數學學院博導李占風教授說,利用統計學原理確實可以在詩詞等文學作品中,做一些研究工作,這位學生學以致用,值得表揚。
記者翁曉波 實習生 左思琪(原標題:統計學學生挖掘99高頻詞匯 隨便輸數字就可寫宋詞)