一、新聞的自動選編
就新聞行業(yè)的這種自動化浪潮而言,影響最大的早期實(shí)踐大概要算“Google News”了。Google新聞是一個由計(jì)算機(jī)生成的新聞網(wǎng)站。它匯集了來自中國大陸超過1000多個中文新聞源的新聞資源,并將相似的報(bào)道組合在一起,根據(jù)讀者的個人喜好進(jìn)行顯示。

Google新聞所開創(chuàng)的是新聞的機(jī)器選編,還不是本文所要著重探討的新聞的機(jī)器寫作。但寫作和編輯同為新聞內(nèi)容生產(chǎn)的兩個關(guān)鍵環(huán)節(jié)。在“Google新聞”的自動選編推薦中,關(guān)鍵是以下幾點(diǎn):
1.新聞來源:來自我國大陸1000多個中文新聞源。新聞來源的選擇和把關(guān),在很大程度上決定了聚合推薦的新聞的豐富和多樣性程度;這實(shí)際上是“Google新聞”選擇和推薦的樣本框,決定了哪些新聞有機(jī)會被推薦。
2.推薦邏輯:即其算法(algorithm)。值得指出的是,StoryRank和PageRank類似,其對一篇報(bào)道的推薦和選擇,并不是僅僅通過分析報(bào)道本身的內(nèi)容,而是著重分析報(bào)道在網(wǎng)上的受關(guān)注程度:被哪些網(wǎng)站發(fā)布、轉(zhuǎn)發(fā)的多少和頻率、在網(wǎng)站的什么位置發(fā)布等,以此來“計(jì)算”有關(guān)新聞的價值或重要程度。
3.推薦而不提供:從新聞作品版權(quán)等角度考慮,“Google新聞”只是提供各種新聞不同的新聞來源,有點(diǎn)“述而不作”的味道,具體的新聞則仍需要到各來源網(wǎng)站去閱讀。Google新聞的這一做法最大限度地讓它避免了各種版權(quán)糾紛,換言之,它把自己定位為自己所定義的眾多新聞源的精華索引頁。
作為機(jī)器編輯肇始的“Google News”,其所開創(chuàng)的基于所選擇的樣本框進(jìn)行新聞自動選擇和推薦、排序的方法,對各大新聞網(wǎng)站、新聞門戶和其他搜索引擎帶來了很大的沖擊和影響,包括百度新聞等跟風(fēng)者不少。值得指出的是,在“Google News”最初推出之時,還是Web1.0時代。10年過去,互聯(lián)網(wǎng)特別是移動互聯(lián)的發(fā)展,使得新聞生產(chǎn)和消費(fèi)的格局又有了很大的變化。這其中最大的變化就是社會化媒體的興起,以及基于消費(fèi)端的用戶偏好,被納入到新聞推薦的算法考慮中,從而可以為用戶推薦更加個性化、定制化、動態(tài)化的新聞產(chǎn)品和內(nèi)容。事實(shí)上,以“今日頭條”等為代表的新聞客戶端,都是當(dāng)初“Google News”所開創(chuàng)的機(jī)器新聞編輯產(chǎn)品的變種和升級。
無論是“Google News”也好,“今日頭條”也好,這類產(chǎn)品的出現(xiàn)和風(fēng)行,揭示了這樣一種趨勢,即機(jī)器學(xué)習(xí)、深度學(xué)習(xí)正在改變包括新聞生產(chǎn)在內(nèi)的諸多之前依賴人力、腦力密集的產(chǎn)業(yè)和行業(yè)的生態(tài)和業(yè)態(tài)。從工業(yè)革命開始,人類的自動化夢想就一直在加速膨脹,試圖在一切有可能把人力解放出來的領(lǐng)域,代之以無論是硬件還是軟件意義上的“機(jī)器”的協(xié)助甚至完全自動化。
二、機(jī)器新聞寫作:基于算法的新聞內(nèi)容生產(chǎn)
編輯和寫作,就其所需要的人工智能程度而言,顯然寫作更具挑戰(zhàn)性。在機(jī)器新聞生產(chǎn)的語境中,機(jī)器編輯通常主要指對已有新聞作品的選擇和推薦、聚合,很少涉及對成稿的修改;而機(jī)器新聞寫作,則仍是不折不扣的從無到有的“創(chuàng)作”。
把機(jī)器或者程序能做的交給機(jī)器和程序,從而把人力解放出來,去從事具有創(chuàng)新要求和需要發(fā)揮想象力的工作,這是自工業(yè)革命以來自動化革命的基本理念。關(guān)于機(jī)器新聞寫作,美聯(lián)社的看法是,這將讓記者“能做回新聞的本職工作,而不是忙于數(shù)據(jù)處理”,因此,機(jī)器新聞寫作的引入,并不意味著記者編輯工種的消亡。
但顯然并非所有類型的新聞都適合機(jī)器寫作,至少目前來看是如此。就美聯(lián)社的實(shí)踐而言,其此前已經(jīng)在用自動化手段提供各種數(shù)據(jù)式的體育“報(bào)道”,但此前主要是整合、綜合關(guān)于運(yùn)動員、賽事的各種實(shí)時數(shù)據(jù),而此次的企業(yè)季度經(jīng)營狀況報(bào)道則是不折不扣的新聞報(bào)道了。盡管如此,可以看出,適合通過機(jī)器或算法進(jìn)行的新聞寫作,一般是以各種數(shù)據(jù)、圖表的引用和分析為基礎(chǔ)的硬新聞,新聞的主體來源于對數(shù)據(jù)的引用、解釋和分析,具有明顯的“數(shù)據(jù)處理”色彩,可看作是目前方興未艾的“數(shù)據(jù)新聞學(xué)”的一個分支。
三、機(jī)器自動寫作的工作機(jī)理
下面以前述Automated Insights公司開發(fā)并已經(jīng)被諸多品牌公司,包括像美聯(lián)社這樣的通訊社采用的自動寫作平臺Wordsmith為例,簡單介紹一下其工作原理與過程。
Wordsmith平臺的任何一篇“自動生成”的作品的寫作流程分以下幾個步驟:
1.獲取數(shù)據(jù)。首先需要消化關(guān)于所服務(wù)的客戶,即報(bào)道對象的各種形式的數(shù)據(jù)和資料,包括以APIs、XML、CSVs以及各種字處理圖表等形式的數(shù)據(jù),以及第三方(如Google Analytics)提供的相關(guān)客戶的各種數(shù)據(jù)(運(yùn)營、業(yè)績、報(bào)道、評價、引述等)。作為一個以數(shù)據(jù)處理為基礎(chǔ)工作的寫作平臺,Wordsmith可以處理“幾乎任何形式或格式的數(shù)據(jù)”。
2.分析數(shù)據(jù)。這里涉及到對各種數(shù)據(jù)的解析以及內(nèi)在關(guān)聯(lián)的勾勒,并把它們放在歷時性的演變背景中來進(jìn)行解讀。
3.提煉觀點(diǎn)(identify insights)。通過對目標(biāo)客戶各種數(shù)據(jù)中所呈現(xiàn)的模式和趨勢的揭示,并把它們納入到更大的行業(yè)或社會、國家的背景中來解讀其意義,從而通過這樣的參考和比對,得出一些具有可操作性的意見和建議。
4.結(jié)構(gòu)和格式(structure & format)。Wordsmith平臺需要用其自然語言生成功能對此前的分析和提煉得到的觀點(diǎn)進(jìn)行故事化敘述,并按照需要生成各種形式的文本:長文、短新聞、可視化圖表為主的內(nèi)容、推文、標(biāo)題導(dǎo)語等等。
5.出版。Wordsmith平臺能夠?qū)⑺傻奈恼拢ㄟ^多種方式,實(shí)時發(fā)布到客戶指定的平臺上。
綜合我們對機(jī)器新聞各種軟件和平臺的了解,迄今為止,機(jī)器新聞或內(nèi)容寫作,使用最廣泛的四大領(lǐng)域是財(cái)經(jīng)、體育、氣象地質(zhì)和健康。支撐諸如Wordsmith這樣的自動寫作平臺有效工作的基礎(chǔ)性系統(tǒng),就是直接來自所報(bào)道的組織或個體的各種監(jiān)測資料、第三方提供的各種監(jiān)測資料,以及連接到動態(tài)更新的云端數(shù)據(jù)庫。沒有大數(shù)據(jù)采集和挖掘、分析系統(tǒng)的支撐,機(jī)器自動新聞寫作就成了無源之水、無本之木。社會的信息傳播基礎(chǔ)設(shè)施和環(huán)境發(fā)展到今天,隨著各種隨身通訊設(shè)備,如智能手機(jī)和各種可穿戴式健康監(jiān)測設(shè)備的普及,加上無處不在的上網(wǎng)條件和實(shí)時定位系統(tǒng),使得我們可以對所關(guān)注的個體、群組、組織、行業(yè)等,進(jìn)行多角度的信息收集和描述。社會正變得越來越透明,這是機(jī)器自動內(nèi)容寫作風(fēng)行的前提。
四、機(jī)器新聞與新聞業(yè)的重新定義
機(jī)器稿件生產(chǎn)系統(tǒng)的出現(xiàn),將對新聞傳播行業(yè)帶來深刻而長遠(yuǎn)的變化,這種影響首先體現(xiàn)在對新聞傳播行業(yè)的重新定義。新聞傳播行業(yè)的核心是內(nèi)容的生產(chǎn)與傳播。機(jī)器內(nèi)容生產(chǎn)的出現(xiàn)和興起,對于新聞傳播行業(yè)的影響,主要是內(nèi)容的生產(chǎn)和編輯、出版或發(fā)布、推送方面。
首先,在一些綜合性通訊社或媒體中,一線內(nèi)容生產(chǎn)的總體格局可能會發(fā)生重大變化。在前述財(cái)經(jīng)、氣象/地質(zhì)、體育、健康等領(lǐng)域的常規(guī)稿件的生產(chǎn)中,傳統(tǒng)的記者寫稿環(huán)節(jié),可能會解構(gòu)為記者“指導(dǎo)”下的機(jī)器寫稿和記者/編輯進(jìn)行人工修改把關(guān)兩個環(huán)節(jié)。記者或編輯將主要通過基于算法的內(nèi)容管理系統(tǒng)(即CMS)進(jìn)行審核把關(guān)和稿件推薦。
其次,稿件生產(chǎn)會越來越依賴于媒體自己建設(shè)的數(shù)據(jù)庫以及實(shí)時的基于大數(shù)據(jù)的數(shù)據(jù)挖掘工作,這意味著在常規(guī)新聞寫作中,傳統(tǒng)的記者現(xiàn)場采訪的重要性和必要性可能會有所降低,而中介化在場感的獲得和營造將成為關(guān)鍵。
第三,稿件內(nèi)容的發(fā)布和推送將會更加個性化、定制化,不同新聞終端消費(fèi)者收到的內(nèi)容可能會有不同的版本?;趯?nèi)容消費(fèi)者消費(fèi)偏好和方式的分析,在新聞發(fā)布和推送時作相應(yīng)的個性化裁剪,是完全可以做到的。
可以看出,新聞傳播行業(yè)正在快速演變中,行業(yè)的信息技術(shù)含量會越來越重;與此同時,以往從事軟硬件平臺設(shè)計(jì)和開發(fā)的一些技術(shù)公司,將不可避免地“跨界”涉足內(nèi)容服務(wù)行業(yè),新聞傳播中信息服務(wù)業(yè)的比重會進(jìn)一步加大。由于大量內(nèi)容都加上了“時間戳”和地理位置信息,新聞和非新聞類內(nèi)容的界限,也將更加模糊。
行業(yè)內(nèi)涵和外延的變化,必然帶來新聞傳播學(xué)科的內(nèi)涵和外延的變化,這直接體現(xiàn)在其學(xué)科的課程體系設(shè)置中。近年來,國內(nèi)外不少新聞傳播院校,在“大傳播”理念下,紛紛加強(qiáng)了新媒體方面的課程內(nèi)容比重,包括大量的信息和數(shù)據(jù)處理技術(shù)和信息藝術(shù)設(shè)計(jì)方面的課程。傳統(tǒng)的新聞傳播、信息科學(xué)、藝術(shù)設(shè)計(jì)學(xué)科日益交融。
由此也必然帶來新聞傳播從業(yè)者核心素養(yǎng)要求的變化。自動新聞生產(chǎn)的不斷改進(jìn)和復(fù)雜化,將不斷擠壓新聞業(yè)中那些勞動密集型的工作或新聞生產(chǎn)環(huán)節(jié),讓這些工作或生產(chǎn)環(huán)節(jié),就工作量和所花費(fèi)的時間而言,主要通過機(jī)器即可完成,人工的干預(yù)和關(guān)鍵決策,本質(zhì)上仍會起到主導(dǎo)作用,但從工作量上而言,不再需要在創(chuàng)造性要求高度不均的各個環(huán)節(jié)都同等付出,而只需在一些關(guān)鍵環(huán)節(jié)上介入即可。
記者和編輯,由此需要重新定位自己工作的核心價值到底在哪里,時時考慮自己所從事的工作,是否具有一定智能的軟件或 機(jī)器人 也能勝任。新聞從業(yè)者的不可替代性,從長遠(yuǎn)來看,必然來自其個性化特色的內(nèi)容創(chuàng)作和創(chuàng)新編排、設(shè)計(jì)、內(nèi)容傳播和推送策略的制定等,而不是其他。