首页 热点资讯 义务教育 高等教育 出国留学 考研考公
您的当前位置:首页正文

从文本情感角度探究《红楼梦》作者问题

2021-12-21 来源:化拓教育网
第29卷 第3期

Vol.29 No.3JournalofBeijingInstituteofGraphicCommunication

北京印刷学院学报

2021年3月

Mar.2021

从文本情感角度探究《红楼梦》作者问题

严志永

(北京印刷学院,北京102600)

摘 要:本文从文本情感角度来研究《红楼梦》作者问题。人工智能中的情感分析技术能够预测指定文本属于积极类别和消极类别的概率。本文将《红楼梦》的每一回划分成若干句子,使用百度飞桨提供的情感分析服务来预测每个句子的情感,将句子情感的平均值作为每回的情感。从情感波动范围、情感波动模式和情感均值三个方面对前80回和后40回进行分析,结果表明前80回和后40回有较大差异,这表明《红楼梦》不是一个作者所写。

关键词:情感分析;红楼梦;作者信息中图分类号:G633

文献标志码:A

文章编号:1004-8626(2021)03-0072-04

一、关于《红楼梦》作者的相关研究

问题。对此,学界的看法包括如下几种:前80回为曹雪芹所作,后40回为高鹗续写;全部120回由一人所作;作者包含多人[1]。其中持第一种看法的较为普遍。

近年来,随着计算机技术的发展,学界出现了若干采用计算机技术来分析《红楼梦》作者问题的下面列举几个有代表性的工作。

工作。王世海和施政对这些工作进行了总结[2-3]。

瑞典汉学家高本汉和美国威斯康星大学的陈炳藻分别使用统计方法对《红楼梦》的词汇进行分析,认为《红楼梦》前80回和后40回为同一人所作

[1]

80回和后40回作者是两个人的结论[1]。马创新和陈小荷从从高频词等级相关角度来分析《红楼梦》,认为前80回应是同一人所写,后40回应是另一人所写[7]。王阳阳使用朴素贝叶斯和BP网络神经两种分类方法对《红楼梦》中的虚字进行分类,得出前80回与后40回作者不是同一人的结论[8]。周靖使用机器学习中的Bagging、Adaboost

《红楼梦》的作者问题是一个尚未尘埃落定的

和RotationForest三种算法对选取的100个高频词汇进行分类研究,结果表明前80回和后40回有明显差异[9]。姜娜娜使用机器学习中的支持向量机、Logistic回归算法和K-means算法从虚词、长短句、词性标注、特有词四个主要特征入手,结果表明前80回和后40回作者不是同一人[10]。

总体来看,研究者主要使用计算机技术来对

《红楼梦》的词、字、句采用CMNPHOB法进行145次分布检验,认为后40回并非曹雪芹所作

[4]

。陈大康从数理语言学角度使用计算机对

。李

《红楼梦》的字、词进行分析,尤其是对虚字进行分析。这里暗含的假设是字、词的使用频率能够反映作者的写作风格,并且作者的写作风格会保持稳定。余韵对巴金小说的文本进行计量分析(包括词长、词长分布、词汇丰富度、共现词与独有词、平均句长、断句句长、句长分布、实词和虚词的分布、高频词与低频词的词性分布、人称代词的使用情况),发现巴金小说没有明显体现出创作分期现象,创作风格在语言结构上具有高度的一致性[11]。该研究为通过写作风格来分析《红楼梦》作者提供了支持。

从研究趋势上来看,早期的研究主要使用统计

贤平通过对从《红楼梦》中抽取的47个虚字进行层次聚类来分析《红楼梦》的作者,认为该书是由不同作者在不同时期写成的[5]。张运良等使用K80回句类风格差异较大,由此认为前80回和后40近邻算法对《红楼梦》的句类特征进行分析,发现前40回和中间40回句类风格类似,后40回和前回作者不是同一个人[6]。施建军使用支持向量机对《红楼梦》中抽取的44个虚字进行分类,得出前

  收稿日期:2020-11-25

基金项目:北京印刷学院校级项目“社会化媒体文本校对工具研发”(编号:Ef202005)。

第3期

严志永:从文本情感角度探究《红楼梦》作者问题

73

方法(如主成分分析、典型相关分析),近期的研究则大量使用了人工智能中的聚类(如层次聚类算法、K-means算法)和分类技术(如K近邻算法、如支持向量机、朴素贝叶斯、BP神经网络),本文使用人工智能中的文本情感分析技术对这个问题进行探究。

二、文本情感分析技术简介

情感分析(Sentiment能领域自然语言处理中的一个热门任务Analysis)是目前人工智

,也是计算传播学中的一项重要内容[12]究人们对新闻报道、热点话题。、突发事件的情感倾情感分析“主要探向”,并分析“由此产生的对特定主题的态度”[13]情感分析可以进行积极、中性、消极等粗粒度分类。,也可以进行喜、怒、哀、乐等细粒度分类[13]者又可以称为情绪分析[14],其中后在计算传播学领域,情感分析技术主要用来分。

析人们对于事件、话题、产品和服务等对象的态度,具体包括用户评论的情感倾向分析和口碑营销、社会化媒体虚假信息的判定以及社会化媒体的情绪刻画与情绪传播[12]析还可以应用于政治传播领域。在计算传播学领域,如检测推文对美国,情感分总统候选人的态度[15]较观点挖掘、垃圾评论检测。情感分析技术可以用于比、情感演化分析、情感与话题传播分析、结合观点的商品推荐[16]从实践来看,情感分析技术所处理的文本主要

包括微博、评论、新闻等。这类文本数量巨大,并且每天都会增加很多,仅靠人工分析很难达到所需要的处理速度。本文探讨将情感分析技术应用于小说这样的长篇文本。

文本情感分析的技术包括基于词典匹配的方

法和有监督机器学习情感分类方法[12]器学习情感分类首先对文本进行分词、。去除词根和有监督机停用词等预处理,然后挑选一部分文本人工标注情感作为训练集和测试集,之后进行特征选择以降低文本特征空间的维度,接着将分类算法在训练集上进行训练得到分类模型,最后在测试集上对分类模型进行评估[12]文本情感分析所使用的机器学习算法包括朴。

素贝叶斯算法、K近邻算法、支持向量机等[16]深度学习兴起之后,出现了大量使用深度神经网络。在进行情感分析的技术(Long。陈凌和宋衍欣使用LSTM

博上台风Short“利奇马TermMemory,”事件的相关推文进行情感分

长短期记忆网络)对微析CNN(,剖析络)和Convolutional用户情感演LSTM对电影评论数据进行了情感分析Neural化规律[17]Networks,。李卷井辉积等神使经用[18]网目前有很多开放的情感分析工具,例如对于

。Python的飞桨语言有(PaddlePaddle)Textblob、Snownlp开源深度学习平台也提供等程序包。百度了文本情感分析服务。

飞桨平台提供了多种深度神经网络的预训练

模型sentation,包括CNN、LSTM和ERNIE(EnhancedRepre-ERNIEERNIE模型的预测准确率最高throughkNowledgeIntEgration,达到)95.等,其中

属于消极类别的概率和情感标签模型预测结果包括属于积极类别的概率4%[19]。。属于积极类别、的概率和属于消极类别的概率都介于0和1之间,

并且二者之和为1,情感标签根据属于两个类别概率的相对大小给出。本文使用属于积极类别的概率作为情感评分。

使用文本情感分析技术对小说作者进行分析的一个假设是作者写作的情感风格保持稳定。从情感分析所使用的技术可知,机器学习算法是以文本的用词作为特征来进行情感分类,而根据余韵对巴金不同时期小说写作风格一致性的研究可知,作者在小说写作的用词和构句上具有稳定性,这表明作者的写作情感风格也会保持稳定。也就是说,本文使用文本情感分析技术来分析《红楼梦》的作者与之前研究者使用统计方法和机器学习方法分析《有做额外的假设红楼梦》的作者所依据的假设是一样的。

,本文没三、基于文本情感的《红楼梦》作者分析

本文使用百度飞桨平台提供的ERNIE情感分析模型对《红楼梦》的文本进行情感分析,根据各回的情感评分来分析《红楼梦》的作者问题。

在对各回做情感分析时,将一回划分成若干句子,分别使用ERNIE模型来预测每一个句子的评分,最后对所有句子的情感评分进行平均得到该回的情感评分。本文将ERNIE情感分析模型预测的属于积极类别的概率作为情感评分。

(1)在将各回划分为句子时,采用下面的规则:

句子对于人物说话;(2)对于非人物说话,引导语和引号内的话作为一个,以句号、问号和感叹号作为一句话结束的标志表1《和图红楼梦1可知》各回的情感评分见表。

,《红楼梦》120回各回的情感评分

1和图1。从74

北京印刷学院学报2021年

并不是一成不变的,而是在保持基本稳定的情况下

回数1234567891011121314151617181920情感评分0.6780.7420.7130.6420.6560.6710.6690.6750.6020.7060.7020.5420.6650.6980.6760.6640.6780.7240.6050.534回数2122232425262728293031323334353637383940情感评分0.5890.6130.6990.6510.5760.6480.6190.6100.6040.5730.6370.6180.5310.6070.6430.6250.6920.6940.6540.692回数4142434445464748495051525354555657585960情感评分0.6630.6940.6780.5470.6250.6010.6140.7000.7010.6960.6590.6310.7010.6680.6110.6910.6390.5920.5830.617在一定范围内波动。

回数6162636465666768697071727374757677787980情感评分0.6290.6320.6520.7080.6210.6630.6370.5940.5630.6440.6510.6190.5730.6090.6540.7100.5820.6690.6140.522回数81828384858687888990919293949596979899100情感评分0.6160.6070.6520.6730.6490.6080.6440.6340.6520.6510.6190.6710.6180.6110.6040.6160.6570.6420.5700.575回数101102103104105106107108109110111112113114115116117118119120情感评分0.6000.5890.5480.6230.6020.5780.5890.6350.6570.5930.5860.5440.5800.6230.6280.6330.5860.6820.6360.695表1 《红楼梦》各回情感评分

  从表1和图1可以看出,《红楼梦》前80回的情感评分变化模式和后40回的情感评分变化模式不同。

首先,前80回的情感评分波动范围更大。从表1可知,前80回的最大值为0.742(第2回《贾0.522(第80回《美香菱屈受贪夫棒,王道士胡诌0.695(第120回《甄士隐详说太虚情,贾雨村归结红楼梦》),最小值为0.544(第112回《活冤孽妙尼遭大劫,死雠仇赵妾赴冥曹》),二者之差为0.151。

其次,从情感评分波动模式来看,以局部最低点为标志,可以把前80回划分为7个部分(局部最8、13、11、15、10和11;可以把后40回划分为3个部分,每部分包含的回数为23、9和8。前80回的情感评分波动模式较为清晰,大约11回就会出现以局部最低点区分的区间;而后40回的波动模式不太明显,因为三个区间包含的回数相差很大。

最后,从表1的数据可知,前80回的情感评分0.619。前80回的情感评分的中位数为0.644,后40回的情感评分中位数为0.619。前80回的情感评分的标准差为0.049,后40回的情感评分的标准差为0.035。双样本异方差假设下双尾t检验结果表明前80回和后40回情感评分均值显著不同。

从上述分析可知,前80回较后40回情感评分的平均值为0.641,后40回的情感评分平均值为低点放在前一部分中),每部分包含的回数为12、妒妇方》),二者之差为0.220;后40回的最大值为夫人仙逝扬州城,冷子兴演说荣国府》),最小值为

波动范围大,前80回和后40回的不同回之间情感波动模式也不同,从情感均值来看前80回和后40回有显著不同。总之,从文本情感来看,前80回和后40回有较大差异。由此,本文认为《红楼梦》的前80回合后40回不是同一个作者所写。

图1 《红楼梦》各回的情感评分

本文研究虽然能够在一定程度上揭示《红楼梦》的作者不只有一人,但仍有以下需要改进的地方。首先,和现有的很多研究一样,本文一开始就接受了红学界的主流观点,认为《红楼梦》的作者争议出现在前80回和后40回,所以在分析各回的情感评分时,将前80回作为一个整体,将后40回作为另一个整体。因此,本文仅仅是从一个新的角度来验证了红学界的主流观点。未来可以深入研究每一回更细微的情感变化。其次,本文使用的百度飞桨平台的ERNIE情感分析模型是基于现代汉语来训练的,《红楼梦》虽然是白话小说,但是成书距今至少有200年的时间,语言习惯可能与现在不同,使用现代汉语的语言情感模型去预测200年前的白话小说的情感可能有一定偏差。未来可以基于古代汉语的语料对ERNIE情感分析模型进行细

 

第3期

严志永:从文本情感角度探究《红楼梦》作者问题

131,223.

75

调以获得更精准的情感分析。

四、总结与展望

本文从文本情感的角度对《红楼梦》120回的文本进行了情感分析,从情感波动范围、情感波动模式和情感均值三个方面分析的结果表明前80回和后40回的文本情感具有比较明显的不同,因此得出《红楼梦》的前80回和后40回不是同一作者所写的结论,从而从一个新的角度验证了红学界的主流观点。

目前人工智能界投入了很大精力来研发文本情感分析技术,也取得了重要的进展,不过在应用上还是集中在传统的意见分析领域。可以将该重要技术用于更广泛的领域,如作者写作风格的分析、图书的审读等。参考文献:

[1] 施建军.基于支持向量机技术的《红楼梦》作者研究[J].红

楼梦学刊,2011(5):35-52.

[2] 王世海.论数理统计方法研究《红楼梦》作者问题的得与失[3] 施政.《红楼梦》研究中的统计方法综述[J].吉林省教育学

院学报,2019,35(1):151-156.

[4] 陈大康.从数理语言学看后四十回的作者———与陈炳藻先生

商榷[J].红楼梦学刊,1987(1):293-318.

[5] 李贤平.《红楼梦》成书新说[J].复旦学报(社会科学版),[6] 张运良,朱礼军,乔晓东,等.基于句类特征的作者写作风格

1987(5):3-16.

[J].宜春学院学报,2019,41(4):105-109.

[7] 马创新,陈小荷.从高频词等级相关角度探析《红楼梦》作者[8] 王阳阳.基于朴素贝叶斯与BP网络神经分类方法的《红楼

121-125.

[J].中文信息学报,2018,32(11):97-102.

梦》文本特征差异研究[J].统计与决策,2018,34(13):

[9] 周靖.基于机器学习的《红楼梦》作者问题研究[D].昆明:云

南大学,2018.大学,2018.

[10]姜娜娜.基于机器学习的《红楼梦》作者研究[D].杭州:浙江[11]余韵.巴金前后期小说的计量风格学研究[D].武汉:华中师

范大学,2017.

[12]张伦,王成军,许小可.计算传播学导论[M].北京:北京师范

大学出版社,2018:11.

[13]吴小坤,赵甜芳.自然语言处理技术在社会传播学中的应用

研究和前景展望[J].计算机科学,2020,47(6):184-193.与发展,2018,55(1):30-52.

[14]李然,林政,林海伦,等.文本情绪分析综述[J].计算机研究[15]巢乃鹏.人工智能与计算传播学[J].人民论坛·学术前沿,[16]林政,靳小龙.文本情感分析[M].北京:清华大学出版社,[17]陈凌,宋衍欣.基于公众情绪上下文的LSTM情感分析研

98-105.2019:11.

2019(20):20-31,107.

究———以台风“利奇马”为例[J].现代情报,2020,40(6):

[18]李井辉,孙丽娜,李晶.基于LSTM的评论文本情感分析方法

研究[J].微型电脑应用,2020,36(5):1-4.

[19]情感倾向分析[EB/OL].(2020-02-18)[2020-09-25].https:

∥github.com/PaddlePaddle/modelstreedevelop/PaddleNLP/sentiment_classification.

(责任编辑:周宇)

分类研究[J].计算机工程与应用,2009,45(22):129-

AuthorIdentificationofADreamofRedMansionsBasedonTextSentiment

(BeijingInstituteofGraphicCommunication,Beijing102600,China)

YANZhiyong

Abstract:ThispaperproposesanauthoridentificationmethodforADreamofRedMansionsbasedon

textsentiment.Sentimentanalysistechnologiesofartificialintelligencepredictpositiveandnegative

probabilitiesofgiventext.ThispaperdivideseverychapterofADreamofRedMansionsinto

sentences.SentimentanalysisserviceofPaddlePaddleprovidedbyBaiduisusedtopredictsentimentscoreofeverysentence.Thenthemeanofsentimentscoresofallsentencesofachapterisusedasthe

sentimentscoreofthechapter.Thispaperanalyzestheformer80chaptersandthelatter40chaptersfromsentimentfluctuationrange,sentimentfluctuationpatternandsentimentmeans.Resultsshowthattherearedifferencesbetweentheformer80chaptersandthelatter40chapters,whichimpliesthese

twopartswerewrittenbydifferentauthors.

Keywords:textsentiment;ADreamofRedMansions;authoridentification

因篇幅问题不能全部显示,请点此查看更多更全内容