如何用算法找出文章的中心句,假设文章的单词共现算法出现次数已知

巧抓文章主题
我的图书馆
巧抓文章主题
巧抓文章主题&
violent earthquake struck Xinjiang Autonomous Region on Monday 24 February,2003. 这段话中,首句提出文章的中心话题----新疆发生地震,后面使用大量文字围绕这一观点来论述。但也有些文章,作者喜欢将文章中心放在段落末句交代,这时,应该注意段落末尾的内容,如:As can be seen from the above, English is a very useful language.  
in&short,&thus,&however
将首段中心句和各段第一句话连接成一个整体,得出文章主题。有些文章会在首段提出一个重要论点,随后在各段分别进一步从不同角度继续阐述,这样我们可以找出首段的中心句,再将其和各段第一句串联在一起,就可以得出文章的中心思想。如:北京卷篇题
Which is the best title for the passage?
第一段:Perhaps to prevent the sadness that infant death caused,a number of societal practices developed which worked against early attachment of mother and child.
第二段:One of these premodern attachment-discouraging practices was to leave infants unnamed until they had survived into the second year.
第三段:A third practice which had the same distancing effect was wet-nursing.
从第一段的中心句和各段的第一句不难看出,这篇文章的标题应该是Practices of Reducing Maternal Attachment.
馆藏&46895
TA的最新馆藏[转]&
喜欢该文的人也喜欢您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
基于SVM+LA的英语四六级自动作文评分算法的研究.pdf 90页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
下载提示
1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
需要金币:180 &&
基于SVM+LA的英语四六级自动作文评分算法的研究.pdf
你可能关注的文档:
··········
··········
㈣㈣㈣㈣删学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,rq,意9校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本。。学位论文。·保密口,在年解密后适用本授权书。本学位论文属于不保密指导教师签名:.簇,么窭盟.学位论文作者签名:弓善艾,一7鼍占年易月妒日妒莎年Z月加日万方数据独创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中己注明引用的内容以外,本论文不包含任何其他个人或集体己经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。.、)学位论文作者签名:1钛日期:&yo心年么月阳日万方数据江苏大学硕士学位论文摘要英语自动英语作文评分研究是当前的一个热点。做好自动作文评分研究,一方面可以减轻广大英语教育工作者工作负担,使他们的工作更有效率;另一方面则使英语学习者能够更快速直接地了解自己的英语水平。基于以上原因,本文在大学生四六级自动英语作文评分算法方面做了深入的研究,探索分析了作文的特征选择、提取以及有关自动作文评分的算法。提出了一种基于SVM+LDA的四六级自动英语作文评分算法。本文的主要工作有以下几方面:·首先,针对现有方法未能充分利用标题与内容关联信息的问题,提出了一种基于余弦阈值统计的标题与内容关联特征的提取方法。该方法通过计算各个句子与标题的相似度(即词频向量间的余弦值),标记出大于某个特定阈值的句子,从而获得文章的中心句。本文所提出的基于余弦阈值统计的特征由中心句占总句子数的比例决定,其能较准确地表示标题与内容之间的关联信息。实验结果表明由此提取的特征与作文分数具有较好的相关性。make其次,在以“中国学习者英语语料”中标题为“Hastewaste”的六级作文为研究对象的实验中,针对样本数据的低样本数、高维数的特点,将支持向量机(SVM)分类器应用到英语自动作文评分中。考虑在模型训练中高斯核函数下的SVM比线性核函数下的SVM更容易出现过拟合现象,这里采用线性核函数下的SVM来构建英语自动作文评分算法,并寻找最优评分性能下的分类器参数。实验结果表明基于线性核函数下的SVM英语作文自动评分算法优于高斯核函数下的SVM英语作文自动评分算法,其能更好的避免过拟合问题。Dirichlet最后,考虑现有算法中对作文主题信息提取不足,引入LDA(Latent类算法。该方法通过LDA主题模型中的主题一词特征来表达作文中主题信息和其它语义信息,以替代作文中单词特征。在一个特定主题范围下,评分高的作文一定是围绕着几个关键主题来描述作文的内容,而评分低的则可能在写作文时内容较分散没有突出中心主题。同时相比作文单词特征,主题一词特征不仅包含了单词特征包含的主要语义信息,而且还包含了作文中的主题信息。在以“中国学习万方数据基于SVM+LDA的英语四六级作文自动评分算法的研究make者英语语料”中标题为“Hastewaste”的六级作文为研究对象的实验中,评分算法用的特征包括常用文本特征、言语失误特征和主题.词特征;对比算法中的特征只是将主题.词特征换为作文单词特征。实验结果表明与其它算法相比该算法在准确率和F.测度值都有明显的提高,这也说明相比作文的单词特征,主题一词特征在表达作文的语义信息方面更有优势。关键词:四六级作文,自动作文评分,LDA主题模型,SVM万方数据江苏大学硕士学位论文AbstractAutomatichasattractedattentionsinEnglishEssay(AES)scoringmanyrecentlythereareatleasttworeasonstotheofAES.Onyears,andencouragedevelopmentonecouldreducetheburdenoftheirworkhand,itteachers,andimproveefficiency.Ontheotherisusefultomakelearnersknowtheirlevelmorehand,itEnglishEnglishandontheabovetomakearesearchonquicklydirectly.Basedreasons,wetrydeeptheAESofCETfirstaddressthefeaturealgorithmwriting.WeselectionandfeatureextractionforthentheCETAESbasedonSVM+LDA.AES,andpropos
正在加载中,请稍后...

我要回帖

更多关于 单词共现算法 的文章

 

随机推荐