bootstrappingdestroy methodd 具体是指一种什么样的统计方法

面相 | 海贼王 | 牙齿矫正 | 徐州市 | 虚拟专用服务器 | Windows 7 | 疤痕修复 | 方言 | 幼儿教育 | 英文歌曲 | 武术 | 餐饮 | 口臭 | 冬奥会 | 化疗 | 汽车音响 | 休学 | 片尾 | 骨折 | 电子技术研发 | 胃炎 | 姓氏 | 过敏性鼻炎 | 房贷 | 身高 | 加湿器 | 雅马哈 | 金平区 | 马鞍山市 | 取名 | 美杜莎 | 韩国 | 饮食 | 怀集县 | 牙套 | 古琴 | 语言学习 | 坦克 | 体检 | 冠心病 | 书籍 | 寺庙 | 美国电影 | 驾驶经验 | 寓言 | 学术 | 坐月子 | 日语语法 | 山东艺术学院 | 类风湿 | 手相 | 乳腺癌 | 运动损伤 | 自卑 | 房山 | 辩论赛 | 机械键盘 | 大学专业选择 | 塑料制品 | 护发 | 眼袋 | 肺癌 | 血型 | 玄幻小说 | 华为路由器 | 温州市 | 留学香港 | 大学生就业 | 大学生创业 | 城市规划 | 美术生 | 一体机 | 率土之滨 | r（编程语言） | 发音 | 记忆力 | 散光 | 互联网公司 | 西班牙语 | 口腔溃疡 | 汉语 | 观后感 | 留学生 | 参考文献 | 印度 | 中耳炎 | 澳门特别行政区 | 近视手术 | 尧山 | 荨麻疹 | 花卉 | 特许加盟 | 烹饪学校 | 设计院 | 岳阳县 | 婴儿喂养 | 痛风 | 营销策划 | 狐臭 | 失眠 | 眼科学 | 药品 | 欧美 | 弱视 | 童年 | 丙肝 | 合生元 | 男生 | 材料 | 中央戏剧学院 | 葡萄酒 | 网络推广 | 胃痛 | 酒文化 | 脱发 | 情绪管理 | 花样姐姐 | 示波器 | 胶原蛋白 | 痤疮 | 自驾游 | 孩子 | 马克思主义哲学 | 大学就读体验 | 美国留学 | 本科毕业论文 | 白内障 | 精神分裂症 | 在线教育 | 无线耳机 | 发动机 | win8 | 桥梁 | 非洲 | 婚恋网站 | 驾驶技术 | 敏感皮肤 | 学车 | 武昌区 | 整形 | 红酒 | 语言学 | Android手机 | 拉丁舞 | 猪肉 | 大学军训 | 高效学习 | 手绘 | 法国 | 刑事案件 | 胃病 | 牙科医院 | 宁夏回族自治区 | 邳州市 | 国家 | 口红 | 尿毒症 | 时间管理 | 事业单位考试 | 迅雷（软件） | 中国科学技术大学 | 康佳 | 西装 | 蓝河 | 肺气肿 | 地黄 | 外貌 | 高中化学 | 励志故事 | 小吃 | 关节炎 | 驻马店市 | 鲁迅美术学院 | 交警 | 发电 | 皮肤保养 | 文玩 | 轮胎 | 山东工艺美术学院 | 钢笔 | 食道癌 | 校服 | 酵素 | 日本漫画 | 非典 | 服装行业 | 数控车床 | 毕业论文 | 蓝莓 | 七田真 | 配方奶粉 | 头痛 | 枸杞 | 孕妇装 | 儿童 | 婴儿车 | 西医 | 本田（honda） | 研究生导师 | 美白 |

你的位置：网站首页 >> 频道首页 >>理工学科 >>bootstrappingdestroy methodd 具体是指一种什么样的统计方法

bootstrappingdestroy methodd 具体是指一种什么样的统计方法

来源：蜘蛛抓取(WebSpider) 时间：2017-10-28 08:08 标签： curl 指定method

统计中的 Bootstrap 方法是指什么？与 Monte Carlo 方法有什么联系与区别？
我的图书馆
统计中的 Bootstrap 方法是指什么？与 Monte Carlo 方法有什么联系与区别？
【JackDiamond的回答(73票)】:风马牛不相及，举个简单的例子(关于一个分布的平均值)来帮你理解bootstrap和Monte Carlo，比如现在有一个分布F...1. Bootstrap: 如果我无法知道F的确切分布，手上仅有一组从F中iid抽样的样本(X_1, ..., X_n)，我想检验“F的均值是否为0”。看起来这个不可能，因为我只有一个ar{X}的点估计，而并不知道ar{X}的分布。Bootstrap的魔术是现在我把(X_1, ..., X_n)这个样本当做总体，从中(有放回地)重新抽样，重抽样样本大小仍为n，那么每一次重抽样就可以得到一个“样本均值”，不断地重抽样我就得到了一个ar{X}的“分布”。这样接下来我就可以构造confidence interval并做检验了。虽然实践中bootstrap的重抽样步骤都是用Monte Carlo方法来模拟重抽样样本统计量的分布，但是严格地说这个分布原则上可以精确计算。而如果待估统计量比较简单，bootstrap的结果有时甚至可以直接用(X_1, ..., X_n)的某种统计量表示出来，从而并不需要真正地“重抽样”。当然实际应用中绝大多数时候重抽样分布的解析表达式都会太复杂，所以用模拟代替计算。(关于bootstrap的更多讨论见此答案下的评论，特别是Lee Sam提的问题)2. Monte Carlo: 如果我知道F的确切分布，现在想计算mean(F)，但是F的形式太复杂(或者我这人太懒)；另一方面我又知道如何从F中抽样，于是就抽一个样本出来，拿样本均值充数。一般来说bootstrap干的事大都跟这个例子中干的事差不多，而Monte Carlo的应用要广泛和多元化得多了。所以两者连“区别”都谈不上，就是两码事。【赵卿元的回答(20票)】:谢邀。Monte Carlo是一个更基础的想法。在很多数学、物理或者工程问题种有很多无法写出closed form的表达式，为了能得到数值上的一个解，需要通过随机采样的方法去估计。Bootstrap是重新改变的一个想法。统计推断的主体总是一个的随机变量分布。在这个分布很复杂无法假设合理的参数模型时，bootstrap提供了一种非参数的推断方法，依靠的是对观测到的样本的重新抽样（resampling），其实是用empirical distribution去近似真正的distribution。这两种方法从目的到用法都完全不同，有联系的话就是都涉及到计算机抽样。============================================================== 觉得“bootstrap是对empirical distribution的monte carlo”的说法更合理，我保留意见。我认为monte carlo和sampling还是不能互为替换的。我认为Monte Carlo和Bootstrap更多的是两种思想，都是基于random sampling去近似某一目标。Monte Carlo的目标一般是一个难以计算的积分，bootstrap的目标一般是统计推断。【马拉轰的回答(6票)】:这个问题又该邀请了，我先抛砖引玉吧。Bootstrap的中文翻译是“自助法”，由后来成为斯坦福统计系主任的Bradley Efron在70年代提出。中心思想是通过从样本中重抽样（resample是这么翻的么？），构建某个估计的置信区间。抽象的说，通过样本得到的估计并没有榨干样本中的信息，bootstrap利用重抽样，把剩余价值发挥在了构建置信区间上。Bootstrap因为其通用性的和简便性而被广泛使用（只要有样本就可以resampling，就可以bootsrap，任何分布都能做，只是消耗一些计算资源）。特别是在各种统计（机器）学习算法大大复杂了“估计”，bootstrap的实用性太明显了。至于Bootstrap和Monte Carlo有什么联系与区别，这两个本身不是对应的概念，怎么个区别法呢？Bootstrap在重抽样的时候，一般采用sample with replacement而不是穷尽所有组合，也可以认为用到了Monte Carlo吧。详情还是看Efron&Tibshirani那本An Intro to Bootstrap，没有更好的参考了。【EdisonChen的回答(6票)】:来简单讲讲Bootstrap，（Monte Carlo法在中文维基上有了还不错的解答，题主可以参考，）。Bootstrap，即“拔靴法”（不知道翻得对不对），是用小样本来估计大样本的统计方法。举个栗子来说明好了，（我不会贴一个举栗子的图片的放心！）你要统计你们小区里男女比例，可是你全部知道整个小区的人分别是男还是女很麻烦对吧。于是你搬了个板凳坐在小区门口，花了十五分钟去数，准备了200张小纸条，有一个男的走过去，你就拿出一个小纸条写上“M”，有一个女的过去你就写一个“S”。最后你回家以后把200张纸条放在茶几上，随机拿出其中的100张，看看几个M，几个S，你一定觉得这并不能代表整个小区对不对。然后你把这些放回到200张纸条里，再随即抽100张，再做一次统计。…………如此反复10次或者更多次，大约就能代表你们整个小区的男女比例了。你还是觉得不准？没办法，就是因为不能知道准确的样本，所以拿Bootstrap来做模拟而已。【知乎用户的回答(3票)】:bootstrap是对empirical distribution的monte carlo【梁世超的回答(2票)】:parametric vs non-parametricMonte Carlo 对distribution有 assumption 两者都是在simulatebootstrap只要有sample就是可以simulate具体的话还是读书吧不同model simulate的方法都各不一样【DeniseFan的回答(1票)】:Bootstrap是我们在对一个样本未知的情况下，只能抽取其中一部分数据集，然后对其进行n的反复抽样，来对样本进行点估计什么的。而Mote Carlo则是从simulation的角度出发，当我们对一个distribution已知时，通过一些参数，如均值，方差来对整个distribution进行估计。【JinguoGao的回答(0票)】:Bootstrap是对现有的数据，不断再随机取小的样本，对每个小样处理数据,得到estimator.从而来了解estimator 的variation or distribution.Monte Carlo 是用一个algorithm, 依次输出数组，然后对这些数组处理，得到想要的结果。数组之间的关系由algorithm来决定。Monte Carlo 的概念更广泛。Bootstrap 其实是一种Monte Carlo.通常Monte Carlo 用来求最优解，平衡值等。--- Richard Sperling && wrote:& I would appreciate it if someone could clarify the distinction& between Monte Carlo simulation and the parametric bootstrap. If I'm& not mistaken, one use of Monte Carlo simulation is to assess the& sampling distribution of an estimator. In contrast, the parametric& bootstrap is used to estimate the variance of a statistic and its& sampling distribution.&& But don't both the Monte Carlo method and parametric bootstrap& require specifying a data generating process? It is at this point& where I'm a little confused and fail to see the distinction between& the two methods.&& Also note that I am not talking about the non-parametric bootstrap.In principle both the parametric and the non-parametric bootstrap arespecial cases of Monte Carlo simulations used for a very specificpurpose: estimate some characteristics of the sampling distribution.Remember that the sampling distribution of statistic could be obtainedif we could draw many samples from the population and compute astatistic in each sample. The idea behind the bootstrap is that thesample is an estimate of the population, so an estimate of the samplingdistribution can be obtained by drawing many samples (with replacement)from the observed sample, compute the statistic in each new sample. Incase of the parametric bootstrap you add some extra restrictions whilesampling from the data, but that does not change the point here.Monte Carlo simulations are more general: basically it refers torepeatedly creating random data in some way, do something to thatrandom data, and collect some results. This strategy could be used toestimate some quantity, like in the bootstrap, but also totheoretically investigate some general characteristic of an estimatorwhich is hard to derive analytically.In practice it would be pretty safe to presume that whenever someonespeaks of a Monte Carlo simulation they are talking about a theoreticalinvestigation, e.g. creating random data with no empirical content whatso ever to investigate whether an estimator can recover knowncharacteristics of this random `data', while the (parametric) bootstraprefers to an emprical estimation. The fact that the parametricbootstrap implies a model should not worry you: any empirical estimateis based on a model.Hope this helps,Maarten-----------------------------------------Maarten L. BuisDepartment of Social Research MethodologyVrije Universiteit AmsterdamBoelelaan 10811081 HV AmsterdamThe Netherlandsvisiting address:Buitenveldertselaan 3 (Metropolitan), room Z434-----------------------------------------__________________________________________________________Sent from Yahoo! Mail.A Smarter Email ** For searches and help try:* * * 【知乎用户的回答(0票)】:都是统计模拟方法【TJZhou的回答(0票)】:无法完全认同高票回答。Monte Carlo确实是一个更广泛的想法，而bootstrap过程中确实是用到了Monte Carlo的。我比较赞同的想法“bootstrap是对empirical distribution的monte carlo” 首先看bootstrap的wiki定义In ,bootstrapping can refer to any test or metric that relies on . 它的定义中就包含了“需要重抽样”。高票答案这段话很对：虽然实践中bootstrap的重抽样步骤都是用Monte Carlo方法来模拟重抽样样本统计量的分布，但是严格地说这个分布原则上可以精确计算。而如果待估统计量比较简单，bootstrap的结果有时甚至可以直接用(X_1, ..., X_n)的某种统计量表示出来，从而并不需要真正地“重抽样”。当然实际应用中绝大多数时候重抽样分布的解析表达式都会太复杂，所以用模拟代替计算。我们需要估计一个统计量，统计量是样本的函数。而关于样本，我们能利用的信息只有样本的empirical distribution。所以当然我们的代估计值可以用empirical distribution表示（本来应该用真实分布表示，但只能用empirical distribution近似）。但是绝大多数时候解析表达式太复杂，所以要用模拟代替计算，而bootstrap肯定是包含这个模拟过程的。高票答案好像是认为把估计值的表达式写出来就算bootstrap了，而和Monte Carlo没关系，这是不对的。如果这样理解，那么贝叶斯的后验估计也应该和Monte Carlo完全没关系了。按这样的思路，贝叶斯就是拿prior和likelihood一乘再一标准化就行了，反正标准化常数也是积分能积出来的，只是有时候很难显式积出来。然后得到后验，就能解析地求出所有待估计值了，虽然大部分情况后验是不知道什么的乱七八糟一堆。MCMC (Markov Chain Monte Carlo) 从后验抽样是可以省去的。但是这样的想法肯定不对。-------------------------------------------------下面基于贝叶斯派的观点来看看Bootstrap。如果大家同意贝叶斯和 Monte Carlo 有紧密联系，那么bootstrap 也应该和 Monte Carlo 有紧密联系。假设我们有独立同分布的样本，样本的分布形式完全不知道，假设它们都是从分布里抽取出来的，按贝叶斯派的观点，应该给未知的赋一个先验。是一个分布，所以常用的先验就是分布的分布：Dirichlet Process那么后验就是当时，此后验趋于empirical distribution。要估计某统计量，此统计量是的函数，不妨记为。我们可以通过从的后验抽样来估计注意这个过程就是 Monte Carlo。而此方法和bootstrap的联系就在于，从的后验中抽得的样本，其形式就是一次bootstrap得到的resample样本的empirical distribution。我们可以通过从的后验中尽可能多地抽样来使估计准确，就像我们在bootstrap中可以尽可能多地resample来使估计准确。从后验中抽样，或是resample（从empirical distribution 抽样），就是Monte Carlo method。【陈无左的回答(0票)】:bootstrap可以看作非参Monte Carlo再次重申非参不是没有参数，非参是无穷维参数空间，是无法想到合适参数模型时的默认模式。bootstrap看作对样本经验分布作随机数生成，产生模拟样本。Monte carlo的解释是依赖随机数生成而产生新样本对其进行模拟。bootstrap完全符合这个定义。
馆藏&68506
TA的推荐TA的最新馆藏
喜欢该文的人也喜欢Bootstrapping - CSDN博客
Bootstrapping
Bootstrapping从字面意思翻译是拔靴法，从其内容翻译又叫自助法，是一种再抽样的统计方法。自助法的名称来源于英文短语“to&pull
oneself up by one’s bootstrap”，表示完成一件不能自然完成的事情。1977年美国Standford大学统计学教授Efron提出了一种新的增广样本的统计方法，就是Bootstrap方法，为解决小子样试验评估问题提供了很好的思路。
1、自助法的基本思路：
如果不知道总体分布，那么，对总体分布的最好猜测便是由数据提供的分布。自助法的要点是：①假定观察值便是总体；②由这一假定的总体抽取样本，即再抽样。由原始数据经过再抽样所获得的与原始数据集含量相等的样本称为再抽样样本(resamples)或自助样本(bootstrapsamples)。如果将由原始数据集计算所得的统计量称为观察统计量(observed
statistic)的话，那么由再抽样样本计算所得的统计量称为自助统计量(bootstrap statistic)。自助法的关键所在是自助统计量与观察统计量间的关系，就如同观察统计量与真值间的关系，可表示为：
自助统计量：：观察统计量&=&观察统计量：：真值
其中，“：：”表示二者间的关系，“&=&”表示等价于。也就是说，通过对自助统计量的研究，就可以了解有关观察统计量与真值的偏离情况。
其中的再抽样是有返还的抽样(sampling&with replacement)方式。假定有n个观察值，自助样本可按如下步骤获得：
①将每一观察值写在纸签上；
②将所有纸签放在一个盒子中；
& & & & ③混匀。抽取一个纸签，记下其上的观察值；
& & & & ④放回盒子中，混匀，重新抽取；
& & & & ⑤重复步骤③和④n次，便可得到一个自助样本。重复上述抽样过程B次，便可得到B个自助样本。（引用自刘文忠老师的一篇论文，感觉这样讲的比较容易懂了）。
2、Bootstrap的数学表达
其中等号上面一个小三角号表示定义。
本文已收录于以下专栏：
相关文章推荐
本篇介绍了聚类如何选择K的一种方法（实际上，除了kmeans以外，还可以用于很多其他的聚类方法，如果他们也要确定k。）。该方法使用的Parametric bootstrap来抽样，是统计中bootst...
    Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是...
3 知识的应用
3.1 语义检索
传统的检索是基于关键词，搜索引擎并不理解用户的输入，仅对用户的输入进行切分得到关键词，得到关键词后再与目标数据进行匹配，把匹配的结果通过一定的排序算法返回给用户，用户...
一、假正例和假负例
假正例（False Positive）：预测为1，实际为0的样本
假负例（False Negative）:预测为0，实际为1的样本
实际预测中，那些真正例（True...
2 知识图谱的构建过程设计的关键技术
2.1概念和实体学习
2.1.1可用数据源分析
知识图谱构建的相关数据源，包括结构化数据、半结构的数据以及非结构化数据。
结构化数据为存储在关系数据库或是面向对象...
概率论与统计学中，顺序统计量和经验分布函数（Empirical Distribution Functions）是两个重要的概念。Glivenko定理揭示了总体的理论分布函数与经验分布函数之间的内在联系...
Bootstrap是统计学习中一种重采样（Resampling）技术。这种看似简单的方法，对后来的很多技术都产生了深远的影响。机器学习与数据挖掘中的集成加强方法（例如Bagging，AdaBoost等...
有很多使用autotools的程序，每个有复杂的输入集合。输入文件发生改变时，用适当的顺序运行适当的程序是重要的。不幸的是同时记住依赖关系和顺序是困难的。
例如，无论你任何时候编辑co...
他的最新文章
讲师：吴岸城
您举报文章：
举报原因：
原文地址：
原因补充：
(最多只允许输入30个字)定义/统计分析法
统计分析法统计分析法指通过对研究对象的、速度、、程度等数量关系的分析研究，认识和揭示事物间的相互关系、变化规律和发展趋势，借以达到对事物的正确解释和预测的一种研究方法。世间任何事物都有质和量两个方面，认识事物的本质时必须掌握事物的量的规律。数学已渗透到一切科技领域，使科技日趋量化，的推广和应用，量度设计和计算技术的改进和发展，已形成数量研究法，这已成为自然科学和社会科学研究中不可缺少的研究法。
统计分析法就是运用数学方式，建立数学模型，对通过调查获取的各种数据及资料进行数理统计和分析，形成定量的。统计分析方法是目前广泛使用的现代科学方法，是一种比较科学、精确和客观的测评方法。其具体应用方法很多，在实践中使用较多的是指标评分法和图表测评法。
统计分析法是根据企业的历史数据资料以及同类企业的水平，运用统计学方法来确定企业经营各方面工作的标准。用统计计算法制定的标准，便称为统计。
优点和局限性/统计分析法
统计分析法的优点
方法简单，工作量小。
统计分析法的缺点
定额的准确性差，可靠性差。
一是对历史统计数据的性和准确性要求高，否则制定的标准没有任何；
二是统计数据分析方法选择不当会严重影响标准的科学性；
三是统计资料只反映历史的情况而不反映现实条件的变化对标准的影响；
四是利用本企业的历史性统计资料为某项工作标准，可能低于同行业的先进水平，甚至是平均水平。
&|&相关影像
互动百科的词条（含所附图片）系由网友上传，如果涉嫌侵权，请与客服联系，我们将按照法律之相关规定及时进行处理。未经许可，禁止商业网站等复制、抓取本站内容；合理使用者，请注明来源于。
登录后使用互动百科的服务，将会得到个性化的提示和帮助，还有机会和专业认证智愿者沟通。
此词条还可添加&
编辑次数：7次
参与编辑人数：3位
最近更新时间： 12:06:03
申请可获得以下专属权利：
贡献光荣榜开放式地理实体关系抽取的Bootstrapping方法
文章快速检索
余丽，陆锋，刘希亮。
开放式地理实体关系抽取的Bootstrapping方法[J]. 测绘学报，)：616-622.
DOI: 10.11947/j.AGCS.1
LIU Xiliang. A Bootstrapping Based Approach for Open Geo-entity Relation Extraction[J]. Acta Geodaetica et Cartographica Sinica, ): 616-622.
DOI: 10.11947/j.AGCS.1
开放式地理实体关系抽取的Bootstrapping方法
中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室，北京 100101
中国科学院大学，北京 100101
江苏省地理信息资源开发与利用协同创新中心，江苏南京 210023
基金项目：国家自然科学基金();国家863计划()
第一作者简介：
余丽(1986-)，女，博士生，研究方向为互联网空间信息搜索。E-mail:
通信作者：
陆锋 E-mail: .
摘要：从网络文本中抽取地理实体间空间关系和语义关系要求高时效性和强鲁棒性。本文提出一种开放式地理实体关系的自动抽取方法，通过bootstrapping技术统计词语的词性、位置和距离特征来计算语境中词语权值，据此确定描述地理实体关系的关键词，最终组织成结构化实例，并使用百度百科和Stanford CoreNLP开展了试验。研究结果表明，本文方法能自动挖掘自然语言的部分词法特征，无须领域专家知识和大规模标注语料，适用于未知关系类型的信息抽取任务；较之经典的Frequency、TF-IDF和PPMI频率统计方法，精度和召回率分别提升约5%和23%。
文本挖掘&&&&
地理实体&&&&
关系抽取&&&&
定量评价&&&&
bootstrapping&&&&
A Bootstrapping Based Approach for Open Geo-entity Relation Extraction
LU Feng1,3,
LIU Xiliang1
State Key Lab of Resources and Environmental Information System,The Institute of Geographic Sciences and Natural Resources Research,Beijing 100101,China
University of Chinese Academy of Sciences, Beijing 100101, China
Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023,China
Foundation support: The National Natural Science Foundation of China (No.); The National High-Tech Research and Development Program of China (863 Program) (No.)
First author:
YU Li (1986-), female, PhD candidate, majors in spatial information mining in internet. E-mail:
Corresponding author:
LU Feng, E-mail: luf@
Abstract: Extracting spatial relations and semantic relations between two geo-entities from Web texts,asks robust and effective solutions. This paper puts forward a novel approach: firstly,the characteristics of terms (part-of-speech,position and distance) are analyzed by means of bootstrapping. Secondly,the weight of each term is calculated and the keyword is picked out as the clue of geo-entity relations. Thirdly,the geo-entity pairs and their keywords are organized into structured information. Finally,an experiment is conducted with Baidubaike and Stanford CoreNLP. The study shows that the presented method can automatically explore part of the lexical features and find additional relational terms which neither the domain expert knowledge nor large scale corpora need. Moreover,compared with three classical frequency statistics methods,namely Frequency,TF-IDF and PPMI,the precision and recall are improved about 5% and 23% respectively.
Key words:
text mining&&&&
geo-entities&&&&
relation extraction&&&&
quantitative evaluation&&&&
bootstrapping&&&&
包含地理实体(如地名、组织机构、地缘政治实体)间语义关系(如从属、合作、继承关系)和空间关系(如拓扑、方位、距离关系)的文本资源在广义地理信息采集与服务中占据重要地位[-]，为地图数据库更新提供了巨大潜能，催生了开放式地理实体关系抽取研究[-]。开放式地理实体关系抽取旨在从自然语言文本中抽取地理实体间的空间关系和语义关系，形成结构化的表达形式[]。它不限定于处理规范的新闻文本或者特定领域文本，无须预先定义关系的类别；以“抽取”代替“识别”，挖掘文本中蕴含的一切关系实例，能更好地适应高动态、富信息的网络文本的处理需求[]。
相比实体关系抽取[]，地理实体关系抽取有如下特殊性：①缺乏大规模地理实体关系标注语料[]用于训练监督的机器学习模型，以检测种类繁多的关系类型;②缺乏典型的地理知识库作为启动弱监督机器学习模型的种子。现有的地理知识库(GeoNames Ontology、OSM SemanticNetwork、GeoWordNet等)仅限于描述面状地理实体间的“分离”、“包含”和“相邻”3种空间关系，远不能满足多类型地理实体关系抽取的需求;③文本蕴含的地理实体关系实例分布异质性极强，热点地理实体相关的关系描述频繁出现，而不受关注的地理实体文本描述较少;④地理实体关系抽取结果难以定量评价。人工逐条检查上万条地理实体关系实例的质量是不切实际的，而小规模的随机采样又无法计算系统的召回率。因此，从自然语言文本中抽取地理实体关系面临着巨大的挑战。
本文重在解决开放式地理实体关系抽取的两个核心问题：①缺乏大规模标注语料和地理知识库的前提下，如何自动产生地理实体间空间关系和语义关系的结构化元组;②如何定量评价开放式地理实体关系抽取效果。本文利用bootstrapping技术分析关系词的词法特征，引入到关键词提取的权值计算中，据此将共现地理实体组织成结构化形式，然后分析结果集的质量分布情况，计算关系抽取精度和召回率，并基于百度百科文本验证方法的有效性。
针对文本蕴含地理实体关系抽取的问题，大量的研究成果集中在模式匹配方法。该方法通过提取和泛化词法(句法)模式，可识别出有限的关系实例。文献[]将蕴含“包含”和“相邻”空间关系的隐式表达(文本中未出现关系词)定义为词法模式，作为查询条件在Google和Yahoo中搜索新的地理实体关系实例。该方法适用于按照行政区划级别排列的规范化地址文本，但仅能抽取指定的两种地理实体关系。文献[]使用人工设计的493种中文模式与网页摘要进行匹配，以获取显式表达(文本中出现关系词)的地理实体关系实例。该方法能识别出多种类型的地理实体关系，但需要预先准备大规模的空间词典和模式库。与文献[]的方法相同，文献[]使用234个空间动词建立语法规则，实现了意大利语空间关系抽取。上述的模式匹配方法，其模式发现过程仍依赖于手工劳动，需要领域专家知识；且有限的模式难以适应文本快速增长和变化需求。文献[]基于自建立的大规模空间关系标注语料，采用序列比对的方法自动生成空间关系句法模式库。该方法提高了模式挖掘的自动化程度，但仍需耗费大量人力构建标注语料库。与之不同，关系抽取的模式发现过程充分利用了海量文本的冗余性，整个模式库的构建过程无须人工干预。利用该方法建立的经典关系抽取系统有Reverb、OLLIE、OpenIE。然而，这些系统仍需由领域专家预先定义词法或句法规则。
为了放松地理实体关系抽取方法对领域专家知识的限制，一些研究者使用监督的机器学习方法从文本中自动抽取地理实体关系：通过大规模的标记数据训练某个分类模型，再对未标记数据自动分配某种预定义的关系类型。该方法的主要障碍是缺乏可获取的地理实体关系标注语料。考虑到存在大量未标注的文本且人工标注语料的成本太高，自动生成大规模标注语料的弱监督学习方法逐步成为研究热点。文献[]使用在线的酒店点评文本自动构建了地理实体“相邻”关系的标注语料，规模为10.6万个文档。文献[]使用维基百科自动回标技术，建立了河流与水系的“流入”关系、郊区与城镇的“组成”关系。然而，上述自动构建标注语料的方法仅能建立指定类型的关系标注语料。当建立新类型的关系标注语料时，仍需一定的手工劳动，难以快速适应地理实体关系的多样性。此外，以空间本体为知识库的弱监督学习算法也备受关注。文献[]通过手动建立空间本体，成功抽取了地理实体之间的拓扑和方位关系。相比自动生成大规模标注语料的方法，空间本体更容易扩展到新类型的地理实体关系抽取；然而该方法不能识别出一对地理实体之间的多种关系。
目前，业界尚未开展开放式地理实体关系抽取无监督机器学习方法研究，而在关系抽取领域已有大量的无监督机器学习研究成果。其中，频率统计[-]是一种广泛应用于无监督关系抽取的重要技术，其核心思想是通过统计词语频数反映词语重要性，并选择权值最大的词语作为关系名称。然而，频率统计方法要求表征关系的词语频繁出现，难以适用于稀疏分布的地理实体关系实例。
地理实体关系抽取过程包含：数据获取、数据预处理和数学计算，如所示。下文将重点阐述数学计算子过程。
地理实体关系抽取流程
Flowchart of geo-entity relation extraction
本文研究范围仅限于抽取一个句子中共现的两个地理实体之间的空间关系词语和语义关系词语，且关系词语存在于句中，即显式表达的二元地理实体关系。针对一个句子中共现的两个地理实体(e1,e2)；从所在的句中提取词语组成一个语境s，并过滤停用词“了”、“的”等。关键词抽取即是从集合s中选择一个词语k，使得k能表达一种空间关系或者语义关系。
中国科学技术协会主管、中国测绘地理信息学会主办。
余丽，陆锋，刘希亮
LIU Xiliang
开放式地理实体关系抽取的Bootstrapping方法
A Bootstrapping Based Approach for Open Geo-entity Relation Extraction
收稿日期：
修回日期：

bootstrappingdestroy methodd 具体是指一种什么样的统计方法

我要回帖

更多关于 curl 指定method 的文章

随机推荐