结巴分词获取关键词时怎么过滤掉一些中文分词停用词表

面相 | 海贼王 | 牙齿矫正 | 徐州市 | 虚拟专用服务器 | Windows 7 | 疤痕修复 | 方言 | 幼儿教育 | 英文歌曲 | 武术 | 餐饮 | 口臭 | 冬奥会 | 化疗 | 汽车音响 | 休学 | 片尾 | 骨折 | 电子技术研发 | 胃炎 | 姓氏 | 过敏性鼻炎 | 房贷 | 身高 | 加湿器 | 雅马哈 | 金平区 | 马鞍山市 | 取名 | 美杜莎 | 韩国 | 饮食 | 怀集县 | 牙套 | 古琴 | 语言学习 | 坦克 | 体检 | 冠心病 | 书籍 | 寺庙 | 美国电影 | 驾驶经验 | 寓言 | 学术 | 坐月子 | 日语语法 | 山东艺术学院 | 类风湿 | 手相 | 乳腺癌 | 运动损伤 | 自卑 | 房山 | 辩论赛 | 机械键盘 | 大学专业选择 | 塑料制品 | 护发 | 眼袋 | 肺癌 | 血型 | 玄幻小说 | 华为路由器 | 温州市 | 留学香港 | 大学生就业 | 大学生创业 | 城市规划 | 美术生 | 一体机 | 率土之滨 | r（编程语言） | 发音 | 记忆力 | 散光 | 互联网公司 | 西班牙语 | 口腔溃疡 | 汉语 | 观后感 | 留学生 | 参考文献 | 印度 | 中耳炎 | 澳门特别行政区 | 近视手术 | 尧山 | 荨麻疹 | 花卉 | 特许加盟 | 烹饪学校 | 设计院 | 岳阳县 | 婴儿喂养 | 痛风 | 营销策划 | 狐臭 | 失眠 | 眼科学 | 药品 | 欧美 | 弱视 | 童年 | 丙肝 | 合生元 | 男生 | 材料 | 中央戏剧学院 | 葡萄酒 | 网络推广 | 胃痛 | 酒文化 | 脱发 | 情绪管理 | 花样姐姐 | 示波器 | 胶原蛋白 | 痤疮 | 自驾游 | 孩子 | 马克思主义哲学 | 大学就读体验 | 美国留学 | 本科毕业论文 | 白内障 | 精神分裂症 | 在线教育 | 无线耳机 | 发动机 | win8 | 桥梁 | 非洲 | 婚恋网站 | 驾驶技术 | 敏感皮肤 | 学车 | 武昌区 | 整形 | 红酒 | 语言学 | Android手机 | 拉丁舞 | 猪肉 | 大学军训 | 高效学习 | 手绘 | 法国 | 刑事案件 | 胃病 | 牙科医院 | 宁夏回族自治区 | 邳州市 | 国家 | 口红 | 尿毒症 | 时间管理 | 事业单位考试 | 迅雷（软件） | 中国科学技术大学 | 康佳 | 西装 | 蓝河 | 肺气肿 | 地黄 | 外貌 | 高中化学 | 励志故事 | 小吃 | 关节炎 | 驻马店市 | 鲁迅美术学院 | 交警 | 发电 | 皮肤保养 | 文玩 | 轮胎 | 山东工艺美术学院 | 钢笔 | 食道癌 | 校服 | 酵素 | 日本漫画 | 非典 | 服装行业 | 数控车床 | 毕业论文 | 蓝莓 | 七田真 | 配方奶粉 | 头痛 | 枸杞 | 孕妇装 | 儿童 | 婴儿车 | 西医 | 本田（honda） | 研究生导师 | 美白 |

你的位置：网站首页 >> 频道首页 >>词 >>结巴分词获取关键词时怎么过滤掉一些中文分词停用词表

结巴分词获取关键词时怎么过滤掉一些中文分词停用词表

来源：蜘蛛抓取(WebSpider) 时间：2016-08-26 08:26 标签：结巴分词关键词

百度推广怎么设置过滤掉一些关键字_百度知道python编程（47）
全几天看到高手下了个jieba分词快速入门的东西 &，希望关注我博客的人也能看得到
/SalutLyndon/hello-world/blob/master/中文自然语言处理基本流
# coding: utf-8
# ###jieba特性介绍
# 支持三种分词模式：
# 精确模式，试图将句子最精确地切开，适合文本分析；
# 全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
# 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
# 支持繁体分词。
# 支持自定义词典。
# MIT 授权协议。
# ###分词速度
# 1.5 MB / Second in Full Mode
# 400 KB / Second in Default Mode
# 测试环境: Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz；《围城》.txt
# #一、第一部分
# ##Part 1. 分词
# jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型。
# jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细。
# 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8。
# jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用
# jieba.lcut 以及 jieba.lcut_for_search 直接返回 list。
# jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。
import jieba
seg_list = jieba.cut(&我来到北京清华大学&, cut_all=True)
print(&Full Mode: & + &/ &.join(seg_list))
seg_list = jieba.cut(&我来到北京清华大学&, cut_all = False)
print(&Precise Mode: & + &/&.join(seg_list))
#精确模式，默认状态下也是精确模式
seg_list = jieba.cut(&他来到网易杭研大厦。&)
print(&Default Mode: & + &/&.join(seg_list))
seg_list = jieba.cut_for_search(&小明硕士毕业于中国科学院计算所，后在日本京都大学深造。&)
#搜索引擎模式
print(&Search Mode: & + &/&.join(seg_list))
# ##Part 2. 添加自定义词典
# ###载入词典
# 开发者可以指定自己自定义的词典，以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力，但是自行添加新词可以保证更高的正确率。
# 用法： jieba.load_userdict(file_name) # file_name 为自定义词典的路径。
# 词典格式和dict.txt一样，一个词占一行；每一行分三部分，一部分为词语，另一部分为词频（可省略），最后为词性（可省略），用空格隔开。
# 词频可省略，使用计算出的能保证分出该词的词频。
# 更改分词器的 tmp_dir 和 cache_file 属性，可指定缓存文件位置，用于受限的文件系统。
seg_list = jieba.cut(&李小福是创新办主任也是云计算方面的专家。&)
print(&Origin: & + &/&.join(seg_list))
jieba.load_userdict(&C:\\Users\\Luo Chen\\Desktop\\lixiaofu.txt&)
seg_list = jieba.cut(&李小福是创新办主任也是云计算方面的专家。&)
print(&Revise: & + &/&.join(seg_list))
# ###调整词典
# 使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。
# 使用 suggest_freq(segment, tune=True) 可调节单个词语的词频，使其能（或不能）被分出来。
# 注意：自动计算的词频在使用 HMM 新词发现功能时可能无效。
print(&/&.join(jieba.cut(&如果放到post中将出错。&, HMM = False)))
#利用调节词频使“中”，“将”都能被分出来
jieba.suggest_freq((&中&, &将&), tune = True)
print(&/&.join(jieba.cut(&如果放到post中将出错。&, HMM = False)))
Original = &/&.join(jieba.cut(&江州市长江大桥参加了长江大桥的通车仪式。&, HMM = False))
print &Original: & + Original
jieba.add_word(&江大桥&, freq = 20000, tag = None)
print &/&.join(jieba.cut(&江州市长江大桥参加了长江大桥的通车仪式。&))
jieba.load_userdict(&C:\\Users\\Luo Chen\\Desktop\\shizhang.txt&)
print &Revise: & + &/&.join(jieba.cut(&江州市长江大桥参加了长江大桥的通车仪式。&, HMM = False))
# ##Part 3. 词性标注
# jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器，tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。
# 标注句子分词后每个词的词性，采用和 ictclas 兼容的标记法。
import jieba.posseg as pseg
words = pseg.cut(&我爱北京天安门。&)
for w in words:
print(&%s %s& %(w.word, w.flag))
# ##Part 4. 关键词提取
# ###基于 TF-IDF 算法的关键词提取
# import jieba.analyse
# jieba.analyse.extract_tags(sentence, topK = 20, withWeight = False, allowPOS = ())
# sentence:待提取的文本。
# topK:返回几个 TF/IDF 权重最大的关键词，默认值为20。
# withWeight:是否一并返回关键词权重值，默认值为False。
# allowPOS:仅包括指定词性的词，默认值为空，即不进行筛选。
# jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例，idf_path 为 IDF 频率文件。
# optparse模块OptionParser学习
# optparse是专门在命令行添加选项的一个模块。
from optparse import OptionParser
MSG_USAGE = &myprog[ -f ][-s ] arg1[,arg2..]&
optParser = OptionParser(MSG_USAGE)
#以上，产生一个OptionParser的物件optParser。传入的值MSG_USAGE可被调用打印命令时显示出来。
optParser.add_option(&-f&,&--file&,action = &store&,type=&string&,dest = &fileName&)
optParser.add_option(&-v&,&--vison&, action=&store_false&, dest=&verbose&,default='gggggg',
help=&make lots of noise [default]&)
#调用OptionParser.add_option()添加选项，add_option()参数说明：
#action:存储方式，分为三种store, store_false, store_true
#type:类型
#dest:存储的变量
#default:默认值
#help:帮助信息
fakeArgs = ['-f','file.txt','-v','good luck to you', 'arg2', 'arge']
options, args = optParser.parse_args(fakeArgs)
print options.fileName
print options.verbose
print options
print args
#调用OptionParser.parse_args()剖析并返回一个directory和一个list
#parse_args()说明:
#如果没有传入参数，parse_args会默认将sys.argv[1:]的值作为默认参数。这里我们将fakeArgs模拟输入的值。
#从返回结果中可以看到，
#options为是一个directory,它的内容fakeArgs为“参数/值 ”的键值对。
#args 是一个list，它的内容是fakeargs除去options后，剩余的输入内容。
#options.version和options.fileName都取到与options中的directory的值。
print optParser.print_help()
#输出帮助信息
#optParser.print_help()说明：
#1、最开始的的MSG_USAGE的值:在这个地方显示出来了。
#2、自动添加了-h这个参数。
import jieba.analyse as anl
f = open(&C:\\Users\\Luo Chen\\Desktop\\demo.txt&, &r&).read()
seg = anl.extract_tags(f, topK = 20, withWeight = True)
for tag, weight in seg:
print &%s %s& %(tag, weight)
# 关键词提取所使用逆向文件频率（IDF）文本语料库可以切换成自定义语料库的路径。
# jieba.analyse.set_idf_path(file_name) #file_name为自定义语料库的路径
# 如：jieba.analyse.set_idf_path(&../extra_dict/idf.txt.big&)
# .big文件一般是游戏中的文件，比较常见的用途是装载游戏的音乐、声音等文件。
# 关键词提取所使用停用词（Stop Words）文本语料库可以切换成自定义语料库的路径。
# jieba.analyse.set_stop_words(file_name) #file_name为自定义语料库的路径。
# 如：jieba.analyse.set_stop_words(&../extra_dict/stop_words.txt&)
# ###基于 TextRank 算法的关键词提取
# 基本思想:
# 将待抽取关键词的文本进行分词；
# 以固定窗口大小(默认为5，通过span属性调整)，词之间的共现关系，构建图；
# 计算图中节点的PageRank，注意是无向带权图。
# jieba.analyse.textrank(sentence, topK = 20, withWeight = False, allowPOS = ('ns', 'n', 'v', 'nv')) 注意默认过滤词性。
# jieba.analyse.TextRank() 新建自定义TextRank实例。
s = &此外，公司拟对全资子公司吉林欧亚置业有限公司增资4.3亿元，增资后，吉林欧亚置业注册资本由7000万元增加到5亿元。吉林欧亚置业主要经营范围为房地产开发及百货零售等业务。目前在建吉林欧亚城市商业综合体项目。2013年，实现营业收入0万元，实现净利润-139.13万元。&
for x, w in jieba.analyse.textrank(s, topK = 5, withWeight = True):
print(&%s %s& % (x, w))
# ##Part 5. 并行分词（多进程分词）
# 原理：将目标文本按行分隔后，把各行文本分配到多个 Python 进程并行分词，然后归并结果，从而获得分词速度的可观提升。
# 基于 python 自带的 multiprocessing 模块，目前暂不支持 Windows。
# jieba.enable_parallel(4) # 开启并行分词模式，参数为并行进程数
# jieba.disable_parallel() # 关闭并行分词模式
# 实验结果：在 4 核 3.4GHz Linux 机器上，对金庸全集进行精确分词，获得了 1MB/s 的速度，是单进程版的 3.3 倍。
# 注意：并行分词仅支持默认分词器 jieba.dt 和 jieba.posseg.dt。
# ##Part 6. Tokenize: 返回词语在原文的起止位置
# 注意：输入参数只接受 unicode
# 两种模式：默认模式、搜索模式。
# ###默认模式
result = jieba.tokenize(u&永和服装饰品有限公司&)
for tk in result:
print(&%s \t start at: %d \t end at: %d& %(tk[0], tk[1], tk[2]))
# ###搜索模式
# 把句子中所有的可以成词的词语都扫描出来并确定位置。
result = jieba.tokenize(u&永和服装饰品有限公司&, mode = &search&)
for tk in result:
print(&%s \t start at: %d \t end at: %d& % (tk[0], tk[1], tk[2]))
# ##Part 7. 延迟加载机制
# jieba 采用延迟加载，import jieba 和 jieba.Tokenizer() 不会立即触发词典的加载，一旦有必要才开始加载词典构建前缀字典。如果你想手工初始 jieba，也可以手动初始化。
# import jieba
# jieba.initialize()
#手动初始化（可选）
# 在 0.28 之前的版本是不能指定主词典的路径的，有了延迟加载机制后，你可以改变主词典的路径:
# jieba.set_dictionary(&data/dict.txt.big&)
# 也可以下载你所需要的词典，然后覆盖jieba/dict.txt即可。
# #二、第二部分
# ##Part 1. 词频统计、降序排序
article = open(&C:\\Users\\Luo Chen\\Desktop\\demo_long.txt&, &r&).read()
words = jieba.cut(article, cut_all = False)
word_freq = {}
for word in words:
if word in word_freq:
word_freq[word] += 1
word_freq[word] = 1
freq_word = []
for word, freq in word_freq.items():
freq_word.append((word, freq))
freq_word.sort(key = lambda x: x[1], reverse = True)
max_number = int(raw_input(u&需要前多少位高频词？ &))
for word, freq in freq_word[: max_number]:
print word, freq
# ##Part 2. 人工去停用词
# 标点符号、虚词、连词不在统计范围内。
stopwords = []
for word in open(&C:\\Users\\Luo Chen\\Desktop\\stop_words.txt&, &r&):
stopwords.append(word.strip())
article = open(&C:\\Users\\Luo Chen\\Desktop\\demo_long.txt&, &r&).read()
words = jieba.cut(article, cut_all = False)
stayed_line = &&
for word in words:
if word.encode(&utf-8&) not in stopwords:
stayed_line += word + & &
print stayed_line
# ##Part 3. 合并同义词
# 将同义词列举出来，按下Tab键分隔，把第一个词作为需要显示的词语，后面的词语作为要替代的同义词，一系列同义词放在一行。
# 这里，“北京”、“首都”、“京城”、“北平城”、“故都”为同义词。
combine_dict = {}
for line in open(&C:\\Users\\Luo Chen\\Desktop\\tongyici.txt&, &r&):
seperate_word = line.strip().split(&\t&)
num = len(seperate_word)
for i in range(1, num):
combine_dict[seperate_word[i]] = seperate_word[0]
jieba.suggest_freq(&北平城&, tune = True)
seg_list = jieba.cut(&北京是中国的首都，京城的景色非常优美，就像当年的北平城，我爱这故都的一草一木。&, cut_all = False)
f = &,&.join(seg_list)
result = open(&C:\\Users\\Luo Chen\\Desktop\\output.txt&, &w&)
result.write(f.encode(&utf-8&))
result.close()
for line in open(&C:\\Users\\Luo Chen\\Desktop\\output.txt&, &r&):
line_1 = line.split(&,&)
final_sentence = &&
for word in line_1:
if word in combine_dict:
word = combine_dict[word]
final_sentence += word
final_sentence += word
print final_sentence
# ##Part 4. 词语提及率
# 主要步骤：分词——过滤停用词（略）——替代同义词——计算词语在文本中出现的概率。
origin = open(&C:\\Users\\Luo Chen\\Desktop\\tijilv.txt&, &r&).read()
jieba.suggest_freq(&晨妈妈&, tune = True)
jieba.suggest_freq(&大黑牛&, tune = True)
jieba.suggest_freq(&能力者&, tune = True)
seg_list = jieba.cut(origin, cut_all = False)
f = &,&.join(seg_list)
output_1 = open(&C:\\Users\\Luo Chen\\Desktop\\output_1.txt&, &w&)
output_1.write(f.encode(&utf-8&))
output_1.close()
combine_dict = {}
for w in open(&C:\\Users\\Luo Chen\\Desktop\\tongyici.txt&, &r&):
w_1 = w.strip().split(&\t&)
num = len(w_1)
for i in range(0, num):
combine_dict[w_1[i]] = w_1[0]
seg_list_2 = &&
for i in open(&C:\\Users\\Luo Chen\\Desktop\\output_1.txt&, &r&):
i_1 = i.split(&,&)
for word in i_1:
if word in combine_dict:
word = combine_dict[word]
seg_list_2 += word
seg_list_2 += word
print seg_list_2
freq_word = {}
seg_list_3 = jieba.cut(seg_list_2, cut_all = False)
for word in seg_list_3:
if word in freq_word:
freq_word[word] += 1
freq_word[word] = 1
freq_word_1 = []
for word, freq in freq_word.items():
freq_word_1.append((word, freq))
freq_word_1.sort(key = lambda x: x[1], reverse = True)
for word, freq in freq_word_1:
print word, freq
total_freq = 0
for i in freq_word_1:
total_freq += i[1]
for word, freq in freq_word.items():
freq = float(freq) / float(total_freq)
print word, freq
# ##Part 5. 按词性提取
import jieba.posseg as pseg
word = pseg.cut(&李晨好帅，又能力超强，是“大黑牛”，也是一个能力者，还是队里贴心的晨妈妈。&)
for w in word:
if w.flag in [&n&, &v&, &x&]:
print w.word, w.flag
参考知识库
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：24904次
积分：1483
积分：1483
排名：第19769名
原创：129篇
转载：10篇
(1)(3)(6)(9)(27)(92)(1)Natural Language Processing（20）
首先什么是中文分词stop word？
英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子I am a student，用中文则为：“我是一个学生”。计算机可以很简单通过空格知道student是一个单词，但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词，有些人也称为切词。我是一个学生，分词的结果是：我是一个学生。
其次中文分词和搜索引擎关系与影响！
中文分词到底对搜索引擎有多大影响？对于搜索引擎来说，最重要的并不是找到所有结果，因为在上百亿的网页中找到所有结果没有太多的意义，没有人能看得完，最重要的是把最相关的结果排在最前面，这也称为相关度排序。中文分词的准确与否，常常直接影响到对搜索结果的相关度排序。笔者最近替朋友找一些关于日本和服的资料，在搜索引擎上输入“和服”，得到的结果就发现了很多问题。
小谈：中文分词技术
中文分词技术属于自然语言处理技术范畴，对于一句话，人可以通过自己的知识来明白哪些是词，哪些不是词，但如何让计算机也能理解？其处理过程就是分词算法。
现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
1、基于字符串匹配的分词方法
这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下：
1）正向最大匹配法（由左到右的方向）；
2）逆向最大匹配法（由右到左的方向）；
3）最少切分（使每一句中切出的词数最小）。
还可以将上述各种方法相互组合，例如，可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点，正向最小匹配和逆向最小匹配一般很少使用。一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式，称为特征扫描或标志切分，优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械分词，从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而极大地提高切分的准确率。
对于机械分词方法，可以建立一个一般的模型，在这方面有专业的学术论文，这里不做详细论述。
2、基于理解的分词方法
这种分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。
3、基于统计的分词方法
从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性，会经常抽出一些共现频度高、但并不是词的常用字组，例如“这一”、“之一”、“有的”、“我的”、“许多的”等，并且对常用词的识别精度差，时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典（常用词词典）进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
到底哪种分词算法的准确度更高，目前并无定论。对于任何一个成熟的分词系统来说，不可能单独依靠某一种算法来实现，都需要综合不同的算法。笔者了解，海量科技的分词算法就采用“复方分词法”，所谓复方，相当于用中药中的复方概念，即用不同的药才综合起来去医治疾病，同样，对于中文词的识别，需要多种算法来处理不同的问题。
分词中的难题
有了成熟的分词算法，是否就能容易的解决中文分词的问题呢？事实远非如此。中文是一种十分复杂的语言，让计算机理解中文语言更是困难。在中文分词过程中，有两大难题一直没有完全突破。
1、歧义识别
歧义是指同样的一句话，可能有两种或者更多的切分方法。例如：表面的，因为“表面”和“面的”都是词，那么这个短语就可以分成“表面的”和“表面的”。这种称为交叉歧义。像这种交叉歧义十分常见，前面举的“和服”的例子，其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆和服装”或者“化妆和服装”。由于没有人的知识去理解，计算机很难知道到底哪个方案正确。
交叉歧义相对组合歧义来说是还算比较容易处理，组合歧义就必需根据整个句子来判断了。例如，在句子“这个门把手坏了”中，“把手”是个词，但在句子“请把手拿开”中，“把手”就不是一个词；在句子“将军任命了一名中将”中，“中将”是个词，但在句子“产量三年中将增长两倍”中，“中将”就不再是词。这些词计算机又如何去识别?
如果交叉歧义和组合歧义计算机都能解决的话，在歧义中还有一个难题，是真歧义。真歧义意思是给出一句话，由人去判断也不知道哪个应该是词，哪个应该不是词。例如：“乒乓球拍卖完了”，可以切分成“乒乓球拍卖完了”、也可切分成“乒乓球拍卖完了”，如果没有上下文其他的句子，恐怕谁也不知道“拍卖”在这里算不算一个词。
2、新词识别
新词，专业术语称为未登录词。也就是那些在字典中都没有收录过，但又确实能称为词的那些词。最典型的是人名，人可以很容易理解句子“王军虎去广州了”中，“王军虎”是个词，因为是一个人的名字，但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去，全世界有那么多名字，而且每时每刻都有新增的人名，收录这些人名本身就是一项巨大的工程。即使这项工作可以完成，还是会存在问题，例如：在句子“王军虎头虎脑的”中，“王军虎”还能不能算词？
新词中除了人名以外，还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题，而且这些又正好是人们经常使用的词，因此对于搜索引擎来说，分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。
中文分词的应用
目前在自然语言处理技术中，中文处理技术比西文处理技术要落后很大一段距离，许多西文的处理方法中文不能直接采用，就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础，搜索引擎只是中文分词的一个应用。其他的比如机器翻译（MT）、语音合成、自动分类、自动摘要、自动校对等等，都需要用到分词。因为中文需要分词，可能会影响一些研究，但同时也为一些企业带来机会，因为国外的计算机处理技术要想进入中国市场，首先也是要解决中文分词问题。在中文研究方面，相比外国人来说，中国人有十分明显的优势。
分词准确性对搜索引擎来说十分重要，但如果分词速度太慢，即使准确性再高，对于搜索引擎来说也是不可用的，因为搜索引擎需要处理数以亿计的网页，如果分词耗用的时间过长，会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说，分词的准确性和速度，二者都需要达到很高的要求。目前研究中文分词的大多是科研院校，清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍，而真正专业研究中文分词的商业公司除了海量科技以外，几乎没有了。科研院校研究的技术，大部分不能很快产品化，而一个专业公司的力量毕竟有限，看来中文分词技术要想更好的服务于更多的产品，还有很长一段路要走。。。
一、什么是停用词？
停用词(Stop Words) ，词典译为“电脑检索中的虚字、非检索用字”。在SEO中，为节省存储空间和提高搜索效率，搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词，这些字或词即被称为Stop Words(停用词)。
停用词一定程度上相当于过滤词(Filter Words)，不过过滤词的范围更大一些，包含黄色、政治等敏感信息的关键词都会被视做过滤词加以处理，停用词本身则没有这个限制。通常意义上，停用词(Stop Words)大致可分为如下两类：
1、使用十分广泛，甚至是过于频繁的一些单词。比如英文的“i”、“is”、“what”，中文的“我”、“就”之类词几乎在每个文档上均会出现，查询这样的词搜索引擎就无法保证能够给出真正相关的搜索结果，难于缩小搜索范围提高搜索结果的准确性，同时还会降低搜索的效率。因此，在真正的工作中，Google和百度等搜索引擎会忽略掉特定的常用词，在搜索的时候，如果我们使用了太多的停用词，也同样有可能无法得到非常精确的结果，甚至是可能大量毫不相关的搜索结果。
2、文本中出现频率很高，但实际意义又不大的词。这一类主要包括了语气助词、副词、介词、连词等，通常自身并无明确意义，只有将其放入一个完整的句子中才有一定作用的词语。如常见的“的”、“在”、“和”、“接着”之类，比如“SEO研究院是原创的SEO博客”这句话中的“是”、“的”就是两个停用词。
二、Stop Words对SEO的影响
文档中如果大量使用Stop words容易对页面中的有效信息造成噪音干扰，所以搜索引擎在运算之前都要对所索引的信息进行消除噪音的处理。了解了Stop Words，在网页内容中适当地减少停用词出现的频率，可以有效地帮助我们提高关键词密度，在网页标题标签中避免出现停用词能够让所优化的关键词更集中、更突出。
参考知识库
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：23375次
排名：千里之外
原创：19篇
转载：64篇
(4)(3)(3)(2)(2)(2)(1)(6)(7)(5)(8)(2)(17)(2)(2)(10)(3)(5)(1)

结巴分词获取关键词时怎么过滤掉一些中文分词停用词表

我要回帖

更多关于结巴分词关键词的文章

随机推荐

结巴分词获取关键词时怎么过滤掉一些中文分词 停用词表

我要回帖

更多关于 结巴分词 关键词 的文章

随机推荐

结巴分词获取关键词时怎么过滤掉一些中文分词停用词表

更多关于结巴分词关键词的文章