一、基本介绍
jieba
是一个中文分词库,它支持三种分词模式:精确模式、全模式和搜索引擎模式。
二、特点和优势
- 支持四种分词模式:精确模式、全模式、搜索引擎模式和paddle模式。
- 提供自定义词典功能,可以添加、删除词语。
- 支持关键词提取和词性标注。
- 提供Tokenize接口,可以获取每个词语的起始位置和词性。
- 支持并行分词,提高分词速度。
三、基本步骤
安装 jieba:
使用 pip 安装 jieba
:
pip install jieba
导入库:
在 Python 脚本中导入 jieba
:
import jieba
基本分词:
使用 jieba.cut
方法进行分词:
text = "我来到北京清华大学"
words = jieba.cut(text)
print("/ ".join(words))
添加自定义词典:
jieba
允许你添加自定义词典来提高分词的准确性:
jieba.load_userdict("userdict.txt") # 载入自定义词典
调整词典:
你可以调整词典中的词语频率,以改变分词结果:
jieba.add_word('中清华', freq=5000, tag='nz') # 添加词语及其频率和词性
精确模式:
精确模式将句子最精确地切分:
jieba.enable_only_full_mode() # 启用全模式
全模式:
全模式将进行最全面的分词,速度较慢:
jieba.enable_all_words_mode() # 启用全模式
搜索引擎模式:
搜索引擎模式在精确模式的基础上,对长词再次切分,适合用于搜索引擎构建索引:
jieba.enable_only_full_mode() # 启用精确模式
jieba.cut_for_search(text) # 对文本进行搜索引擎模式的分词
词性标注:
jieba
还可以进行词性标注:
words = jieba.cut("我来到北京清华大学")
for word, flag in jieba.posseg.cut(words):print('%s %s' % (word, flag))
调整词频:
可以调整词语的词频,以优化分词结果:
jieba.suggest_freq(('中', '北京'), True) # 调整词语的词频
使用词典:
jieba
可以使用多种词典,包括 tf_idf、binary 和 hmm 词典:
jieba.load_dict('dict.txt') # 加载自定义词典
四、总结
jieba
分词库非常灵活,支持多种分词模式和自定义词典,适用于各种中文文本处理任务。如果你需要更详细的文档或示例,可以访问 jieba
的官方文档或 GitHub 仓库。