jieba-py项目说明¶
这些年做的工作很多都涉及到中文分词,jieba分词几乎是每个项目必须安装的模块,一直工作非常稳定。 但是由于其代码库长期不再维护,一直是使用中的一个隐患,使用中做过简单的代码修改以去除一些警告。 两年前就有想对其源码进行修改更新的想法,但是由于对自然语言处理并不算了解,没法实际动手。
这次借助于AI工具,得以快速地对项目的各个模块进行了了解,发现项目还是比较简单的。
所以我 fork 了此模块, 实际动手做了一些修改。
合并了原来的一点工作,这中间也大量使用了AI工具。
整体工作量不算大,完成后使用了没有大的问题。目前最新版本已经发布于 pypi 。
这个版本是纯Python语言的继续维护,还是有一些意义的。 jieba分词其实被很多语言重新进行了实现, 其中不乏一些项目是可以在Python中直接使用的。
只保证能运行在 Python 3.10 以上环境,不再考虑 Python 2 的兼容性,简化了一些代码。
对代码进行了格式化,方便阅读。暂时不会进行较大的修改。
在程序结构上使用了更新的技术手段来保证工程的稳定开发。
单元测试进行逐步的修改。这部分不影响核心逻辑,修改影响不大。
打包方式进行了修改,使用了
pyproject.toml配置文件, 放弃原来的setup.py配置文件。发布到
pypi时使用jieba-py命名。 目前与原jieba分词用法完全一样, 只需要安装jieba-py来代替jieba。 为了保持兼容性,使用了jieba模块名,安装时会与旧版本冲突。 如果安装了jieba模块,一定要先卸载jieba模块:python3 -m pip install jieba。移除了对于
paddle模式的支持。 一方面,paddle模式已经不再维护, 另一方面,paddle模式在Python 3.10以上版本中无法运行。
备注
目前 jieba-py 模块已经发布到 pypi 上,请使用 pip 安装。
使用其他Python包管理安装方法请按各自使用方法进行调整。
最新版本为: 0.46.11
python3 -m pip install jieba-py
警告
项目的 ReadMe.md 文件自动生成、维护,请勿直接修改。
文档构建日期: 2026 年 04 月 19 日