Lucene中的token和term的区别
2021/12/27 23:14:59
本文主要是介绍Lucene中的token和term的区别,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
Term是一个最小搜索单元,Lucene中有个Term和对应的TermQuery;Token应该是分词过程中记录一些分词信息的对象。
Token类的说明是这样的
简单的翻译下:token由字段文本的term产生,包含term的内容,起始,结束位移和类型字符串。
起始和结束偏移能够通过原来的text,连接起来,用于高亮或者匹配文本段等。
type是一个字符串,被词语解析器指定,命名了token属于的词语类型,例如,在一个句子的结尾,token使用“eos”类型实现,缺省的token类型是word。
从Lucene2.9开始,Token这个类就不建议使用了,推荐使用Attributes的实现类代替。尽管token不在使用,但是可以使用TokenStream API可以轻松实现所有的Attribute。
新版取得分词信息方式如下:
Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_47); String text = "利用 Lucene 进行搜索就像建立索引一样也是非常方便的。"; TokenStream tokenStream = analyzer.tokenStream("keyword",text); tokenStream.reset(); whiel(tokenStream.incrementToken(){ CharTermAttribute charTermAttribute = tokenStream.getAttribute(CharTermAttribute.class); }
Term的注释是这样的
Term表示文本中的一个词语,是搜索单元,它由两个元素组成,词语的内容和文本所在的field(域),Term不仅仅表示字符串词语,还可以代表日期,邮件地址,或者url。
总结一下:
Term用于查询,下面就是一个query。
Term query = new Term("keyword","Lucene");
Token是在分词过程中产生的对象。
这篇关于Lucene中的token和term的区别的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-06-06Package Easy(基于 NSIS 的打包exe安装包工具)使用方法-icode9专业技术文章分享
- 2024-06-06基于 casdoor 的 ELK 开源登录认证解决方案: elk-auth-casdoor-icode9专业技术文章分享
- 2024-05-29Elasticsearch慢查询日志配置
- 2024-05-29揭秘华为如此多成功项目的产品关键——Charter模板
- 2024-05-29海外IDC业务拓展的7大挑战
- 2024-05-29InLine Chat功能优化对标Github Copilot,CodeGeeX带来更高效、更直观的编程体验!
- 2024-05-29CodeGeeX 智能编程助手 6 项功能升级,在Visual Studio插件市场霸榜2周!
- 2024-05-29AutoMQ 生态集成 Apache Doris
- 2024-05-292024年IDC行业的深度挖掘:机遇、挑战与未来展望
- 2024-05-29五款扩展组件齐发 —— Volcano、Keda、Crane-scheduler 等,邀你体验