solr 7.0 与spring-data 3.0整合 --(3)中文分词搜索

前面发现的问题

之前的使用的版本信息为
solrj 7.3.0
spring-data-solr 3.0.6 RELEASE
在进行输入插入时

@Test
    public void save(){
        Music music = new Music();
        music.setResId(12345555L);
        music.setSongId(1234555L);
        musicRepository.save(music);
    }

会抛出异常

java.lang.NoSuchMethodError: org.apache.solr.common.SolrInputField.setValue(Ljava/lang/Object;F)V

原因是spring-data-solr是基于底层封装solrj来进行的架构,但是当前版本的spring-data-solr并不支持solrj 7.0.0以上的版本,会导致找不到方法,因此需要将solrj进行降版本处理,降至6.6.3后问题得到解决,能成功进行数据插入。

<dependency>
      <groupId>org.apache.solr</groupId>
      <artifactId>solr-solrj</artifactId>
      <version>6.6.3</version>
    </dependency>
    <dependency>

中文分词

在spring-data-solr中并未找到分词的功能,因此需要使用solrj来实现分词功能。
MusicRepositoryImpl中加入以下方法:

/**
/**
 * @Author Alistair.Chow
 * @Description 中文分词
 * @Date 11:11 2018/6/29
 * @Param [sentence]
 * @return java.lang.String
 **/
public String getAnalysis(String sentence) throws IOException, SolrServerException {
    FieldAnalysisRequest request = new FieldAnalysisRequest("/analysis/field");
    // 字段名,随便指定一个支持中文分词的字段
    request.addFieldName(Music.FIELD_KEYWORDS);
    // 字段值,可以为空字符串,但是需要显式指定此参数
    request.setFieldValue("");
    request.setQuery(sentence);

    FieldAnalysisResponse response = null;
    response = request.process(solrTemplate.getSolrClient(), Music.CORE_NAME);

    String results = "";
    Iterator<AnalysisResponseBase.AnalysisPhase> it = response.getFieldNameAnalysis(Music.FIELD_KEYWORDS)
            .getQueryPhases().iterator();
    while(it.hasNext()) {
        AnalysisResponseBase.AnalysisPhase pharse = (AnalysisResponseBase.AnalysisPhase)it.next();
        List<AnalysisResponseBase.TokenInfo> list = pharse.getTokens();
        for (AnalysisResponseBase.TokenInfo info : list) {
            results += " " + (info.getText());
        }

    }

注意:其指定的字段必须要支持中文分词,在solr中的配置不能为string或其他类型。
如以上keywords在music中的定义为:

public static final String FIELD_KEYWORDS = "keywords";

@Indexed(name = FIELD_KEYWORDS, type="text_ik")
private String keywords;

在solr中的配置为:

<field name="keywords" type="text_ik" indexed="true" stored="true" multiValued="true"/>

<copyField source="singer_name" dest="keywords"/>
<copyField source="music_name" dest="keywords"/>

添加测试代码:

@Test
public void analysis() throws IOException, SolrServerException {
    System.out.println(musicRepository.getAnalysis("我要听刘德华的歌"));
}

执行结果为:

 要听 刘德华 歌

由于使用了ik中文分词,所以分词后去除了一些定冠词。

分词搜索

分完词,搜索就简单了。因为之前的代码,就使用了按空格拆分词语(空格可以适用于英文),因此只需要简单封装一下,调用前面的方法就行了。

增加一个关键字搜索和分词搜索的接口
CustomRepository接口中加入:

public ScoredPage<Music> searchByKeyword(String searchTerm, long pageIndex, int pageSize);

public ScoredPage<Music> searchBySentence(String sentence, long pageIndex, int pageSize) 
            throws IOException, SolrServerException;

MusicRepositoryImpl中实现:

    /**
     * @Author Alistair.Chow
     * @Description 关键字搜索
     * @Date 10:07 2018/6/28
     * @Param [searchTerm, pageIndex, pageSize]
     * @return org.springframework.data.solr.core.query.result.ScoredPage<hk.reco.media.music.res.solr.model.MusicSolr>
     **/
    @Override
    public ScoredPage<Music> searchByKeyword(String searchTerm, long pageIndex, int pageSize) {
        String[] words = searchTerm.toUpperCase().split(" ");
        String[] contidionFields = new String[]{Music.FIELD_KEYWORDS};
        Criteria conditions = createSearchConditions(contidionFields, words);
        SimpleQuery search = new SimpleQuery(conditions);
        search.setOffset(pageIndex);
        search.setRows(pageSize);
        ScoredPage<Music> page = solrTemplate.queryForPage(Music.CORE_NAME, search, Music.class);
        return page;
    }
 
/**
 * @Author Alistair.Chow
 * @Description 语句搜索
 * @Date 10:13 2018/6/28
 * @Param [sentence, pageIndex, pageSize]
 * @return org.springframework.data.solr.core.query.result.ScoredPage<hk.reco.media.music.res.solr.model.MusicSolr>
 **/
 @Override
 public ScoredPage<MusicSolr> searchBySentence(String sentence, long pageIndex, int pageSize) throws IOException, SolrServerException {
     String words = getAnalysis(sentence.toUpperCase());
     return searchByKeyword(words, pageIndex, pageSize);
 }

测试一下:

@Test
public void searchByKeywords(){
    ScoredPage<Music> musicList = musicRepository.searchByKeyword("赵传", 0, 10);
    for (Music music : musicList.getContent()) {
        System.out.println(music);
    }
}

@Test
public void searchBySentence() throws IOException, SolrServerException {
    ScoredPage<Music> musicList = musicRepository.searchBySentence("我要听刘德华的歌", 0, 10);
    for (Music music : musicList.getContent()) {
        System.out.println(music);
    }
}
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,841评论 18 139
  • Spring Boot 参考指南 介绍 转载自:https://www.gitbook.com/book/qbgb...
    毛宇鹏阅读 46,926评论 6 342
  • 昨天写没,昨天好像没写,不过看了挺久的,看别人写的。不过我觉得我记忆力好像有点问题,一点也记不起来昨天看了些啥的,...
    Lww酱阅读 260评论 0 0
  • 《缺失》 总是这样的开端 不合时宜的拳头、玻璃渣 一场战争在相同的血液里展开 各自为敌 而后 不遗余力的保持距离 ...
    却悔阅读 645评论 8 11
  • 每天,迷迷糊糊的睁开眼睛,匆匆忙忙的秉烛入睡,一切似乎都如走马观花,就过完了一天的繁华与琐碎。有时候,静然回首却不...
    空影疏淡阅读 225评论 0 0