内容摘要:相信大家每天都会使用搜索引擎,互联网上大量的信息资源,依托搜索引擎用户可以快速找到对自己有价值的信息。搜索引擎也帮助网站带来了大量的流量,搜索公司本身不生产数据,但通过在信息上构建关联变成服务,从而产生巨大的附加价值。这后面技术逻辑和秘密是什么呢?今天我们就搜索的后台技术聊一聊。
1、相关性搜索的概念
谈到搜索,我想大家每天都再用,Ctrl+F输入关键字,找到内容,这不就是搜索吗?但是,要做一个搜索引擎,这显然是不够的。比如你是一个科技控,你搜索小米,那估计八成是你要找叫“小米”的手机。在下面搜索推荐相关信息的时候,可能还要给出苹果手机、华为手机相关信息才合适。很多情况下字面的意思,必须要联系到你的使用场景,才能给出用户更多有价值的服务。
接下来我们就谈谈搜索中,相关的重要性。所谓相关性,就是根据内容对用户及业务需求的满足程度,对搜索内容进行排名的一门学问。它会将搜索引擎打造成一个看似智能的系统,能够理解用户和业务的需求。
Google大名鼎鼎的Pagerank排序算法,词频(TF/IDF)和词向量(Word2vec)计算等算法,核心问题就是在提取每个搜索页面内容的相关性。谁都想用一个比简单对单词更智能的搜索工具,能更好地给出满足用户需求的相关性是每个搜索引擎具有竞争力的关键。
下面我们看看能给出满足用户需求的相关性信息,有哪些核心技术呢?
2、知识图谱的作用
“Things not strings”。知识图谱是Google于2012年提出的,目的是用来优化搜索结果,让计算机理解人类信息内在的相关性(图1)。经过多年的发展,知识图谱在人工智能的许多行业都拥有了成熟落地的应用。按照知识图谱的覆盖面来看,主要分为通用知识图谱与行业知识图谱。
通用知识图谱范围很广,面向全领域,主要应用于面向互联网的搜索、推荐、问答等业务场景。它的核心强调的是广度。这个工作我们就不谈了,因为有大公司想着干。下面谈谈行业知识图谱,如果用通用知识图谱去解决行业问题,往往会产生很多笑话。
在金融领域,管理部门通过对大量的敏感数据进行语义关联分析,可以防止欺诈,确保数据安全等。在医学领域,通过大量的病例,可以给出某种症状可能的最佳治疗方案。
行业知识图谱对准确度要求非常高,通常用于辅助各种复杂的分析应用或决策支持。针对细分行业,面向特定领域的知识图谱,可能是未来研究的热点。在细分的专业领域有严格与丰富的数据模式,行业知识图谱中的实体通常属性比较多且具有行业意义。
特别是在科学研究方面,我们用过谷歌学术,可以给出每篇文章的引用情况,以及有关作者研究领域的深度挖掘信息。当前阶段,科学知识图谱是跟踪科技前沿、选择科研方向、开展知识管理与辅助科技决策的一种有效工具。
3、垂直领域搜索的意义
通过知识图谱的构建是实现相关性搜索的关键,而把这些应用到专业领域,实现垂直行业专有信息的搜索应用。这个工作对于促进行业发展将是十分有意义的事情。
要实现一套面向垂直领域的搜索引擎,通常需要行业知识建模、行业知识抽取到应用构建三个步骤。通过对行业涉及到的实体内容进行建模,提取诸如:科研人员、成果、项目之间的关联性等。
垂直领域搜索的意义在于可以最大程度地整合内外资源,打造企业竞争力,最大程度地从已有经验中发现有价值的信息,实现创新驱动发展的模式转变。
智能搜索技术也是集数学、统计学、计算机科学以及现代数据挖掘、复杂网络为一体的科学发展及其研究前沿知识发现与分析方法与技术。
结语
知识图谱作为人工智能的基石,是构建智能应用的基础。而掌握好搜索工具,对大家日后科研帮助无疑将是十分巨大的。期望这篇短文能起个头,能引起大家对专业领域知识图谱构建的兴趣,要想动手很多技术和算法可以去进一步探索。