跳过主要内容
MindTouch成功中心

企业和联合搜索集成入门

适用于:
MindTouch(当前)
企业搜索和联合搜索在定义上有细微的区别,但通常可以互换使用来描述相同的过程。本文解释了MindTouch使用这些搜索技术的方法。

了解企业和联合搜索

企业搜索解决了当信息分布在企业规模的组织中的多个位置时轻松访问信息的需要。信息通常存储在不同的数据源中,如网站、数据库和文件系统。提供企业搜索的主要方法是搜索联邦搜索引擎建立一个集中的搜索索引。大多数领先的企业搜索公司都可以提供这两种方法。

并不是所有的搜索技术公司都向企业级组织提供服务,因此没有利用“企业搜索”这个标签。此外,企业搜索有时带有“为内部用例搜索内部系统”的先入之见,因此似乎与面向客户的自助服务体验不兼容。一个选择不完全依赖“企业搜索”标签的示例供应商是科沃,为客户体验和客户支持用例提供解决方案。

查询联邦搜索引擎

这是推荐的方法,以提供一个统一的,多个数据源,搜索体验,包括一个MindTouch网站数据源。

企业搜索2. png查询联合搜索引擎(简称“联合搜索”)是一种提供统一搜索体验的实践,在幕后查询多个数据源的搜索索引并显示收集的结果。这种方法利用数据源开发的任何搜索索引或查询优化,如自然语言处理,以提供最相关的数据或知识。通常,最好让数据源处理其自身数据的索引,因为数据源的开发人员了解信息应该如何组织和获取。

利益

  • 可用信息总是最新的。不需要定期对数据源进行爬网:它们负责对自己的数据进行爬网或索引

  • 行业标准OpenSearch API是联邦搜索查询的通用标准,允许数据源和搜索供应商之间更广泛的兼容性,并减少了实现时间。MindTouch支持OpenSearch API规范的最新版本.的结果MindTouch OpenSearch API端点RSS原子兼容的

缺点

  • 如有必要,在统一搜索体验和多个数据源之间同步内容权限可能是一项挑战。如果所有数据源都支持公共授权协议,例如OAuth 2.0,那么复杂性就会降低。对于权限控制的OpenSearch API访问,MindTouch支持通过服务器和OAuth API令牌进行授权

  • 数据源特定的用户体验和内容类型可能无法转换为OpenSearch规范。MindTouch的搜索过滤、faceting和洞察力跟踪是通过专有api实现的,而不是OpenSearch。除非开发出MindTouch专用的连接器,否则统一的搜索用户界面不太可能像MindTouch内置的搜索界面那样过滤、facet或跟踪搜索见解

利用联邦搜索方法的统一搜索体验通常被设计为提供同构的用户界面,而不管集成了哪些数据源。MindTouch过滤或faceting选项可能在用户界面中不可用。

建立集中搜索索引

抓取数据源并试图控制端到端体验可能会降低智能知识管理解决方案的价值。在考虑集中搜索索引时,请评估哪些数据源适合包含在集中搜索索引中,以及哪些数据源(如MindTouch)通过联合搜索集成提供了更多价值。

企业搜索1.png

内容爬行和索引是部署一个爬虫程序来发现和获取组织的多个网站、数据库和文件系统中的数据,并将其存储在一个单一的集中搜索索引中。集中搜索索引为统一的搜索体验提供结果。

爬虫程序负责保持集中搜索索引中的数据最新。搜索引擎提供必要的算法和查询语言,将用户与集中搜索索引中的相关内容联系起来。站点地图对爬虫特别有用,因为它可以帮助它们发现和遍历复杂的信息体系结构。

利益

  • 爬虫可以索引通常无法搜索的数据源。可以对数据源(如网站)进行爬网以收集信息,这些数据源不为数据编制索引或不提供查询API
  • 集中搜索索引提供了对统一搜索体验的完整端到端控制。如果数据源的本地搜索索引或查询功能不能满足客户或用户的需求,这一点很重要

缺点

  • 爬网内容后,数据源的本机访问控制功能可能不可用
  • 查询数据源的搜索索引时提供的任何优化或洞察都不会带来任何好处。如果数据源可以利用历史或行为数据从数据源提供最相关的结果,则爬虫在索引数据源时将无法使用该优化
  • 保持内容的新鲜和最新是非常具有挑战性的。如果数据源没有可靠的站点地图、RSS/Atom提要或文档已更新的标准通信方式,则搜索引擎和数据源之间的集成依赖于以下两种方式:
    • 定期对整个数据源进行爬行,以确定自上次爬行以来是否创建或更新了一条或多条信息
    • 查询专有数据源API以定期检查更新

由于爬网可能是一种高web流量活动,因此数据源可能会施加限制,以控制对数据源进行爬网以进行更改的频率。如果没有限制,并且具有频繁的爬网节奏,爬网程序和数据源的操作成本都将非常高。攻击性爬虫还可以触发拒绝服务保护系统,从而保护数据源免受基于卷的攻击,并产生其他负面操作影响。