「Peak Labs」发布搜索引擎「magi.com」,用NLU和迁移学习技术为AI提供知识体系

汝晴 · 2019-11-03
“我们真正做商业化的,是Magi背后的技术——基于迁移学习的开放信息提取。”

文 | 华木三变

编辑 | 汝晴

36氪此前报道过的「Peak Labs」公司近日发布了其人工智能系统Magi的公众版「magi.com」。通过这一搜索引擎,用户输入关键词,即可获取Magi从互联网文本中自主学习到的结构化知识和网页搜索结果,每个结构化结果后面都会附上来源链接和其可信度评分。

「Peak Labs」发布搜索引擎「magi.com」,用NLU和迁移学习技术为AI提供知识体系

magi.com 搜索示例

Magi是基于机器学习的信息抽取和检索系统,它不使用 HTML 标签等半结构化特征,无需预设领域和关键词,直接处理自然语言文本。它能够将互联网上的公开文本和企业内部的私有数据提取归纳为结构化知识,为用户提供自主更新的、可量化解析的、可溯源的知识体系。而且这个系统具有终身学习能力(Lifelong machine learning),能够开放地获取并自主学习互联网上的信息,不断增强自身对自然语言文本的处理能力。

互联网语料质量参差不⻬,抄袭拼接、自动生成、恶意篡改等行为会造成大量事实性错误,甚至可能让模型在持续的学习调整过程中越来越差。此前涉及网络语料处理的程序常使用白名单机制回避该问题,但白名单机制在大幅过滤掉不可靠的来源的同时,也损失了大量的有价值的信息。Magi通过自主研发的全网搜索引擎,引入传统搜索中的统计信号,辅助评估信息的质量。

“在学术领域,论文被引用次数越多,通常就越有影响力;在网页搜索中,一个URL的反链越多,该网页具有越高的重要性。对于知识,当某一事实在更多上下文中被表达,其应当具有更高的正确性和流传度。”Peak Labs创始人季逸超告诉36氪,“Magi会对来源质量高且具有多种上下文和表达方式的事实给出更高的评价。因为不同的上下文与表达方式表明相应内容经过了再次提炼,或者有多个角度对其进行阐释。而且多种输入的交叉验证还降低了AI自身犯错的风险。”

在最后的结果页面,magi.com会为每个结果给出可信度评分,然后用颜色区分可信度高低,绿色表示可信度较高,红色则较低。

「Peak Labs」发布搜索引擎「magi.com」,用NLU和迁移学习技术为AI提供知识体系

magi.com使用颜色区分可信度

“另外,需要强调是,magi.com是我们技术的对外展现形式和背景知识数据库,我们真正做商业化的,是Magi背后的技术——基于自然语言理解(NLU)和迁移学习的开放信息提取。”季逸超说。

季逸超告诉36氪,Magi能为企业客户提供的服务包括:

  1. 结构化数据和知识体系。Magi所学习的是互联网上的通用背景知识,而此前这些以文本形式存在的知识难以被AI直接利用。该服务主要针对需要结构化数据的公司,例如各种语音助手和决策引擎,它们能够以DSL或向量化的形式从Magi的数据库获取信息,强化自身表现。

  2. 定制化自然语言理解解决方案和企业辅助类RPA。Peak Labs以迁移学习技术为基础,使用自有的预训练数据和Magi积累的数据来提升信息提取服务的性能。金融、医疗、咨询等垂直行业的客户只需要提供少量样本即可获得定制的自然语言理解方案。例如在旅游行业,Magi可以被定制来自动阅读用户撰写的游记并发掘出POI和相关属性。

「Peak Labs」发布搜索引擎「magi.com」,用NLU和迁移学习技术为AI提供知识体系

Magi定制服务训练界面

数据作为Al训练的“燃料”,是其产生价值的的必要条件。据IDC统计,全球每年生产的数据量将从2016年的16.1ZB猛增至2025年的163ZB,其中80%到90%是文本、图片、音视频等非结构化数据。而非结构化不能被AI读取,因而需要处理结构化数据。这一处理过程就是中国人工智能基础数据服务中的一部分。 

此前,艾瑞咨询发布了《2019年中国人工智能基础数据服务研究报告》显示2018年,中国人工智能基础数据服务市场规模为25.86亿元,其中数据资源定制服务占比86.2%预计2023年市场规模突破113亿元。行业年复合增长率为23.5%对于创业公司来说,此时切入该行业仍能有发展机会。

另一方面,许多细分垂直行业缺乏足够的结构化数据来训练AI模型,如何利用小样本数据训练AI已成趋势。“我们发现,结构化数据的稀缺极大限制了人工智能在细分行业的应用。从零构建定制化的自然语言理解方案需要专业人才和大量时间成本——单单为了研发一个医疗行业人工智能而让忙碌的医生们抽出数个月进行众包标注是难以想象的。”季逸超说。 

从技术的角度来说,Magi采取的迁移学习NLU算法,具有的优势在于只需使用通用数据训练AI引擎,就能使AI引擎很好的适用专业垂直领域。Magi首先使用互联网知识和自有的数据进行预训练,而专业垂直领域的任务仅需极少量人工数据标注,就能达到大规模数据的训练效果。对于企业来说,这一技术也就降低了获得定制化AI的成本。 

“我们希望Magi能像文字知识的ImageNet一样,帮助企业降低AI定制化的成本。”季逸超说。

+1

好文章,需要你的鼓励

参与评论
登录后才能参与讨论哦...
后参与讨论
提交评论0/1000

请回复有价值的信息,无意义的评论将很快被删除,账号将被禁止发言。

下一篇

商工组、农业农村组共24个项目进入决赛。

2019-11-03

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

为你推送和解读最前沿、最有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚集全球最优秀的创业者,项目融资率接近97%,领跑行业