推动人工智能发展的“关键点”

人工智能(AI)行业不断传来好消息,短短十几年,创造出例如Siri,Cortana,AlphaGo,度秘等许多史无前例的东西。这些智能助理尽管能力有大有小,但有一个共同特点——用户能通过“自然语言”与其交互。自然语言理解(Natural Language Understanding,NLU)的突破,是目前推动人工智能相关应用发展的关键点之一。

社交网络文本数据

采自不同用户的Twitter、Facebook等社交网络语料内容,信息覆盖全面,标注内容丰富,可用于用户行为研究、文本对话模拟等领域。

  • Twitter微博内容语料库
  • Twitter纯文本数据
  • Facebook纯文本数据
  • 移动用户实网文本数据

多语种文本数据

专业爬虫及数据清理技术,抓取邮件、短信、繁体语料、多文本语料等涵盖多种语言的海量文本数据,提供机器学习必不可少的基础数据资源。

  • 多语种文本语料库
  • 邮件文本数据
  • 中文短信数据
  • 繁体语料数据
  • 中文垃圾短信数据

细粒度语义标注数据

对文本语料进行词法、句法、情感等不同维度的标注,用于训练机器,构建语义分析模型。

  • 微博句法树库
  • 中文事件标注数据
  • 细粒度的评论标注语料

领域知识库数据

涵盖百科、音乐、游戏、电影等不同领域的词汇、属性及关系,用于构建机器的知识图谱。

  • 中文音乐数据库
  • 全国地址库
  • 75个领域词典
  • 全领域信息数据库

百万级平行语料数据库

百万级中英、中韩、汉维双语平行语料及其平行对应的汉语文本,由原文文本及其平行对应的译语文本构成的双语语料库,对齐程度包括词级、句级、段级、篇级几种,可用于同步翻译、机器人语言训练等方面。

  • 中英平行语料数据库
  • 中韩平行语料数据
  • 汗维平行语料

解决计算机“听的懂”的问题

如果说基础声学和语音识别解决的是计算机“听得见”的问题,而自然语言理解(NLP)实际上就是要解决计算机“听的懂”的问题。海量文本数据产品涵盖词性标注、句法分析、自然语言生成、文本分类、信息检索等各类文本数据,为计算机解决人类,语言中的因果、逻辑和推理问题,完成机器翻译,构建问答系统等各类智能交互提供数据基础。

13612301124