manbetx官方网站手机版:秀出你的美—学校举办女教职工服装表演秀

  • 文章
  • 时间:2018-11-21 17:55
  • 人已阅读

近日,IEEE(美国电气电子工程师学会)的旗舰出版物IEEE Spectrum的中文版《科技纵览》杂志,对盘算机与通讯工程学院模式辨认技巧翻新实验室(殷绪成教学团队)关于庞杂文档/图象/视频文本辨认畛域的大批抢先于国际的研讨了局举行了深度报导。报导原文如下: 

机械识字:庞杂文档/图象/视频文本辨认新技巧

经由多年的科研攻关,北京科技manbetx官方网站手机版盘算机科学与技巧系模式辨认技巧翻新实验室殷绪成教学团队研制了进步前辈的天然场景/网络图片/庞杂视频文本检测与辨认翻新技巧,取患有大批国际抢先的研讨了局。

庞杂文档/图象/视频(如自在手写、汗青文档、天然场景、网络图片、庞杂视频等)文本辨认是哄骗人工智能与模式辨认技巧,使盘算机能够 呐喊像人一样意识物理全国与互联网等庞杂环境中普遍具有的笔墨,在笔墨录入、汗青文档检索、数字挪动办事、聪明都会、网络内容监控与社会公共保险、互联网+、大数据等方面具有首要的使用代价。经由多年的科研攻关,海内研讨者在庞杂环境下文本辨认方面构建了一系列国际抢先的翻新技巧;特别是在自在手写、天然场景、网络图片等文本辨认方面,取患有大批国际顶级的研讨了局。

北京科技manbetx官方网站手机版盘算机科学与技巧系模式辨认技巧翻新实验室(殷绪成教学团队)研制了全国上最进步前辈的天然场景/网络图片/庞杂视频文本检测与辨认翻新技巧,在2013年国际文档剖析与辨认技巧比赛中,荣获“天然场景文本检测”、“网络图片文本检测”和“网络图片文本提取”三项冠军;最近,在2015年国际文档剖析与辨认技巧比赛中,又荣获“天然场景文本端到端辨认(通用类)”、“网络图片文本端到端辨认(通用类)”、“视频文本检测提取”等四项冠军,引起了海内外学术界及产业界同业的宽泛存眷。

庞杂文档/图象/视频文本辨认是以后文档剖析与辨认、模式辨认等畛域的首要发展标的目的,以具有严重社会与经济代价的汗青文档检索及文明庇护、互联网图片与视频内容保险、挪动办事与聪明都会等使用为布景,以庞杂环境下的文档与图片为对象,哄骗模式辨认、机械深造(深度深造)、图象处置、盘算机视觉等进步前辈技巧,使得盘算机像人一样剖析、提取、辨认和发掘图象中的文本信息。通常,庞杂环境下文本辨认能够分为两大种别:庞杂文档(汗青文档)/自在手写文本辨认,和天然场景/网络图片/庞杂视频文本辨认。

基于扫描图象的汗青文档/自在手写文本辨认,其义务是对庞杂文档图象举行版面剖析,提取文本区域,从而举行精准的笔墨辨认,在个人条记、档案、汗青文档、单子的数子化方面具有首要的使用近景。汗青文档/自在手写文本辨认,其技巧的应战性次要来自于汗青文档自身的高度庞杂性和自在手写文本自身的多样性。

而基于摄影或人工消费等的天然场景/网络图片/庞杂视频文本辨认,则是从高度差距及异构的图象/视频中检测、提取并辨认文本信息。详细的,天然场景文本辨认是哄骗人工智能与模式辨认技巧,使盘算机、智能手机等能够 呐喊像人一样意识天然界中普遍具有的笔墨,在数字挪动办事、信息检索、聪明都会等方面具有首要的使用代价。网络图片文本辨认一样也是哄骗人工智能与模式辨认技巧,使网关、盘算机等主动辨认提取出互联网中海量图片与视频中的笔墨信息,并举行照应的内容智能剖析,在网络内容监控与社会公共保险、互联网+、大数据等行业中具有首要的使用近景。

天然场景、网络图片和庞杂视频中的笔墨辨认大大难于传统扫描文档中的笔墨辨认,由于它们具有极大的多样性和较着的不确定性,诸如多语言笔墨、差别的笔墨巨细、差别的字体、多样的文本与布景色彩、多变的光照与亮度、不一致的对比度与分辨率、多标的目的与形变文本、庞杂的图象布景等。以是,传统的使用于扫描书刊报纸等文档图象的OCR技巧在天然场景与网络图片文本辨认中具有巨大的局限性。近十年来,国际海内模式辨认、文档剖析与辨认、盘算机视觉等畛域的众多科研机构(如斯坦福manbetx官方网站手机版、牛津manbetx官方网站手机版、中国科学院主动化研讨所、清华manbetx官方网站手机版、北京科技manbetx官方网站手机版等)和大批IT工业界巨头(阿里巴巴、腾讯、baidu、Google、Microsoft、Amazon等)都对天然场景/网络图片/庞杂视频文本辨认技巧举行研讨与攻关。

经由多年的科研攻关,以中国科学院主动化研讨所刘成林研讨员、清华manbetx官方网站手机版丁晓青教学、北京科技manbetx官方网站手机版殷绪成教学等为代表的海内研讨者在庞杂环境下文本辨认方面构建了一系列国际抢先的翻新技巧;特别是在天然场景、网络图片、庞杂视频等文本辨认方面,取患有大批国际顶级的研讨了局。

天然场景/网络图片/庞杂视频文本辨认新技巧与新冲破

天然场景、网络图片和庞杂视频(帧)文本辨认技巧次要分为两个阶段:首先是对图片中的笔墨举行检测与提取,输入的是原始图片而输入的是文本区域,即文本检测;而后,对检测出的文本区域举行辨认,输入的是文本区域而输入的是了局笔墨,即笔墨辨认。若是一个零碎,输入的是原始图片而输入间接为终极辨认的了局笔墨,则称之为端到端辨认(End-To-End Recognition)技巧。

以后,绝大部分研讨者要末存眷文本检测,要末存眷笔墨辨认,不构成良好的端到端辨认技巧,不很好的哄骗辨认与检测之间丰盛的同享信息和回响反映信息。怎样对天然场景/网络图片/庞杂视频举行无效的文本检测、辨认(特别是端到端辨认),一向都是学术界和工业界配合存眷的重点与难点。北京科技manbetx官方网站手机版盘算机系模式辨认技巧翻新实验室(殷绪成教学团队)针对天然场景、网络图片和庞杂视频文本辨认相干中心技巧问题,近几年在文本检测、文本提取、笔墨辨认等各方面举行了连续攻关,提出了进步前辈的天然场景与网络图片文本(端到端)辨认一致框架,研制了一系列抢先的天然场景与网络图片文本辨认新技巧(图4)。

了局图.jpg

天然场景与网络图片文本辨认技巧新希望

(1)基于自适应聚类和多通道交融的文本检测与提取技巧

在天然场景与网络图片等庞杂环境下的文本检测,一般都哄骗连通域剖析或图象宰割技巧等提取候选字符块,而后哄骗聚类算法把这些候选字符块聚成文本块。在这些方式中,次要触及三个中心问题:1)字符块提取中,怎样哄骗多通道的信息尽量的检测出庞杂布景中的笔墨块;2)类似性怀抱中,怎样斟酌差别特性的差别影响力,即怎样选择类似度盘算特性的权重;3)聚类盘算中,怎样针对现实文本块数量确定聚类数量。在以往的方式中,往往把这些问题宰割起来举行处置。差别的是,基于标准深造的自适应聚类和多通道交融的文本检测新技巧,同步深造类似度特性权重和聚类数量,能够 呐喊快速、鲁棒、正确的检测与提取出图片和视频中各种各样的文本。

(2)基于深度深造和样本自天生的文本分类器及笔墨辨认器技巧

近几年火热的深度深造技巧,一样也流行于文本判断器和笔墨辨认器构建中,在庞杂场景下文本检测与辨认中发挥了首要的作用。但是,深度深造都是基于较大畛域数据来举行训练的,在小数量样本集上的深造依然是一个应战性的难题。在天然场景与网络图片中,由于多语言笔墨、差别的字体与巨细、多样的文本色彩与光照等诸多应战,需求更大畛域的训练数据;怎样采集整顿与深度深造相婚配的无效训练数据,已成为文本检测与辨认深度深造技巧的中心问题之一。巧妙的是,新技巧根据大批实在样本,主动天生大畛域训练样本,设计基于深度深造的文本分类器及笔墨辨认器,能够 呐喊正确的辨认天然场景与网络图片中林林总总的文本。

(3)基于检测-辨认信息回响反映的文本辨认框架

怎样剖析并战胜天然场景与网络图片文本检测与辨认的次要难题,充分哄骗端到端辨认零碎中检测、辨认一系列进程信息同享和回响反映,是业界攻关的次要技巧标的目的。新技巧基于检测-辨认信息回响反映,构建一致的信息同享和回响反映文本辨认全体框架,经由进程笔墨辨认信息来优化文本检测,并以改进后的文本检测晋升笔墨辨认效果,较大幅度的进步了端到端场景文本辨认零碎的全体机能。

基于多年的研讨事情和上述的翻新了局,殷绪成教学团队研制了全国上顶级程度的天然场景/网络图片/庞杂视频文本辨认技巧,数次荣获国际文档剖析与辨认大会技巧比赛多项冠军。特别的,荣获了2015年国际文档剖析与辨认技巧比赛最受存眷的“鲁棒浏览比赛” “天然场景文本端到端辨认”、“网络图片文本端到端辨认”、“视频文本检测提取”等四项冠军。本届国际文档剖析与辨认技巧比赛包孕了图象与视频文本辨认、汗青文档图象理解、多语言笔墨辨认与手写辨别等相干的十一个比赛单元,吸收了来自中国、美国、德国、法国、英国、日本、韩国、印度等几十个国度一百多支模式辨认、文档剖析与辨认、盘算机视觉等畛域高程度参赛步队。

殷绪成教学团队的翻新技巧,在2015年国际文档剖析与辨认技巧比赛最具代表性和通用性(无字典束缚)的“天然场景文本端到端辨认”和“网络图片文本端到端辨认”中,双双荣获第一名。在无字典束缚的情况下,殷绪成教学团队将天然场景下端到端文本辨认精度晋升到了81.74%,综合机能(f-score)晋升至75.29%,比比赛第二名的团队高出了十来个百分点,比上一次(2013年)国际文档剖析与辨认大会论文公然的了局足足进步了快要一倍;同时,殷绪成教学团队的网络图片中端到端文本辨认精度和综合机能(f-score)别离高达80.97%和76.98%,而比赛第二名的团队惟独57.35%和57.01%。值得等候的是,这些文本检测与辨认的翻新技巧,将极大的推动模式辨认、文档剖析与辨认、OCR技巧在天然场景、网络图片、庞杂视频等环境下的首要发展及宽泛使用。

庞杂文档/图象/视频文本辨认使用新天地

经由进程几十年的文档剖析与辨认连续研讨,特别是近年的模式辨认、机械深造等新技巧与新手段的涌现,庞杂环境下的文本辨认理论、方式、技巧与零碎等各方面取患有首要的冲破,庞杂文档/图象/视频文本辨认技巧将迎来使用的新天地。

从“线下”走进“网上”(自在手写文本辨认):诸如,每次事情会议后,无需再把白板上的会商内容抄写上去,只需将白板用手机等智能设施摄影留存,并对其中的自在手写文本及图片举行辨认,零碎便能主动辨认并分检出相干职员的后续事情,并将待办事变主动存放到各自的电子日历中。

让“天然界”融入“信息界”(天然场景文本辨认):诸如,把手机摄像头对准菜单上的英文菜名,屏幕上及时显现出翻译好的中文菜名;从车载摄像头所拍摄的街景中主动提取并辨认笔墨,让舆图信息更丰盛更正确,举行正确的导航;戴着智能眼镜在超市购物,看到心仪商品上的笔墨,能主动搜寻出商品的详细信息。

把“净化器”、“对准器”移至“互联网”(网络图片/庞杂视频文本辨认):诸如,网络社交APP中的图片与视频内容传输与公布时,网关及时检测辨认图象中的不良文本信息并举行内容管理,构建一个安康清洁的互联网大数据环境;富媒体挪动通讯网络中,盘算机对图象、视频类多媒体的不良信息内容举行主动化辨认与分类检索,确保通讯迟滞与数据保险。在互联网+电商平台上,主动辨认海量图片/视频中内嵌的文本信息,举行商品的精准搜寻和用户的特性保举。

别的,传统的笔墨辨认技巧使用,比方单子辨认、邮政地点辨认、手写档案和汗青文档数字化,从前由于技巧限制,历久得不到畛域化使用。现在,随着新一代笔墨辨认技巧的发展和机能晋升,这些人们历久等候的传统使用无望迎来新一轮使用的暴发。

(责编:邢华超)