513篇原创,您的关注是对图图最大的鼓励!

CSIG文档图像微沙龙将于2023年4月4日举办第16期活动。

本场活动为阿里巴巴达摩院OCR专场,邀请2位算法专家:罗楚威、龙如蛟,分享CVPR 2023最新成果——

1. 用于视觉信息抽取的几何关系预训练模型

2. 自然场景视觉信息抽取

直播由阿里巴巴达摩院 杨志博担任主持人。

图图Seminar直播地址:

B站:

https://live.bilibili.co电商直播系统m/h5/22252912

中国图象图形学报视频号

文档图像微沙龙文档图像微沙龙是中国图象图形学学会文档图像分析与识别专业委员会发起主办的系列学术交流活动,旨在探讨文档图像分析与识别、计算机视觉、机器学习领域的前沿技术挑战和研究进展,加强产学研交流与合作。文档图像微沙龙活动预计安排为每月一次,根据具体情况采用线上或线下形式,每次邀请一位或多位嘉宾做主题报告,并进行互动交流。报告内容包括但不限于分享顶会电商直播系统顶刊论文研究进展、竞赛夺冠经验以及行业技术动态。文档图像微沙龙为相关领域的专家学者、技术研发人员提供了解学术前沿动态的平台,以期促进学术界和企业界的共赢发展。 微沙龙组织机构

主办单位

中国图象图形学学会(CSIG)

承办单位

CSIG文档图像分析与识别专委会

协办单位

中国图象图形学报

组委会

彭良瑞 副教授,清华大学

陈善雄 教   授,西南大学

金连文 教   授,华南理工大学

CSIG文档图像分析与识别专委会公电商直播系统众号

微沙龙报告一01

告题目:

用于视觉信息抽取的几何关系预训练模型

02报告摘要:视觉信息提取(VIE)是文档智能中的重要研究方向。一般被分为两个子任务:语义实体识别(SER)和关系抽取(RE)。近年来,文档预训练模型在VIE特别是SER中取得了长足的进展。然而,现有的大多数模型以隐式的方式学习文档版式的几何表示,这对于RE任务来说是不够的,因为文档版式几何信息对RE任务尤其重要。此外,我们发现了限电商直播系统制RE任务效果的另一个因素在于模型的预训练阶段和下游RE任务fine-tuning阶段之间所存在的较大差异。为了解决这些问题,我们提出了一个文档多模态预训练框架,名为GeoLayoutLM,用于VIE任务。GeoLayoutLM在预训练中显示地对几何关系建模,称之为几何预训练。几何预训练通过三个专门设计的几何预训练任务来实现。此外,我们还精心设计了新的关系Head,通过几何预训练任务预训练并在下游电商直播系统RE任务上继续fine-tune。在VIE代表性的数据集中的大量实验显示,GeoLayoutLM在SER任务中获得了极具竞争力的效果,并且在RE方面的表现显著优于之前的SOTA效果。03

相关论文:

Chuwei Luo*, Changxu Cheng*, Qi Zheng, Cong Yao. ” GeoLayoutLM: Geometric Pre-training for Visual Info电商直播系统rmation Extraction.” In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023.

告人:罗楚威

2017年硕士毕业于武汉大学计算机学院,研究方向为命名实体识别、自然语言生成。2018年加入阿里巴巴达摩院读光OCR团队后,长期专注于多模态文档理解、文档预训练模电商直播系统型的研发及落地。总发明专利8项,CV&NLP顶会论文收录(CVPR、AAAI、COLING Workshop)3篇。微沙龙报告二01

告题目:

然场景视觉信息抽取

02

报告摘要:

由于视觉信息抽取(VIE)广泛的运用于各行各业,其在学术界和工业界都变得越来越重要。尽管学术界已经提出了许多方法,然而,用于评估这些方法的基准相对简单,没有充分表现真实场景VIE的复杂性。因此,我们推出了一个自然场景VIE数电商直播系统据集SIBR,真实业务场景中常见的模糊、遮挡、印刷偏移、文字重叠等问题在SIBR中普遍存在。与此同时,我们提出了一个新的视觉信息抽取模型ESP,将实体建模为带有语义的点,推理时无需预置OCR引擎抽取OCR信息,也不依赖于识别出的文字即可实现信息抽取,大大简化了VIE任务。在各个VIE数据集上的实验表明,与以往的最优模型相比,ESP用少量的参数、少量的预训练数据即可获得SOTA结果。03

相关论文

Z电商直播系统hibo Yang*, Rujiao Long*†, Pengfei Wang*, Sibo Song, Humen Zhong, Wenqing Cheng, Xiang Bai, Cong Yao. “Modeling Entities as Semantic Points for Visual Information Extraction in the Wild.” In Proceedin电商直播系统gs of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023.

报告人:龙如蛟

2019年毕业于清华大学自动化系。硕士期间主要从事图像分类、实例分割等通用视觉方向探索。曾参与CVPR ActivityNet2018视频行为识别竞赛,其中一项任务获得冠军,一项获第三名。毕业之后加入阿里巴巴达摩院读光OCR,并电商直播系统专注于表格结构识别、视觉信息抽取、文档矫正等技术方向的研发及落地。公益方面,参与达摩院阿尔茨海默(AD)公益筛查项目,负责其中画钟算法的研发。总发明专利12项,已授权4项;顶会论文收录(CVPR、ICCV、AAAI)4篇,其中一作3篇。微沙龙主持

主持人:杨志博

阿里巴巴高级算法专家,达摩院文本视觉理解团队云业务方向负责人,中国图形图像学会文档识别专委会会员。2014年于清华大学自动化系获得硕士学位。电商直播系统毕业后加入阿里巴巴图像算法团队,研究方向包括:文字检测识别、图文结构解析和多模态图文信息抽取等。工作期间先后负责电商图文字管控,阿里云OCR和文档AI业务。近五年,在OCR和文档分析领域先后发表顶会论文超10篇。直播信息直播时间

2023年4月4日(周二)19:00

直播地址

【视频号】

【B站】

https://live.bilibili.com/h5/22252912

【蔻享】

https://www.ko电商直播系统ushare.com/lives/r‍oom/609674

直播入群

邀请您进入文档微沙龙直播群

您将有机会

优先提问并被解答

优先参与粉丝活动

优先获取相关资料

……

扫码备注[DIAR]即可入群

参与群内活动获惊喜礼品

END

本文是中国图象图形学报原创稿件

内容仅供学习交流

版权属于原作者

欢迎大家关注转发!

编辑:秀   秀

审核:梧桐君

作者 nasiapp

在线客服
官方客服
我们将24小时内回复。
12:01
您好,有任何疑问请与我们联系!

选择聊天工具: