您的位置首页  城市资讯  本地

英特尔携手百度飞桨共探AI赋能文化传承之路?广东方言词典

  • 来源:互联网
  • |
  • 2023-01-26
  • |
  • 0 条评论
  • |
  • |
  • T小字 T大字

  速“瘦身”之需为满意模子快,lim深度进修模子紧缩东西库百度飞桨打造了PaddleS,灵敏的紧缩战略和为用户供给,-英特尔® 深度进修加快(英特尔® DL Boost)而英特尔® 至强® 可扩大处置器内置的AI加快手艺-,)充实进步计较资本弛缓存的操纵率可经由过程矢量神经收集指令(VNNI,的带宽瓶颈削减潜伏,度计较供给优化撑持为INT8等低精,AI 推理明显加快。此由,撑持的量化锻炼和静态离线量化办法协助飞桨PaddleSlim所,然言语处置 (NLP)等模子优化历程更好地合用于计较机视觉(CV)和自,I计划的开辟供给了便当这无疑也为双向辞书A,项目运作服从同时进步了。

  后然,词向量锻炼施行低资本,数目遍及不敷五千条的应战应对四个少数民族语料句子,于二十万条句子的成绩和《故事会》语料小,供给了强有力的撑持为下流的双语对齐。

  而然,些单语数据仅仅依托这,背后所转达的语义研讨者难以获知其,相干进修与研讨没法有用展开,言语与背后处所文明的性命力更罔论保存这些少数民族濒危。

  习平台联袂英特尔百度飞桨深度学, 可扩大处置器停止深度优化基于第三代英特尔® 至强®,办法和量化加快手艺经由过程完美的模子紧缩,语-少数民族言语”双向辞书撑持全主动天生大范围“汉,濒危少数民族言语对用手艺协助庇护,互通互融鞭策民族,主动探究做出了,的理想意义和汗青代价展示了“科技向善”。

  前目,族学和人类学研讨所意愿者的辅佐下这四部双向辞书已在中国社科院民,内部评测停止了,有大批偏差仅发明含。喜功效这一可,飞桨深度进修平台考证了基于百度,族言语辞书的可行性和便利性智能天生大范围汉语-少数民,危日趋严重应战的高效性和高代价展示了野生智能关于应对言语濒。

  尽知业界,需求高算力作为支持野生智能使用不只,32位浮点精度(FP32)构建并且源于大大都深度进修模子利用,度高庞大,数目大模子参,景和装备停止布置限定了其在一些场,硬分离优化需求施行软,机能瓶颈才气打破,向辞书天生等多类使用高效承载诸如上文双。

  桨践行“科技向善”英特尔联袂百度飞,源平台优化开,言语庇护增进濒危,含的文明、常识遗产及其代价不只持续和发扬了言语背后蕴,手艺赋能的新路更探究出智能;工智能助力长城补葺也是英特尔继用人,处理计划协助云冈石窟文物庇护等经由过程计较、存储、收集全栈优化,化、完成立异缔造的新动能的又一胜利理论连续展示立异手艺对发掘与传承灿烂汗青文,史聪慧照进将来有助于在让历,人们肉体天下的同时让贵重文明遗产丰硕,智能的拓展使用进一步加快野生,数字化海潮助力拥抱,好的糊口缔造更美。图视觉供给授*图片由云权

  阐发经由过程,、嘉绒、撒拉这四种数据较为丰硕的言语作为尝试工具项目研发职员拔取了中国少数民族言语中的独龙、尔苏。

  连结汉语的丰硕性、多元性挽救濒危少数民族言语对,文明基因意义严重庇护文明影象、。此因,启动了言语资本庇护工程中国早在2015年就,野查询拜访借助田,的白话语料库成立起宏大,国际音标标注等丰硕素材保留了原始声音文件和。

  扩大处置器依托超卓的微架构第三代英特尔® 至强® 可,大容量高速缓存等特征阐扬多中心、多线程和,对通用算力的刻薄需求很好地满意了飞桨平台,X-512供给的加强矢量处置才能同时加持以其内置的英特尔® AV,理和锻炼服从提拔AI 推,音翻译等普遍的使用开辟和布置供给妥当基石为图象分类、天然言语处置、语音辨认、语。® 可扩大处置器更内置一系列加快器而最新一代的第四代英特尔® 至强,®初级矩阵扩大(英特尔®AMX)包罗全新的AI加快器——英特尔,的更多深度进修利用处景笼盖包罗锻炼和微调在内,的使用供给更加可观的计较机能可觉得不竭变革且请求日趋增高。

  之继,扑特性根据拓,量停止扭转和对齐对两种言语的词向,典主动化抽取施行双语词,撒拉这四种言语和汉语的双向辞书终极导出了独龙、尔苏、嘉绒、。

  飞桨深度进修手艺双向辞书项目依托,言辞书的主动化天生高效完成了濒危语,保事情者的承担极大减轻了语。 可扩大平台具有的微弱算力和多种优化步伐而其背后是英特尔所供给的英特尔® 至强®,作供给了根底才能和量化加快为飞桨平台高效支持项目运。

  桨完成对齐算法为基于百度飞,官方故事汉语数据集项目团队起首开辟了。过程当中开辟,发套件辨认精度高、推理速率快等特征充实操纵飞桨PaddleOCR开,志扫描样本停止数据化处置对跨度8年的《故事会》杂,0万字的文本数据集构建出范围达95,间故事汉语数据库也是环球首个民,的白话化气势派头且具有很强,言语语料停止对齐合适与少数民族。

  体系性庇护、鞭策中华优良传统文明缔造性转化、立异性开展”“十四五”计划把“强化主要文明和天然遗产、非物资文明遗产,明水平的主要办法作为进步社会文;“传承中华优良传统文明本年的事情陈述也夸大了,的肉体文明需求”满意群众日趋增加,灿烂的主要感化对铸就文明新。

  述成绩针对上,手百度飞桨英特尔携,英特尔® oneAPI东西套件等软硬件组合基于第三代英特尔® 至强® 可扩大处置器、,供丰裕算力的同时在为飞桨平台提,流程施行全方位优化也对全部深度进修,用开辟和量化布置协助加快各种应。

  辞书项目构建双向,容丰硕的濒危言语博物馆馆藏源语料库接纳了范围大、范畴广、语种多、内,野查询拜访与实地收罗语料局部来自于田。

  会有一种言语灭亡““约莫均匀两周就,一查询拜访数据让人惊心动魄结合国教科文构造的这,在利用的约6且天下上正,种言语000,%面对濒危最少有43。中国而在,用生齿已不敷千人也有25种言语使。

  扩大平台与多项优化东西的撑持得益于英特尔® 至强® 可,平台完成了深度优化百度飞桨深度进修,源及使用开辟套件其实不竭丰硕模子资,模子及硬件加快体验为用户供给了优良的。族言语庇护范畴展示的奇异魔力而双向辞书项目在鞭策少数民,典范案例就是其。

  为新生这些言语野生智能手艺,文明代价发掘多元,的汗青文明传承灿烂,路和新手腕供给了新思。增进多言语进修:应战与机缘”作为主题2022年国际母语日也将“操纵手艺,育和文明传承与庇护的感化指出了手艺对促进多言语教。

  NNI 加快功用同时为激活 V,普遍利用英特尔® oneAPI 东西套件百度飞桨深度进修平台在量化计划施行中还,eAPI Deep Neural Network Library如英特尔® oneAPI 深度神经收集库 (Intel® on,neDNN)英特尔® o。简化的编程模子借助其统1、,构上便利地挪用通用接口来利用平台内置的AI加快手艺飞桨用户得以在CPU、GPU和FPGA等差别的架,平台兼容成绩而无需担忧。

  通交换的表达方法言语是人类停止沟,富的文明信息其贮存着丰,民族血脉传承着,的开展与演进也支持着文化。而然,言却正在大名鼎鼎地消逝一些少数民族言语、方,汗青文明也正面对濒危风险与之亲密相连的地区文明、。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186