前言
通用AI是一种能够像人类一样进行思考、学习和推理的人工智能系统。与特定领域的人工智能不同,通用AI可以处理各种类型的任务,包括自然语言处理、图像识别、机器学习等,具有广泛的适用性和高度的灵活性。
通用AI的应用前景非常广阔,它可以在医疗、交通、金融、教育、娱乐等各个领域发挥作用,为人类带来更好的生活体验和更高效的工作方式。
通用AI的应用场景
通用AI所涉及的应用场景十分广泛,由于它不需要人工进行相关的训练,而且还可以从以往的经验中不断学习和改进,所以可以帮助加快许多行业的发展速度,并且在其中发挥着非比寻常的作用,通用AI在热门行业领域中的应用如下:
互联网行业
人证核身 IVS 可用于游戏/直播/婚恋交友平台用户实名认证,响应国家监管要求,防止出现业务风险。
内容审核可用于涉黄、涉政暴恐、涉政敏感人物审核,监控范围覆盖用户昵称、聊天图片、音视频,发布内容等。
语音交互 SIS 可用于游戏互动场景,将语音转成文字信息;或游戏配音时,将脚本信息转化为近似的真人发声。
金融服务
文字识别OCR可以用于银行、证券、保险等金融机构的身份证、银行卡、合同等的识别和验证。
人证核身IVS和人脸识别FRS可以用于银行、证券、保险等金融机构人脸识别、身份验证等场景,提高安全性和客户体验。
语音交互SIS可以用于银行、证券、保险等金融机构的语音客服、自助服务等场景,提高客户体验和服务效率。
对话机器人CBS可以帮助银行、保险等机构处理客户的咨询、理赔等事项。
交通运输
文字识别 OCR 可用于智慧停车、交通监管的车牌识别场景。
文字识别 OCR 和人证核身 IVS 可用于网络货运/网约车/代驾的司机身份认证场景,保障实际承运人和注册人保持一致。
文字识别 OCR 可用于物流快递的快递分拣、包裹派件场景,自动识别物流面单信息。
教育
文字识别OCR可以用于学校的考试卷、试题、论文等的处理和评分。
人证核身IVS和人脸识别FRS可以用于学校的考勤、门禁管理、预防考生代考等场景,提高学校管理效率和安全性。
语音交互SIS可以用于学校的语音教育、智能评测等场景,提高教育效果和教育质量。
对话机器人CBS可以帮助学生进行题目练习、知识点讲解等。
电商零售
文字识别OCR可以用于商场、超市的商品条码、价格标签等的扫描和识别。
人证核身IVS和人脸识别FRS可以用于商场、超市的人脸识别、客流分析等场景,提高营销和客户体验。
对话机器人CBS可以帮助电商平台、零售店铺等提供智能客服服务,提高售后服务质量。
内容审核 Moderation 可用于稽核产品宣传是否违反广告法,是否违规,防止出现业务风险。
华为云解决方案
华为云通用AI七件套定位为企业AI生产力工具,将算法专家的积累和行业专家的知识沉淀在相应的套件和“行业工作流”(Workflow)中,帮助企业快速使用AI技术,实现内容的自动化处理。
文字识别 OCR:文字识别(Optical Character Recognition,简称 OCR)提供在线文字识别服务,将图片、扫描件或 PDF、OFD 文档中的文字识别成可编辑的文本。支持通用类识别、证件类识别、票据类识别、行业类识别、自定义定制模板识别等。
人脸识别服务 FRS:人脸识别服务(Face Recognition Service),能够在图像中快速检测人脸、分析人脸关键点信息、获取人脸属性、实现人脸的精确比对和检索。该服务可应用于身份验证、电子考勤、客流分析等场景。
人证核身解决方案 IVS:将用户本人与身份证信息关联起来,应用人脸识别与文字识别等技术,对接权威数据库,支持基于二要素(姓名、身份证)认证或三要素(人脸、 姓名、身份证)认证,实现对身份真实性的精准核验。
实时语音识别 RASR:实时语音识别(Real-time ASR),将连续的音频流实时转换成文本,语音识别更快。可应用于直播实时字幕、会议实时记录、即时文本生成等场景。
图像识别 Image :图像识别(Image Recognition),基于深度学习技术,可准确识别图像中的视觉内容,提供多种物体、场景和概念标签,具备目标检测和属性识别等能力,帮助客户准确识别和理解图像内容。
内容审核 Moderation:内容审核(Content Moderation),基于图像、文本、音频、 视频检测技术,可自动进行涉黄、广告、涉暴等内容检测,帮助客户降低业务违规风险。
视频编辑 VCP:视频编辑(Video Content Processing)服务,基于对视频的整体分析,提供封面、拆条、摘要等能力。
通用AI服务以公有云服务为主,同时支持私有化部署,可选择部署在本地服务器。华为云不仅提供 AI 原子能力,帮助客户快速集成和应用落地,同时也接受客户定制化需求。客户可提供需求文档、交付时间和交付标准,由华为云评估进行定制开发。
解决方案核心亮点
超高性能
识别率业界领先:语音交互服务基于深度学习技术,对特定领域场景的语音识别进行优化,识别率达到业界领先。
检测范围多场景覆盖:图像识别服务中图片内容审核覆盖涉黄、低俗、广告、涉政涉暴、涉政敏感人物和不良场景等多种违规风险的智能审核。
定制化识别,效果更精准:实时语音识别针对客户的特定场景需求,定制垂直领域的语音识别模型,识别效果更精确。
实战演练,稳定可靠:内容审核服务成功应用于各类场景,基于华为等企业客户的长期实践,经受过复杂场景考验。
简单易用
简单上手,便捷高效:人脸识别服务提供的应用程序接口功能明确。
简单易用:配套文档描述详细,调用服务方式包含API和SDK两种,方便客户使用与集成。
增值服务全套配齐:人证核身解决方案配套人脸识别 FRS、文字识别 OCR 等多种增值服务可供订阅使用。
降本增效
减少人力,节省成本:帮助客户减少人力成本,节省业务支出。
按需计费,经济划算:以调用次数/调用时长计费。
安全可信
服务环境更安全:华为云承诺不保存服务过程数据和用户隐私数据 。
权威数据更可靠:人证核身解决方案服务数据来源自国家权威机构公安第一研究所和全国身份证信息查询中心。
BSI 权威认证更可信:华为云 OCR 服务通过德国 BSI AIC4 可信标准审计认证。
华为云通用AI体验
华为云通用AI是华为云推出的一款人工智能服务,它可以为企业提供丰富的AI能力,包括图像识别、语音识别、自然语言处理等多种领域。华为云通用AI的目的是让企业快速、便捷地实现数字化转型,提升业务效率和用户体验。
下面结合应用场景对文字识别OCR、人证核身IVS、人脸识别FRS、语音交互SIS、对话机器人CBS等产品进行测评。
文字识别OCR
文字识别OCR可以用于银行、证券、保险等金融机构的身份证、银行卡、合同等的识别和验证;医院的病历、影像、处方等的识别和管理;学校的考试卷、试题、论文等的处理和评分;商场、超市的商品条码、价格标签等的扫描和识别。
开通服务
这里我开通了智能分类识别、通用文字识别、车牌识别、身份证识别、发票验真、增值税发票识别五个热门服务,调用服务有SDK和API两种方式,下面以API调用身份证识别服务为例演示一遍。
产品体验
首先下载Postman配置文件下载地址
在API工具上导入配置文件
Token认证鉴权
传入参数,这里传入图片的base64编码,发送后会返回识别到的信息
产品优势
识别准确率高达 99.9%。采用先进的自研深度学习算法,结合亿万级海量标注数据样本训练,针对各种业务场景优化。
推出业内第一款智能分类超级 API,只需要调用 1 个API,即可同时识别各类票据、卡证类图片,调用更简单,且识别准确率业内领先。
支持用户自定义模板,对于版式固定的各种票据和卡证,均可通过可视化界面操作,指定需要识别的关键字段。识别准确率和操作便捷性,均领先于友商。
人脸识别FRS
人脸识别FRS可以用于银行、证券、保险等金融机构人脸识别、身份验证等场景,提高安全性和客户体验;医院的门诊、住院管理等场景,提高医疗服务效率和安全性;学校的考勤、门禁管理等场景,提高学校管理效率和安全性;商场、超市的人脸识别、客流分析等场景,提高营销和客户体验。
开通服务
华为云人脸识别服务 FRS有以下四大功能。
人脸检测:可快速检测图像中是否有人脸,并返回所有人脸位置。
人脸比对:对比两张图像中的人脸信息,分析面部特征,判断是否为同一人。
人脸搜索:搜索图库并返回与输入人脸最相似的N张人脸图像。
活体检测:提供两种检测方法,判断图片、视频中人物是否为真人活体。
这里演示一遍调用人脸对比服务API,调用方法可参考用户指南。
产品体验
传入两张照片,可以传入base64编码也可以直接传入路径或者选择文件。发送后会返回照片的基本信息以及相似度,一般情况下超过0.93即可认为是同一个人。
产品优势
识别准确:准确检测人脸,为多场景提供有力支撑,人脸比对在 LFW 公开测试集上的准确率为 99.6%+。
服务丰富:已开放人脸检测、比对和搜索服务,即将开放动态人像、年龄识别、 特征点定位等服务。
稳定可靠:在海量图片特征库中进行人脸搜索等功能经华为企业客户的长期实践,功能稳定,时延可控。
简单高效:服务提供的应用程序接口功能明确,简单易用;配套文档描述详细, 方便客户使用与集成。
人证核身IVS
华为云人证核身IVS有以下两个版本:
人证核身标准版(三要素):适用于通用的身份核验场景用户上传本人照片(可进行活体检测,确保由真人操作,抵御照片攻击)和身份证照片,使用华为云文字识别服务识别证件内容(如姓名、身份证号等),及人脸识别服务确认操作者为证件主人,并对接公安部权威数据库进行实名认证。
人证核身证件版(二要素):适用于仅需实名认证身份证信息,无需人像识别的核验场景用户上传本人身份证照片,使用华为云文字识别服务识别证件内容(如姓名、证件号等),并对接公安部权威数据库进行实名认证。
两个版本的本质就是调用文字识别OCR和人脸识别FRS服务获取信息,然后对接公安部权威数据库进行实名认证。
开通服务
两个版本调用API接口使用服务的流程一样,这里以人证核身证件版(二要素)为例演示一遍,具体操作可参考用户指南。
产品体验
传入参数,这里传入图片的base64编码,发送后会返回识别到的信息。
产品优势
权威可信:服务数据来源自国家权威机构公安第一研究所和全国身份证信息查询 中心。
配套丰富:配套人脸识别 FRS、文字识别 OCR 等多种增值服务可供订阅使用。
超高性能:低延时、高吞吐、迅速响应拓容需求。
安全可信:华为云承诺不保存服务过程数据和用户隐私数据。
语音交互SIS
语音交互SIS可以用于银行、证券、保险等金融机构的语音客服、自助服务等场景,提高客户体验和服务效率;医院的语音诊断、智能问诊等场景,提高医疗服务效率和医疗质量;学校的语音教育、智能评测等场景,提高教育效果和教育质量。
开通服务
华为云语音交互SIS包含以下四种服务:
实时语音识别:将连续的音频流实时转换成文本,语音识别更快。可应用于直播实时字幕、会议实时记录、即时文本生成等场景。
一句话识别:一句话识别将口述音频转换为文本,通过API调用识别不超过一分钟的不同音频源发来的音频流或音频文件。适用于语音搜索、人机交互等语音交互识别场景。
录音文件识别:录音文件识别,基于深度学习技术,可以实现5小时以内的音频到文字的转换。支持垂直领域定制,对应领域转换效果更佳。
语音合成四种服务:语音合成服务提供在线语音合成能力,支持将文本信息实时转化为近似的真人发声,支持多语言多音色语音在线合成。支持客户的个性化语音定制化需求。
产品体验
通过语音合成,实现高品质的机器人发声,使得人机交互更加自然。语音合成精品发音人,50个字符内(含50个)记为1次计费调用;普通发音人,100个字符内(含100个)记为1次计费调用。
产品优势
识别准确率高:采用最新一代语音识别技术,基于深度神经网络(Deep Neural Networks,简称 DNN)技术,大大提高了抗噪性能,使识别准确率显著提升。
识别速度快:把语言模型、词典和声学模型统一集成为一个大的神经网络,同时在工程上进行了大量的优化,大幅提升解码速度,使识别速度在业内处于领先地位。
多种识别模式:支持多种实时语音识别模式,如流式识别、连续识别和实时识别模式,灵活适应不同应用场景。
定制化服务:可定制特定垂直领域的语言层模型,可识别更多专有词汇和行业术语,进一步提高识别准确率。
总结
通用AI的意义在于它可以应用于各个行业领域,帮助人们更高效、更准确地完成各种任务。可以通过自动化、智能化等方式提高生产效率、降低成本、提高质量、提高客户满意度等,从而推动各个行业的发展。因此,通用AI的发展具有重要的战略意义和经济价值。
当下正值开年企业采购旺季。为在采购高峰更好服务企业客户,华为云发起开年采购季活动,旨在让广大中小企业享受到更多优质产品、更大福利优惠,一键省心上云,实现稳定持续增长。
据悉,华为云开年采购季推出包含通用 AI 在内的多款热门产品及解决方案,以最大诚意帮助中小企业轻松上云。同时,活动还将同步开启华为云企业快成长直播间,以技术和资源赋能,让企业省心上云,数智升级快人一步。
评论 {{userinfo.comments}}
{{child.content}}
{{question.question}}
提交