【新創科技公司 ParallelDomain 簡介】⋯魁省山寨·推薦
蒙城老張-101698 01/16 40554.0/1
【新創科技公司ParallelDomain 簡介】~ 魁省山寨·推薦
ParallelDomain是一家走在世界最前沿的公司
Parallel Domain envisions a future where every life on the planet is improved by the transition to safer and more equitable AI. To enable that future, we are on a mission to accelerate the development of machine perception with synthetic data.
Parallel Domain是一家为AI开发和机器学习应用服务的科技公司,致力于模拟数据(synthetic data)的生成。从默默无人到崭露头角,它在汽车制造和无人机快递领域已處於領先地位,取得傲人成就。
Parallel Domain至力于提供计算机模拟技术,为自动驾驶测试创建虚拟世界。通过合成白天、黑夜、城市、雾天、雨天等多种场景,插入交通信号灯、车辆、行人和动物等混杂因素,Parallel Domain自动驾驶模拟平台提供了丰富的元数据,便于用户尝试新的传感器和技术配置。
ParallelDomain 是一家初创科技公司,2017年在美国加州成立。2018年底,ParallelDomain获得了Toyota的投资。ParallelDomain 致力于自动生成高质量的虚拟环境,其研发的软件可以在很短的时间内自动生成所需测试的城市街区。
ParallelDomain平台使用真实世界地图数据,可以接收多种地图格式, 在地图不能提供足够数据的地方使用额外的元素,依托程序化生成引擎自动生成虚拟世界。一个显著的特点是虚拟世界的所有元素都是可调整和可编程的,例如车道数量, 地形类型, 山脉位置, 道路曲率等。ParallelDomain 也为自动生成的场景提供了动态的交通场景。
Parallel Domain的一个合成数据样本,显示其虚拟世界能力的地图视图。
人工智能(AI)可能正在摄入我们所知的世界,但专家说AI本身也在挨饿——而且需要改变它的饮食。一家公司说合成数据就是答案。
“数据是人工智能的食物,但今天的人工智能吃不饱,营养不良,”合成数据平台供应商Parallel Domain的首席执行官兼创始人凯文-麦克纳马拉(Kevin McNamara)说,该公司刚刚在March Capital领导的B轮融资中筹集了3000万美元。“这就是为什么事物发展缓慢。但如果我们能更好地喂养人工智能,模型将以更健康的方式快速成长。合成数据就像训练人工智能的营养品。”
研究表明,大约90%的人工智能和机器学习(ML)部署失败了。今年早些时候Datagen的一份报告指出,很多失败是由于缺乏训练数据。它发现99%的计算机视觉专业人员说他们(至少)有一个机器学习项目被砍掉了,特别是因为缺乏数据来做完它。100%的受访者报告说,即使是那些没有因为缺乏数据而被完全取消的项目,也经历了严重的延误,使它们偏离了轨道。
在这种情况下,高德纳预测,合成数据将越来越多地被用作人工智能和机器学习训练用途的补充。该研究巨头预测,到2024年,合成数据将被用于加速60%的人工智能项目。
合成数据是由机器学习算法产生的,该算法摄取真实数据来训练行为模式,并创建保留原始数据集统计属性的模拟数据。由此产生的数据复制了真实世界的情况,但与标准的匿名数据集不同,它不容易受到与真实数据相同的缺陷影响。
将人工智能从 "石器时代 "中拉出来
听到像人工智能这样先进的技术停留在某种程度上的“石器时代”,听起来可能很不寻常,但这就是麦克纳马拉所看到的——如果不采用合成数据,人工智能将保持这种状态,他说。
“现在人工智能的发展有点像60年代或70年代计算机编程的方式,当时人们使用打卡编程——一个手动的、劳动密集型的过程,”他说。“当然,世界最终摆脱了这一切,转向数字化编程。我们想为人工智能的发展做到这一点。”
麦克纳马拉认为,使人工智能停留在石器时代的三个最大瓶颈是以下几点:
1.收集真实世界的数据——这并不总是可行的。即使是像乱穿马路这种在世界各地的城市中经常发生的事情,如果你需要数以百万计的例子来训练你的算法,那么对于公司来说,从现实世界中获取这些数据很快就变得遥不可及。
2.为数据做标签——这往往需要数千小时的人力时间,而且可能不准确,因为,人类会出错。
3.一旦数据被做好标签,就对数据进行迭代——这需要你调整传感器等等的配置,然后应用它来实际开始训练你的人工智能。
“这整个过程是如此缓慢,”麦克纳马拉说。“如果你能真正快速地改变这些东西,你实际上可以首先发现更好的设置和更好的方法来开发你的人工智能。”
正确地进入舞台:合成数据
Parallel Domain通过生成基于地图的虚拟世界来工作,它称之为现实世界场景和地理的“数字表亲”。这些世界可以被改变和操纵,例如,有更多的乱穿马路或下更多的雨,以帮助训练自动驾驶汽车。
Parallel Domain的合成数据样本,显示了其虚拟世界能力的地图视图。
因为这些世界是数字表亲,而不是数字孪生体,所以定制可以模拟有时较难获得的——但对培训至关重要的——数据,通常而言公司必须自己去获得的数据。该平台允许用户通过API根据他们的需求进行定制,因此他们可以按照他们想要的方式精确地移动或操纵因素。这加快了人工智能培训过程,并消除了时间和劳动力的障碍。
该公司声称,它可以在若干个小时内提供训练数据集,供其客户使用——这些客户包括丰田研究所、谷歌、大陆集团和Woven Planet。
麦克纳马拉说:“客户可以进入模拟世界,让事情发生或从该世界中提取数据。我们有(操纵)不同种类的资产和可能发生的情景的旋钮,以及让客户插入他们自己的逻辑的方法,让他们看到什么,在哪里看到,以及这些东西如何表现。”
然后,客户需要一种方法,将数据从那个世界拉到符合他们设置的配置中,他解释说。
他说:“我们的传感器配置工具和标签配置工具使我们能够复制客户将看到的确切的相机设置或确切的激光雷达、雷达以及标签设置。”
合成数据和生成性人工智能
合成数据不仅对人工智能和机器学习模型训练有用,而且可以应用于使生成性人工智能——一种已经快速增长的技术用途——发展得更快。
随着公司以新的资本进入2023年,Parallel Domain对该领域虎视眈眈。它希望增加生成性人工智能训练所需的数据,使其成为一个更强大的内容创作工具。其研发团队正专注于它能提供的合成数据模拟的多样性和细节。
“我对我们空间中的生成性人工智能感到兴奋,”麦克纳马拉说。“我们在这里不是为了创造一个对世界的艺术性诠释。我们在这里实际上是要创造一个世界的数字表亲。我认为生成性人工智能在观察世界各地的图像实例方面非常强大,然后把这些拉进来,在合成数据中创造有趣的实例和新奇的信息。正因为如此,生成性人工智能将是我们来年投资的技术进步的一个重要部分。”
合成数据的价值并不限于人工智能。鉴于创建现实的虚拟环境需要大量的数据,这也是推动元宇宙发展的唯一实用方法。
Parallel Domain是快速增长的合成数据创业领域的一部分,Crunchbase之前报道过,该领域正在出现一大片融资。Datagen、Gretel AI和Mostly AI是它的一些竞争对手,在去年也筹集了数以百万计的美元。
Parallel Domain是一家领先的计算机视觉开发合成数据生成平台开发商,该公司在B轮融资中筹集了3000万美元,由March Capital领投,投资方包括Costanoa Ventures、Foundry Group、Calibrate Ventures和Ubiquity Ventures。公司的使命是重新定义AI(人工智能)学习,通过合成数据实现人类和万物的自主未来。
该公司创始人兼首席执行官凯文·麦克纳马拉在一篇博客文章中写道:“我们设想的未来将是没有事故的街道,更安全的天空,更智能的住宅,每个人都可以自由出行。”“当我们在2017年启动并行领域时,我们看到人工智能模型缺乏实现这一未来所需的数据。五年后,我们很高兴我们的合成数据正在为世界各地的感知团队带来现实世界的影响。”
March Capital的合伙人Julia Klein补充说,合成数据将在机器学习(ML)的未来发挥关键作用,该公司在企业AI领域为成长期公司提供了丰富的经验。Klein将加入Parallel Domain的董事会。
她说:“Parallel Domain已经成为计算机视觉合成数据领域的领导者,为移动、自动驾驶汽车和移动视觉领域的最大参与者提供了巨大的价值。”我们期待与Parallel Domain紧密合作,共同构建数据的弹性计算云。”
该公司的技术适用于一系列用例,从用智能手机增强人类视觉,到帮助无人机递送包裹,再到制造更智能的自动驾驶汽车。该公司越来越多的客户,包括谷歌、Continental、knit Planet和丰田研究院,都发现合成数据对于扩大为其视觉和感知系统提供动力的人工智能至关重要。
麦克纳马拉解释说:“如今,人工智能只能进行渐进式改进。“获取正确数据的难度意味着,营养不足的人工智能系统很难跟上我们未来的需求。这减缓了人工智能系统的发展,包括自动驾驶汽车、驾驶辅助系统、机器人和自动无人机。”
根据麦克纳马拉的说法,从现实世界中收集和手动标记数据的标准方法是非常缓慢和昂贵的,开发人员通常需要等待数周或数月才能获得用于改进模型的新数据。人为标记错误、由于类别不平衡而导致的性能问题以及对隐私的限制进一步阻碍了ML开发人员将他们的系统推向市场。
Parallel Domain的解决方案是一个平台,可以让AI开发人员生成用于训练和测试感知模型的合成数据,其规模、速度和控制水平是现实世界中收集的数据所无法达到的。它的用户在虚拟世界中生成的数据范围使他们的模型为物理世界的不可预测性和多样性做好了准备。
该公司合成数据解决方案的价值带来了显著的业务增长势头,营收同比增长2.5倍,客户基础以两位数增长。它的团队已经发展到80多名员工,为北美、欧洲和亚洲的客户提供支持。
麦克纳马拉表示:“目前还没有其他的户外自主系统(汽车、机器人和无人机)平台能够生成类似并行域那样规模和质量的数据。”而这仅仅是个开始。Gartner预测,到2024年,人工智能和分析项目开发中60%的数据将是合成的。我们希望每个感知团队都能拥有这样的能力,实现更安全、更公平的人工智能。”
新的资金将使该公司能够继续推动收入增长,扩大其团队和产品服务更广泛的客户群,并利用生成式人工智能的最新进展。
该公司于2021年5月公布了一项工作,该公司称其是业内首个公开合成数据可视化器。从历史上看,普通大众一直无法获得高质量的合成数据,但随着Parallel Domain的发布,机器学习工程师可以直接与完全标记的合成相机和激光雷达数据集进行交互,为自动驾驶应用开发更好的视觉和感知模型。
“有了合成数据,在有限的虚拟世界集合中,仅仅有几个好看的截图是不够的,”编织星球的机器学习技术主管Wadim Kehl说。“你需要具有复杂标签的动态场景,以及在不同环境和条件下将这些内容相乘的能力。看到Parallel Domain创建这样的应用程序,让社区体验到这种合成数据,以促进更好的可访问性,真是太棒了。”
Parallel Domain的合成数据可视化工具是免费的,任何机器学习工程师或团队成员都可以在其网站上获得。通过可视化合成传感器数据和大量通用计算机视觉数据标签格式菜单,机器学习团队现在可以在决定如何最好地训练、测试和部署计算机视觉和感知模型之前,了解合成数据的用途。
该平台提供了两种生成合成数据的产品:批处理模式和步进模式。
批处理模式是为机器学习工程师设计的,以生成自定义数据集来训练、测试或验证他们的机器学习模型。在一个命令中,用户可以生成大型数据集,包含指定的天气、场景、位置、内容等分布。
步进模式是一种API(应用程序编程接口),设计用于模拟团队根据需求生成合成传感器数据,以用于验证目的。对于每个时间步,模拟器将世界的状态发送到产品开发的步骤API,然后接收与该时间步对应的高保真传感器数据。
这两种模式都包括高保真的注释,支持不同的机器学习任务。
所有的传感器数据都是在虚拟世界中捕获的,这些虚拟世界是由真实世界的地图数据程序生成的。这使得世界能够包含深度合成复杂性,同时保持现实性。因此,在Parallel Domain的虚拟世界中捕获的数据包含了精确模拟现实世界的不完美所需要的复杂和嘈杂的细节。
The Team
Seeing further, faster, together.
The world is diverse and complex. The teams and data teaching AI to navigate our world should be too.
Our multidisciplinary team hailing from around the world are specialists in autonomous systems, graphics, simulation and software development. Our extensive experience positions us at the forefront of the synthetic data movement to reduce bias, time, cost and data volume while increasing diversity, quality, and performance for our customers at the turn of a dial.
(魁省山寨·整理匯編推薦)