人员投入,提高处理效率;另一方面是加强供应链资源管理能力,扩大资源供给,降低单位成本。此外,数据集产品一直是我们公司所坚持的重点方向,公司开发大量通用型、复卖率高的标准化产品数据集,反复给公司带来利润,也能实现训练数据产品的规模化效应。 7、成本结构里最大的部分是什么?如何能够持续性的优化成本结构? 公司最大的成本就是原料数据采购费用,即:采集、标注成本。一方面,公司通过继续加大研发投入的力度,全面提升公司的算法能力、工程化能力,加深算法辅助能力与人工工作的结合,达到更佳的人机协同,这样能够做大规模、提升效率、降低成本;另一方面是加强供应链资源管理能力,扩大资源供给,降低单位成本。 8、公司提供的训练数据整体解决方案中,各个环节的技术难度如何? 首先,训练数据集的设计和原料数据采集环节是存在相当的技术难度的,比如语音类采集,文本设计是否贴合实际场景、如何实现最小采集量且确保场景覆盖丰富度等因素均是设计和采集环节需要考虑和解决的;在视觉类采集方面,复杂的人像采集、物体影像采集,同样具有如何设计合理的数据浓度达到最小成本最高训练效果,如果是垂直行业数据集的采集,例如交通行业内的自动驾驶领域,则存在准入资质、技术难度(包括但不限于对于交通场景、车辆传感器等要素的综合理解和实施能力)等方面的门槛。数据标注环节的难度在于面对大量的数据标注需求,如何快速的找到充足的资源,而且通过算法平台实现机器的辅助标注,并在人机协作过程中,寻找效率与质量的最佳平衡,在提升数据标注效率、保证数据质量的同时降低成本。 9、定制数据逐渐积累,是否可以转化为自有的数据产品? 客户定制服务涉及的训练数据在交付给客户并完成验收后,所有权完全转移给客户,海天瑞声是不能用于自身产品建设的,这一点是公司始终遵循的知识产权要求。在定制数据集的生产过程中,积累下来的经验、know-how 会帮助公司各方面能力的提升,例如工具平台因为处理了大量的定制数据集,使平台完善性有很大的增益,加强了公司的数据处理能力;再如,在一些情况下,公司在生产定制数据集时,也会根据对行业需求的判断,在保障数据权属划分清晰的前提下,利用团队管理、资源获取的便利性,同步安排额外的设计、采集和标注工作,完成产品数据集的开发。lg...