基本工作流程和数据流分析
管理咨询、律师、会计、第三方认证等等现代服务行业,普遍存在着数据的收集、分类、筛选、处理和呈现等基本工作环节。
例如传统管理咨询中的市场调查分析模块,通过观察、实验、调查等方法对市场信息进行抽样预估,获取基本的市场信息,进而处理数据,筛选、过滤去除、分类和转化分析市场数据,进行建模和计算,评估市场容量、市场分类、市场趋势等信息,如果用原始的线下问卷调查方法,如果有上亿个样本总量,抽样的时间和成本将会非常惊人。
在法律领域,海量的法条、合同、裁判文书等法律相关文本构成的数据信息,在传统模式中同样需要检索、整理、分析、判定等耗时耗力的工作,在海量的非结构化电子文档,包括电子邮件、Office文档、PDF文档等等,从数以TB计的数据中检索案件相关文档简直就是律师的噩梦,费时、费力而且准确性差。
在会计领域,每天产生的大量的各种原始会计资料、原始凭证及记帐凭证,需要进行确认、计量、输入、储存、处理、传递、反馈、输出、发布等数据处理流程。尤其是原始凭证的处理,如果靠人工进行识别确认、计量和输入,同样需要耗时耗力的基础性工作。
在认证领域,也同样存在大量的报告信息输入、判定、计算、核对、确认、反馈和输出、盖章、发布等环节,尤其是大量的数据处理和判定环境,如果靠人工,一份报告上千条的判定也同样需要大量的人工智力劳动。
大数据和人工智能技术为批量的基础信息处理工作提供了技术条件
数据采集环节:
互联网、物联网的数据采集技术,将传统的门店实地考察、线下问卷调查、手动识别和输入的工作进行了革命性的替代。
例如来访网站的潜客行为轨迹与画像进行详细的记录分析,而趋势分析和热词分析技术,可以随时了解产品品牌、所处行业、以及竞品的口碑与声量。如果用传统的调查问卷方法,数据的有效性、及时性、准确性和代表性都会大打折扣。
例如阿里商旅,通过电子结算、电子发票等方式,免去了员工出差要收集、粘贴发票,会计要处理发票核对发票的大量繁重工作,解放了劳动力,降低了各项相关成本。
例如律师可以使用网络分析工具,去分析证人的Twitter联系人网络和活动记录,从而大大减少前期部分信息调查工作量。
例如洛杉矶警察局利用大数据分析软件,获取和跟踪犯罪潜在对象的相关信息,成功的把辖区里的盗窃犯罪降低了33%, 暴力犯罪降低了21%,财产类犯罪降低了12%。
检索环节:
从最原始的图书馆文献检索、到互联网检索工具、数据库检索技术的推广应用,信息技术对传统需要大量检索的工作模式进行了颠覆性革新,而随着大数据技术和机器学习算法的完善,大大提高了对复杂的非结构化的数据的检索分析的能力,提高了法律文档、市场信息、会计资料等各种数据格式的检索效率。
如果传统的搜索引擎定义为搜索1.0,它的工作方式是,理解问题,并给出大量相关文档作为解答;而新的搜索2.0技术与传统搜索引擎不同,例如可以用自然语言向IBM Watson提出问题,Watson则能够反馈精确的答案。从解答的过程来看,Watson通过使用数以百计的算法,而非单一算法,来搜索问题的候选答案、并对每个答案进行评估打分,同时为每个候选答案收集其他支持材料,并使用复杂的自然语言处理技术深度评估搜集到的相关材料。当越来越多的算法运算的结果聚焦到某一个答案时,这个答案的可信度就会越高。
分类筛选环节
传统模式是通过人工检索到各种格式的文档,例如邮件,word,PDF,EXCEL等,再进行分析,筛选,获取相关的信息文本,再按照重要性、紧急度等指标进行排序,从而为下一步的数据处理工作做好准备工作。
在这个环节,如果是快速产生的海量数据,例如上千万app用户的各种实时数据,GPS定位、交易时间、交易类型、交易对象、付款方式等等,瞬间产生的大量数据,要进行及时的快速筛选和分类,就需要通过大数据技术进行处理,如果是靠人工是无法完成的任务。
从上篇关于聚类分析的介绍中,传统的人工分类技术可以通过聚类分析算法实现自动分组,并且通过抽象距离概念,根据关联度、相似度等量化指标进行文件信息进行排序和组合。
对于非海量数据,即便是三千个法律档案,要从中快速筛选相关性高的案例档案,靠人工实现也是非常耗时的工作。例如IBM Watson发现顾问模块已经可以发现和建立不同数据之间的关系,通过收集数据,基于数据进行学习,并迅速的提炼洞察,协助法律工作。
信息处理和输出环节
例如在Watson分析问题并确定最佳解答的过程中,运用先进的自然语言处理、信息检索、知识表达和推理和机器学习技术。Watson依靠核心的IBMDeepQA技术,来生成假设、收集大量证据、并进行分析和评估。通过加载数以百万计的文件,包括字典、百科全书、网页主题分类、宗教典籍、小说、戏剧和其他资料,来构建它的知识体系。
Watson会衡量每个候选答案的支持证据,来确认最佳的选择及其可信度。当这个答案的可信度达到一定的水平时,Watson就会将它作为最佳答案呈现出来。
机遇和挑战
随着新的算法技术的成熟和推广应用,各个行业传统的工作流程、模式和人事架构会受到颠覆性的创新,而在这个过程中,因为个人利益、部门利益和思维惯性等现实阻碍因素的客观存在,使得新技术的推广和应用并不会像预想的摧枯拉朽一般的恐怖,而是会呈现代际迭代和分阶段实现的特点。
但是这个趋势是在所难免的,当新的技术和软件的投资回报率远远大于雇佣劳动力成本的情况下,从长远来讲,裁员或职业转型在所难免。
另一方面,凭借互联网和大数据技术优势的企业,除了提供横向服务软件和技术平台之外,和其他服务行业的并购或降维打击也会带来新的商业生态。
例如可以从阿里对传统物流、基金银行等金融行业的带来改变的实际案例分析对其他行业进行模拟推演,新技术带来的机遇和挑战只是时间问题。
其次,还有同业竞争的压力,从短期来看,传统企业,尤其是传统巨型企业往往尾大不掉,在强大的规模和惯性下,在新技术产生的初期显得保守,从中长期来看,一旦有同行在这个领域内通过新技术进行大幅度的效率提升之后,在激烈的市场竞争压力下,同样也会逐步使用大数据技术进行数据采集等各个环节的创新和改变,与此同时,也会促进大数据技术的进一步成熟和迭代更新。