宋晓江 北京市京师律师事务所
崔利民 北京盈科(天津)律师事务所
近年来“大数据”的概念在全球范围内广泛传播,大数据的挖掘和应用在各行各业被实践。大数据给传统行业带来了空前的影响,信息技术的发展以及司法信息的公开化,使得大数据跟法律行业的结合成为可能。
大数据是指“用现有的一般技术难以管理的大量数据的集合”。维克托•迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中提出大数据时代思维变革的三个特征:第一,思维所据以进行的不再是随机样本,而是全体数据;第二,不再追求精确性,允许混杂性;第三,思维依据的归属不再是因果关系,而是相关关系。
首先,我国法律大数据的研发和应用正处于尝试阶段。传统的法律数据库公司,并未对数据进行二次开发和挖掘,也没有专门针对需求从事数据挖掘和分析的企业。目前已经有一些新兴的互联网公司开始对现有的法律方面的信息进行采集、挖掘、分析,针对用户需求提供解决方案。
其次,我国的法律大数据在数据分析阶段存在一定的局限性。随着裁判文书的公开,以及互联网上其他法律信息的日渐积累,法律方面的大数据已经形成。笔者从一个专门从事法律大数据处理的公司了解到,截止到2015年10月26日,该公司通过裁判文书网抓取的裁判文书已高达918万份。但是面对海量数据的挖掘和分析仍然还存在一定的局限性。因为要实现数据分析就要对数据进行建模,而这个过程是需要法律专业的人士与建模人员进行配合才能实现有目的的分析。对海量法律数据的分析和应用是未来法律行业需要进一步探索的。
在过去没有大数据的时候,刑事法律的研究和实践主要依托于传统统计学上的抽样研究和分析,这种研究方式使刑事法律的研究和实践面临一定的困境。笔者将以企业家刑事风险预防及辩护为视角进行分析。
在过去,因为无法掌握到大数据,很多研究只能依托个别样本进行分析,或者是对抽样数据进行分析。这种分析研究方法存在很大的局限性,比如依托抽样数据无法得出某一个类型的企业家犯罪在全国范围内的分布情况;无法得出某一个具体的罪名下企业家的犯罪情形在数量上是如何分布的,从而进一步制定预防措施及对某个风险较大的犯罪情形进行进一步的研究分析;无法通过对数据的分析了解立法与法律实施过程中存在的差距;无法了解到某类案件在实践中的各方观点,比如法院的裁判规则等。
抽样调查的方式只能获得有限的信息,这种信息跟大数据信息相比是极其微小的,而后续的研究是建立在这种不完备、不充分的信息基础上的。这导致很多研究结果与大数据分析方法得出的结论相比是存在一定的片面性的。
因为搜集实践中的法律相关信息存在一定困难,传统的企业家刑事风险预防研究主要以学理研究为主,实践研究为辅的方式,对于实践阶段的研究主要停留在对典型案例的分析而非司法实践中的全部法律大数据进行分析,这导致很多研究结果与实践结合存在一定困难。
在实践中,律师很难有学习优秀经验的渠道,完全靠在实践中慢慢积累经验来提高自己的刑事辩护技能。这种经验主义的刑事辩护方式使得司法实践在刑事辩护这个环节存在很多的不确定性,也使得一些司法环境欠发达地区的企业家很难获得高效的刑事辩护法律服务,这对法律的有效实施是非常不利的。
目前,在法律服务领域,律师在对具体刑事案件的分析和处理时,往往是只能利用有限的资源,对案件背后的法理进行研究,而无法真正地从实践的角度进行分析和处理。但是由于立法和法律的实施之间是存在一定差异的,往往通过对法理的研究是无法掌握某一种刑事犯罪行为在实践中的法律实施情况的,这种差异往往会导致律师对案件的预判和结果产生比较大的误差,并且在辩护策略的制定上无法作出更有实务意义上的选择。
从裁判文书的逐渐公开,关于裁判文书的大数据也在逐渐形成。北京师范大学中国企业家犯罪预防中心编制的《2014中国企业家犯罪报告》的数据样本就是2013年12月1日至2014年11月30日期间,中国裁判文书网公布的刑事案件的一审判决书中按照设定的统计变量进行检索筛选确定的。而在这之前的《2013中国企业家犯罪报告》的数据样本则是对大众网络媒体公开报道的企业家犯罪进行持续检索和搜集形成的。相比之下,通过裁判文书网获得的数据样本不但比较全面,而且通过现有技术更容易获得,大数据的出现为企业家刑事风险预防研究提供了非常全面的样本。
由于样本的采集更加全面,更加科学,使得依据该样本得出的研究结论更趋近于客观现实。传统的抽样调查因为对样本采集的随机性很难把握,另外无法避免人为主观因素对抽样数据的选择,往往这种调查具有不稳定性,容易出现偏差。而依托于大数据的研究讲究通过全数据进行分析而非抽样,当数据到达一定的量以后便会自动减少个别特殊样本对整体结果的影响程度。很多人担心一些刑事案件的判决结果存在一定的主观不确定因素,比如法官的自由心证以及其他非法律原因的压力等。基于对裁判文书的研究往往会因为这些不确定因素而出现误差,而用大数据的研究方法,因为数据样本的数量庞大,就可以减少这种不确定因素对研究结果的影响,使结果更趋近于客观现实。
因为可以获得海量的数据,所以使很多在过去缺乏数据的情况下无法研究的内容,例如,通过对全部裁判文书的立案时间和裁判时间进行统计分析,就可以对研究对象的法院审理时间及效率进行分析。对于企业家刑事风险预防研究来说,《2014企业家犯罪报告》中就有包括犯罪企业家个人相关信息、所涉企业的情况、案发的地域分布情况、刑事犯罪罪名相关的情况等近40项指标,这在过去缺乏数据的情况下是很难进行研究的。
另外据笔者了解,现在已经有法律大数据公司自主研发相关系统,可以针对用户的研究需求,通过程序设定,运用机器对大数据进行处理,现代大数据处理技术的发展为未来相关研究提供了很大的便利。
通过对数据的研究分析,专业研究人员可以通过数据找到企业家刑事犯罪的特定规律及风险分布情况。通过对相关规律及风险点的分析,可以有针对性的提出预防的建议,为预防企业家刑事风险提供更可靠的依据和指引。
大数据的出现为刑事辩护律师的学习提供了非常好的便利条件。比如北京师范大学中国企业家刑事风险防控北京中心(以下简称“北京中心”),在大数据的背景下,由北京中心核心成员共同研究制定了关于企业家刑事辩护内部研究集。该研究集依托大数据的支撑,以罪名为划分标准,对罪名项下的一些重要内容进行了研究编写。其中,以罪名为划分标准的法律、法规、规范性文件汇编,以及通过对裁判文书数据的整理、分析而得出的各罪名项下的相关重要指标都是依托大数据的研究方法而制定的。该内部研究集不仅可以对企业家进行刑事风险预防起到法律意义上的借鉴作用;同时该研究集中的重要信息和知识,可以为刑事辩护律师在实践中的研究和辩护提供支持。
上文提到,因为缺乏对法律实施过程的分析,使得实践中企业家刑事辩护策略的制定主要依托对法理而非实践的研究。各类法律大数据信息的出现,使对法律实施过程的研究和分析成为了可能。比如,通过对大数据的宏观分析可以了解某类案件的裁判规则;通过对大数据的微观分析可以预估特定地域,甚至特定法官对于某一类案件在实践中的隐形的裁判规则。在美国2004年的一项研究中,研究者使用最高法院9名大法官以前审判过的628起案件的历史数据,对每位法官在特定案件中可能的投票结果进行了预测,结果该模型预测的法院同意审判或驳回上诉的结果正确率(75%)要高于普通法律专业人士(59.1%)。
不仅如此,通过对裁判文书中检方内容的深入研究分析,可以分析出某类案件检方一般采取的公诉方法和策略;通过对特定证据与裁判结果之间的关联分析,可以对某类证据与判决结果之间的关系进行预测。
综上,虽然大数据研究得出的结论并非因果关系,而是关联关系,但是通过对大数据进行研究得出的具有某种关联关系的结论对于企业家刑事风险预防及辩护都有很大的意义。随着大数据挖掘和分析技术的越来越成熟,未来大数据在刑事法律研究和实践中会起到越来越重要的作用,也必然会为刑事法律研究和实践带来更多新的思路和方法。