第一百九十八章 开卷数据方舟中台
推荐阅读:明克街13号、弃宇宙、渡劫之王、第九特区、三寸人间、大符篆师、仙宫、大侠萧金衍、英雄联盟:我的时代、问道章
一秒记住【笔趣阁 www.biqugexszw.com】,精彩小说无弹窗免费阅读!
既然陈竖已经睡下,林果决定自己去调查。
“要证明《我的紫色芳香小说》是陈竖的作品,而不是卫胜男的,最快的方式当然是使用数据分析。统计出这两位作者早期作品中的高频词汇,语法习惯,以及标点符号等使用方式,再跟昨天在第二期短名单公示的作品进行比对——”
“等等,你这倒是方便了,要找人开发系统,谁知道要多长时间。”
说这话的同时,李带想到了万物皆可盘的技术达人赵盘,他倒是可以帮忙定制,但无论是文本的录入还是后续的统计,都要不少时间吧。
正想着怎么加快进度的时候,林果说。
“没关系,我这里有现成的系统。是开卷数据的内部服务。”
听到这里,李带一惊。
众所周知,开卷数据是华夏图书市场不可忽视的巨头之一。
在出版行业里,有的公司靠原创内容挣钱,有的公司靠版权贸易挣钱,有的公司靠发行渠道挣钱,但是开卷数据这家公司不一样,它靠收集整理服务器里的数据挣钱。
作为国内最大的图书市场零售数据连续监测系统的建立者,开卷数据拥有890多个地县城市,2000多家实体书店,1500多万种图书的3200多万条元数据信息,而且上面的数字每个月都在有条不紊地增加、整理、沉淀着。
所以简单来说,它是全球最快、最全、最权威的华语出版书目信息库。
有了这些信息以后,开卷数据既可以为出版业上游四百多家出版单位提供编辑选题、营销发行相关的数据支持,又可以帮助下游各个书店在采购、配货、上架、销售以及退货等环节,实现全方位、流程化和精细化管理。
除此之外,他们还制作各种榜单,诸如《全国出版企业市场竞争力年度分析报告》《地区分类新书销售排行榜》等,报告是免费向全社会公开的,所以无论在行业主管部门,在业内各个同行,还是在广大普通读者中间,这家公司的口碑都很好。
最令人讶异的是,这么家占据了行业龙头地位的公司,他们总部的员工,如果不算外包和实习员工的话,只有四十二个人。
“这都能弄到,你路子还真是够野的。”
“之前的服务器里用来运算的数据,都只是针对书籍的描述数据,也就是所谓的元数据,譬如书籍的标题、副标题、第一作者、第二作者(合著者)、第三作者(译者)、出版时间、出版方等等。这些数据虽然也很重要,在很多地方都能派上用场,但是开卷觉得它们的颗粒度还不够细,所以决定再进一步,深入到文本中,选择近十年内,出版的五十五万本重点图书,配合出版方做了电子版的录入工作,内部称之为「方舟中台」。仅对内部员工开放,使用公司配发的代理服务器才能登陆。我恰好有权限就查了查,里面就包括陈竖和卫胜男的书。”
“业务也太熟练了吧,你这是到开卷数据他们总部潜伏去了吗?!”
“那倒没有,只不过公司有我认识的人而已。”
“我天你认识的是哪位大佬。”
“林远兴。”
“开卷数据……执行董事长?”
“是我爸。”
林果连忙补充道,“不过这不重要,我是新知集团的员工。”
“……”
“总而言之,言而总之,回到之前的问题。昨天晚上,我把陈竖的三本旧作《椴花茶方法论》《逃逸线》以及《超无用的超能力》,还有卫胜男的近五年出版的十一本书都在方舟平台里面运算了一遍,发现《我的紫色芳香小说》更可能是陈竖的作品。”
“此话怎讲?”
“首先,从语法习惯上来讲,在开卷对全世界公认的十五位伟大作家的一百六十七部作品进行量化分析后,伟大作家的传世之作,跟从论坛上抓取下来的长篇同人小说——它们通常是业余作家不为盈利写出来的兴趣之作——相比显著特征是,好作家使用副词的频率更低。”
“举个例子,「他威胁地低吼」「她凄惨地哀求」,这里「威胁地」和「凄惨地」就是副词,而这两个词完全没有必要。如果低吼出来的话足够有威胁性,读者自然能感觉到,没必要特意告诉他,同理哀求这个动词已经表现出角色的凄惨,非要说出来就很啰嗦,滥用副词就是在低估读者的智商。再举个例子,同样是表现角色的愤怒,与其说「他用力地关上门走了」,就不如说,「他摔门而去」。”
“还有个显著特征是,好作家会有意识避免使用被动语态。不要说「会议将于七点钟被举行」,直接说七点开会,不要说「我家里被财富充满了」,直接说我家发了大财。”
“这个理论有点道理,不过我猜测,你们选择的伟大作品,应该有不少来自西方国家。像这些语法规则的微妙之处,也是在西方国家中会更适用些,中文的语法比较随意。”
“是的,数据不能代表全部。但我这边的结论是,陈竖的作品符合少用副词,少用被动语态的要求,而卫胜男不符合。我还没说完,你姑且先听着。”
“其次,从标点符号的使用习惯上,伟大作品的感叹号使用率较低。在没有必要的情况下大量的感叹号,会冲淡文字本身的力量,感叹号和其他的特殊标点符号,如破折号、省略号要用在格外需要读者注意的场面和描写里面。有些写作指导书里还专门规定了比例,说是每十万个字中感叹号不要出现超过三个。”
“有点夸张。但听起来似乎也不无道理。”
“如果按照这个标准,她们肯定是都超标了。两个人相比较的话,陈竖使用的感叹号比例明显小于卫胜男。”
“最后是词频,常用词语频率,这个是最容易分辨出不同作家的风格差异的地方。”
“两个人使用最多的都是助词,陈竖使用最多的助词是「的」,卫胜男是「了」。”
“这说明不了什么。”
“再看代词,陈竖使用最多的代词是「我」,卫胜男则是「她」。”
“还是很迷啊。只能说明一个喜欢用第一人称写作,另一个喜欢第三人称视角吧。”
“排除掉这些虚词后,关键的来了。在名词中我主要统计了地名、交通工具、动物、颜色等常见的分类。”
“陈竖最常用的颜色是「紫」,卫胜男却不是。”
既然陈竖已经睡下,林果决定自己去调查。
“要证明《我的紫色芳香小说》是陈竖的作品,而不是卫胜男的,最快的方式当然是使用数据分析。统计出这两位作者早期作品中的高频词汇,语法习惯,以及标点符号等使用方式,再跟昨天在第二期短名单公示的作品进行比对——”
“等等,你这倒是方便了,要找人开发系统,谁知道要多长时间。”
说这话的同时,李带想到了万物皆可盘的技术达人赵盘,他倒是可以帮忙定制,但无论是文本的录入还是后续的统计,都要不少时间吧。
正想着怎么加快进度的时候,林果说。
“没关系,我这里有现成的系统。是开卷数据的内部服务。”
听到这里,李带一惊。
众所周知,开卷数据是华夏图书市场不可忽视的巨头之一。
在出版行业里,有的公司靠原创内容挣钱,有的公司靠版权贸易挣钱,有的公司靠发行渠道挣钱,但是开卷数据这家公司不一样,它靠收集整理服务器里的数据挣钱。
作为国内最大的图书市场零售数据连续监测系统的建立者,开卷数据拥有890多个地县城市,2000多家实体书店,1500多万种图书的3200多万条元数据信息,而且上面的数字每个月都在有条不紊地增加、整理、沉淀着。
所以简单来说,它是全球最快、最全、最权威的华语出版书目信息库。
有了这些信息以后,开卷数据既可以为出版业上游四百多家出版单位提供编辑选题、营销发行相关的数据支持,又可以帮助下游各个书店在采购、配货、上架、销售以及退货等环节,实现全方位、流程化和精细化管理。
除此之外,他们还制作各种榜单,诸如《全国出版企业市场竞争力年度分析报告》《地区分类新书销售排行榜》等,报告是免费向全社会公开的,所以无论在行业主管部门,在业内各个同行,还是在广大普通读者中间,这家公司的口碑都很好。
最令人讶异的是,这么家占据了行业龙头地位的公司,他们总部的员工,如果不算外包和实习员工的话,只有四十二个人。
“这都能弄到,你路子还真是够野的。”
“之前的服务器里用来运算的数据,都只是针对书籍的描述数据,也就是所谓的元数据,譬如书籍的标题、副标题、第一作者、第二作者(合著者)、第三作者(译者)、出版时间、出版方等等。这些数据虽然也很重要,在很多地方都能派上用场,但是开卷觉得它们的颗粒度还不够细,所以决定再进一步,深入到文本中,选择近十年内,出版的五十五万本重点图书,配合出版方做了电子版的录入工作,内部称之为「方舟中台」。仅对内部员工开放,使用公司配发的代理服务器才能登陆。我恰好有权限就查了查,里面就包括陈竖和卫胜男的书。”
“业务也太熟练了吧,你这是到开卷数据他们总部潜伏去了吗?!”
“那倒没有,只不过公司有我认识的人而已。”
“我天你认识的是哪位大佬。”
“林远兴。”
“开卷数据……执行董事长?”
“是我爸。”
林果连忙补充道,“不过这不重要,我是新知集团的员工。”
“……”
“总而言之,言而总之,回到之前的问题。昨天晚上,我把陈竖的三本旧作《椴花茶方法论》《逃逸线》以及《超无用的超能力》,还有卫胜男的近五年出版的十一本书都在方舟平台里面运算了一遍,发现《我的紫色芳香小说》更可能是陈竖的作品。”
“此话怎讲?”
“首先,从语法习惯上来讲,在开卷对全世界公认的十五位伟大作家的一百六十七部作品进行量化分析后,伟大作家的传世之作,跟从论坛上抓取下来的长篇同人小说——它们通常是业余作家不为盈利写出来的兴趣之作——相比显著特征是,好作家使用副词的频率更低。”
“举个例子,「他威胁地低吼」「她凄惨地哀求」,这里「威胁地」和「凄惨地」就是副词,而这两个词完全没有必要。如果低吼出来的话足够有威胁性,读者自然能感觉到,没必要特意告诉他,同理哀求这个动词已经表现出角色的凄惨,非要说出来就很啰嗦,滥用副词就是在低估读者的智商。再举个例子,同样是表现角色的愤怒,与其说「他用力地关上门走了」,就不如说,「他摔门而去」。”
“还有个显著特征是,好作家会有意识避免使用被动语态。不要说「会议将于七点钟被举行」,直接说七点开会,不要说「我家里被财富充满了」,直接说我家发了大财。”
“这个理论有点道理,不过我猜测,你们选择的伟大作品,应该有不少来自西方国家。像这些语法规则的微妙之处,也是在西方国家中会更适用些,中文的语法比较随意。”
“是的,数据不能代表全部。但我这边的结论是,陈竖的作品符合少用副词,少用被动语态的要求,而卫胜男不符合。我还没说完,你姑且先听着。”
“其次,从标点符号的使用习惯上,伟大作品的感叹号使用率较低。在没有必要的情况下大量的感叹号,会冲淡文字本身的力量,感叹号和其他的特殊标点符号,如破折号、省略号要用在格外需要读者注意的场面和描写里面。有些写作指导书里还专门规定了比例,说是每十万个字中感叹号不要出现超过三个。”
“有点夸张。但听起来似乎也不无道理。”
“如果按照这个标准,她们肯定是都超标了。两个人相比较的话,陈竖使用的感叹号比例明显小于卫胜男。”
“最后是词频,常用词语频率,这个是最容易分辨出不同作家的风格差异的地方。”
“两个人使用最多的都是助词,陈竖使用最多的助词是「的」,卫胜男是「了」。”
“这说明不了什么。”
“再看代词,陈竖使用最多的代词是「我」,卫胜男则是「她」。”
“还是很迷啊。只能说明一个喜欢用第一人称写作,另一个喜欢第三人称视角吧。”
“排除掉这些虚词后,关键的来了。在名词中我主要统计了地名、交通工具、动物、颜色等常见的分类。”
“陈竖最常用的颜色是「紫」,卫胜男却不是。”