阅读《大数据时代》的体会
看了《大数据时代》,感觉一个大变革的时代正在到来。虽然不太清楚应该彻底改变什么思维和操作方式,但很明显作者想。结束?或者颠覆一些传统上被认为是我们思考和存在基础的理论、方法和途径。面对这样的想法,我的心灵受到了强烈的震撼,不禁瑟瑟发抖。
?在小数据时代,我们会假设世界是如何运转的,然后通过收集和分析数据来验证这个假设。随着想象时代向数据时代的过渡,我们可能也认为我们不再需要理论了。?该书几乎肯定会颠覆统计学的理论和方法,还试图引用《连线》杂志主编安德森?量子物理的理论已经脱离实际了?来吗?结束?量子力学。对此我很高兴,因为统计学和量子力学都是我在大学学习时不及格的科目。但是这两个理论太大,太权威,太基础。我觉得我不可能靠一本书就能摆脱这两件让我一辈子头疼的事。事实上,作者不敢提出一个明确的论点来颠覆他们。毕竟是他加到前面的。大概觉得?这样的伞。
近几十年来,我们总是会遇到各种各样的新想法。面对新思维,我们首先要做的就是破立,改变传统,与时俱进。就算大脑跟不上,嘴巴也要跟上,否则可能会被贴上刻板的标签,甚至阻碍世界的发展。既然大数据是?未来不可避免的变化?那我必须?不受传统思维模式和特定领域隐含的固有偏见的限制?让我们和作者一起否定统计学和量子力学。反正我不喜欢他们,也学不会。
当我们人类的数据收集和处理能力达到Pb甚至更大的时候,我们可以把样本变成全部,在我们有能力正视杂合性而忽略准确性之后,似乎就真的可以抛弃基于抽样调查的统计了。而是通过统计学和量子力学以及其他许多方法?我们可能认为不再需要的东西。理论上,它们几乎都是基于相同的基本逻辑。如果不小心把逻辑或者逻辑思维或者逻辑推理一起给了?不再需要?如果是这样,我就担心了!
大数据时代,16页?大数据的核心是预测?。逻辑描述时空信息吗?班级?用什么?班级?长期有效且不可更改的顺序变化关系规则。他们似乎在做同样的事情。但是大数据想要?不是因果关系,而是相关性?,?知道是什么就够了,不需要知道为什么。以及逻辑四大基本定律(同一律、矛盾律、排中律、充足理由律)中的充足理由律?定义明确?任何事物都有存在的理由。而逻辑推理的三个部分——归纳逻辑、回溯逻辑、演绎逻辑——都是以因果关系为基础的。这两者似乎又是对立的。两种方法在同一件事情上对立的结果应该只有一个,就是否定其中一种。这正是我担心的。
但我不能观望,等待哪一个像旁观者?脱颖而出?因为我在里面。问题不解决,我就无法思考和工作,自然也无法生活!更何况还有两件更可怕的事。
第一,量子力学搞了一百多年了。为了处理杂交的问题,质量和速度已经和能量结合在一起。为了调和量子力学和相对论之间的矛盾,发展了量子场论,进而创造了虫洞和罗森桥。终于四维时空被弯成了允许时间旅行的方式,我迫不及待的想马上造出那个可怕的时间旅行机器。阻止这些的唯一方法是什么?爱因斯坦?孩子?鬼混?这是因果关系,因为父亲是父亲,儿子是儿子。那么大数据会不会通过正视杂合,放弃因果律,制造出一个时光机,让爸爸不再是爸爸,儿子不再是儿子?第二,人和机器的根本区别在于,人有逻辑思维,机器没有。“大数据时代”也堪忧?做出最后决定的将是机器,而不是人?。如果那天真的是因为放弃逻辑思维,科幻电影里描述的机器统治世界,毁灭人类,那我还不如现在就跳楼。
好在我知道自己对统计学,量子力学,逻辑学,大数据都是外行。或许以上文章全是废话,所谓的担心根本不存在。但是问题出现了,还是解决比较好,不然睡不着。如果自己解决不了,只能靠专家指点迷津。
所以我想给《大数据时代》的作者一个合理的建议:继续写这本书,至少在《大数据时代》第四部分增加一个逻辑思维。
阅读《大数据时代》的体会(二)
随着信息时代的到来,我们感受到技术的变革日新月异,随之而来的是生活方式的改变。我们所评论的信息时代已经成为过去。如今,大数据时代已经成为一个热门话题。笔者在这里解释信息和数据,只是想先解释一下信息和数据的联系和区别,也想解释一下为什么信息时代变成了大数据时代。大数据时代给我们带来了什么?
信息和数据的定义。维基百科解释说,信息,又称信息,是一个高度概括的抽象概念,是一个发展的动态范畴,是彼此要交换的内容和名称。信息没有统一的定义,但信息具有客观性、动态性、传递性、享受性、经济性等特征是大家都知道的。数据:或数据,是指描述事物的符号记录,可以定义为有意义的实体,它涉及到事物的存在形式。它是对一组事件的离散的、客观的描述,是构成信息和知识的原始材料。数据可以分为模拟数据和数字数据。数据是指计算机处理?原材料?,如图形、声音、文字、数字、字符和符号。顾名思义,数据是原始的处女地,需要开垦。信息是经过处理并可以传播的信息。信息时代依赖于数据的爆发,但当数据爆发到不可控的状态时,大数据时代就应运而生了。这是《大数据时代》这本书没有阐述的背景材料吗?
在《大数据时代》一书中,大数据时代和小数据时代的区别:1,思维约定。大数据时代的区别和转变是放弃对因果性的渴望,转而关注相关性。所以只要你知道?这是什么?在不知情的情况下?为什么?。作者的语言是绝对的,但他反思了其本质区别。杂七杂八的数据越来越多,导致应用思路只能尽可能的去观察,而不是用它所有的资源去推理?这也是明智之举。2.使用。小数据停留在解释过去,大数据用过去预测未来。笔者认为数据的目的与数据本身无关,而与数据的解读者有关,相关性更有利于预测未来。3.结构。大数据更多体现在海量非结构化数据本身的整合和处理方式上。大数据更像是理论和现实齐头并进,理论创造方法处理非结构化数据,结果用未来验证。4.分析基础。大数据是互联网背景下从量变到质变的过程。笔者认为,小数据时代,也就是信息时代,是大数据时代的前提。大数据时代是升华和进化,本质是互补的,而不是互斥的。
数据未来的故事。数据的发展给我们带来了哪些期待和启示?银行业天然具有大数据的潜力。客户数据、交易数据、管理数据等海量数据不断增长,海量的机遇和挑战随之而来,适应变化,优胜劣汰。我们能有更广阔的业务发展空间,更准确的决策能力,更好的管理能力,这一切都是建立在数据收集、整理、控制和分析的能力,以及创新思维和执行力的基础上的。那么,建筑?数据仓库?,培养?数据思维?,发展?数据治理?,创建?数据融合?,实现?数据应用?拥抱吗?大数据?时代,从数据中抓取价值,笑对变化,稳赢未来。
阅读《大数据时代》的体会(三)
本书主要介绍大数据在现代商业运营中的应用,以及对现代商业运营的影响。
《大数据时代》这本书的结构框架遵循了学术书籍的一般方式。也就是从现象出发,然后通过解剖现象来解释这个现象。然后我通过解释预测未来,对未来可能出现的问题提出自己的看法和对策。
下面我们重点介绍一下《大数据时代》这本书的主要内容。
大数据时代之初,谷歌通过人们在搜索引擎上搜索关键词留下的数据,成功预测了20XX年H1N1在美国的爆发和传播方向,以及可能的潜在患者。谷歌的预测会比政府提前近一个月,相比之下,政府只能在流感爆发后一两周才能得到相关数据。同时,谷歌的预测与政府数据的相关性高达97%,也就是说谷歌预测数据的置信区间为3%,远小于传统统计学中5%的常规置信区间!而这个数字就是大数据时代预测结果相对准确性和事件可预见性的最好证明!通过这样和那样的案例,维克多提出,在大数据时代?样本=人口?的想法。我们都知道,当样本无限逼近总体时,计算得到的描述性数据会无限逼近事件本身的性质。之前拍的是什么?样品
接下来,Victor通过了IBM追求高精度计算机翻译计划的失败和Google只扫描存储了词库中出现的所有对应的文本句子,所以不管什么需要翻译,只要和Google词库有联系,就会有翻译。虽然有时候翻译没有意义,但是大部分时候还是正确的,所以谷歌计算机翻译计划的成功,说明大数据时代对准确性的追求并不是特别明显,而恰恰相反,大数据时代是以大数据为基础的,所以大数据时代追求的是全方位覆盖的数字化测量,不管多精确,因为大量的数据会掩埋少数有问题的数据的影响。同时,大量的数据会无限逼近事物的本来面目。
后来,维克多预言大数据时代诞生了一个重要的专业数据科学家,这个科学家是数学家、统计学家和程序员的结合体。这群人将可以从获得的数据中得到他们想要的任何结果。换句话说,只要有足够的数据,我们所有不想让别人知道的外在和内在的东西,都会展现在这群家伙面前。因此,为了防止个人隐私在大数据时代被这群人利用,维克多建议将这群人分成两部分,一部分是利用数据为商业部门服务,另一部分负责审查这些人是否合法获取和应用数据,侵犯个人隐私。
无论如何,大数据时代终将到来,无论我们接受与否!
我觉得《大数据时代》这本书写得很好,值得一读。因为它会给我们很多启发,比如你在相关社交网站上的评论或照片很可能是?数据科学家?用户使用,然后把相关数据卖给各大网店。然而,事实是,我们会被预言诱惑。所以,小心你留在网上的东西。
我喜欢这本书,因为它向我展示了一个新世界。
阅读《大数据时代》的体会(四)
我利用周末一口气看完了涂子沛的代表作《大数据》。这本书很好看,文笔流畅,引人入胜。在书中,你读到的不是大数据技术,更多的是与大数据相关的美国政治、经济、社会、文化的演变。作为一名信息从业者,读完一整本书,我深刻感受到了中美两国在信息技术方面各自的特点,也看到了我们与美国的差距。经验有好几个方面,但是一瞥基本可以看出全貌。
第一,政府业务数据库公开的广度和深度。近年来,随着我国信息公开的推进,各级政府都在通过政府门户网站建设积极推进网上政府信息公开。而我们现阶段的信息公开主要是政府政策、法律、法规、标准、公文、岗位职责、办事指南、工作动态、人事任免等行政事务的公开。当然,政府业务数据库的实时公开也有了很大的进步。在中国政府门户,可以查询一些公益性的数据库,比如国家统计局的经济统计,环保部数据中心提供的全国空气和水文数据,气象总局提供的全国气象数据,民航局提供的全国航班信息等。登陆各部委网站,也能查到很多业务数据,比如发改委的项目审批数据库,工商局的企业信用数据库,国土资源部的土地证数据库,安监总局的煤矿安全预警信息库,各种项目的招投标信息库。这是一个很大的进步,也是这么多年电子政务建设的成果和价值!但是政府业务数据库中的很多数据目前还没有公开,很多数据是因为部门利益和?秘密?等因素,也仅限于内部人员使用,不对外公开;公布的数据仅限于一些基本信息和统计信息,更多的数据没有公布。从《大数据》记载的美国数据公开的实践来看,美国数据公开的广度和深度都比较大。美国人认为?用纳税人的钱收集的数据应该免费提供给纳税人?虽然美国政府实际上是反对数据公开的,但是人民的意愿是不能违背的。美国政府的商业数据越来越公开,尤其是奥巴马政府签署了“透明开放政府”的文件之后。DATA.GOV是美国联盟政府新建的统一数据开放门户。网站按照原始数据、地理数据和数据应用工具组织各类开放数据,积累了378529个原始和地理数据集。国内没有这种数据公开的网站。另外,由于制度不同,美国的商业信息公开也很深入,比如美国总统在网上公开?白宫访客记录?公布了各种各样的人甚至参观白宫的信息;美国的FedSpending网站可以对联邦政府的每一笔财政支出逐一进行跟踪、记录和分析。这在中国目前应该是实现不了的。
二是对政府业务数据的分析。目前,我国各级政府网站提供的业务数据基本都是数据表,有的网站可以提供一些统计图表,但很少能实现跨部门的在线分析和数据关联分析。这主要是由于我国的政府信息化建设还处于部门建设阶段。美国在这方面的步伐更快。美国DATA.GOV网站不仅提供原始数据和地理数据,还提供许多数据工具,其中许多是由公众、非营利组织和一些商业机构提供的。这些应用提供了数据处理、在线分析、基于社交网络的关联分析等手段。例如,DATA.GOV上提供的白宫访客搜索工具可以搜索访客的信息,并将白宫访客与其他微博和社交网站相关联,以提高访客的透明度。
第三是关于个人资料的隐私。在美国,公民的隐私和所有权是不可侵犯的。美国没有个人身份证,无法建立基于个人身份证号码的个人信息关联。中央数据库?该提议也多次遭到拒绝。这在中国不是问题。每个公民都有唯一的身份信息,公民的基本信息都可以通过身份证信息获取。未来,随着国家人口数据库等基础资源库的建设,公民的社保、医疗等相关信息也可以轻松获取。当然,信息仍然局限于政府部门,但很难完全保证这些整合的个人信息不会被泄露或利用。
数据是信息化建设的基础。在大数据领域互相学习,互相借鉴,将推动世界进入信息时代。我很高兴看到美国政府从20XX年开始?大数据研发计划?,投入2亿美元推动大数据提取、存储、分析、共享、可视化等领域的研究,与超级计算、互联网投资相提并论。同年,中国市政府也于20XX年批准?“十二五”全国政府信息化建设项目规划?总投资预计数百亿,有人口、法人、空间、宏观经济、文化五大资源库五大建设项目。开放、可访问、智能的大数据时代已经到来!
我慎重推荐。