摘要:当SQL Server 引擎接收到用户发出的查询请求时,SQL Server执行优化器将查询请求(Request)和Task绑定,并为Task分配一个Workder,SQL Server申请操作系统的进程(Thread)来执行Worker。如果以并行的方式执行Request,SQL Server根据 阅读全文
posted @ 2015-10-24 21:26 悦光阴 阅读 (2536) 评论 (0)
摘要:同期群(Cohort)属于用户分群里的一个细分类型,是指在规定时间内对具有共同行为特征的用户进行分群。“共同行为特征”是指在某个时间段内的相似行为,它除了按不同时间的新增用户来分类外,还可以按不同的行为来分类,譬如“在2017年6月第一次购买”,“把5月1日~5月7日的注册用户划分为一个群组”等。 阅读全文
posted @ 2019-12-31 15:53 悦光阴 阅读 (233) 评论 (0)
摘要:一个漂亮的平均数完全是用数据创造出来的虚幻景象,会给我们的决策造成误导,因此我们需要掌握一个行之有效的方法来剖析真实的用户行为和用户价值,这个方法就是同期群分析(Cohort Analysis)。事实上,数据不会说谎,只是分析数据的人没有做到精准分析而导致对数据呈现的错误解读! 国内对同期群分析相关 阅读全文
posted @ 2019-12-31 11:17 悦光阴 阅读 (34) 评论 (0)
摘要:离群点(outlier)是指和其他观测点偏离非常大的数据点,离群点是异常的数据点,但是不一定是错误的数据点。确定离群点对于数据分析会带来不利的影响,比如,增大错误方差、影响预测和影响正态性。 从散点图上可以直观地看到离群点,离群点是孤立的一个数据点;从分布上来看,离群点远离数据集中其他数据点。 在数 阅读全文
posted @ 2019-12-27 18:53 悦光阴 阅读 (413) 评论 (0)
摘要:在运行以下Python代码时,Pandas抛出SettingWithCopyWarning警告: df_pred是一个数据框,根据索引从数据框中获取一行,然后对该行的一个字段进行赋值,警告的详细内容如下: SettingWithCopyWarning:A value is trying to be 阅读全文
posted @ 2019-12-13 19:03 悦光阴 阅读 (188) 评论 (3)
摘要:矢量化 矢量化是指用数组表达式替换显式的for循环,在Python中循环数组或其他跟数组类似的数据结构时,使用循环会涉及很多开销。NumPy中的矢量化操作把内部循环委托给高度优化的C和Fortran函数,从而实现更清晰,更快速的Python代码。 矢量化是NumPy中的一种强大功能,可以把操作表达为 阅读全文
posted @ 2019-12-11 16:13 悦光阴 阅读 (250) 评论 (0)
摘要:在调查阻塞或死锁时,你可能很想知道阻塞的等待资源(wait_resource)是什么,通常等待资源的类型是Page、Key和RID,它们的格式分别是: waitresource="PAGE: 6:3:70133 "waitresource="KEY: 6:72057594041991168 (ce5 阅读全文
posted @ 2019-12-05 08:25 悦光阴 阅读 (134) 评论 (0)
摘要:在SQL Server的内部存储中,日期和时间不是以字符串的形式存储的,而是使用整数来存储的。使用特定的格式来区分日期部分和时间部分的偏移量,并通过基准日期和基准时间来还原真实的数据。 一,DateTime的内部存储 SQL Server存储引擎把DateTime类型存储为2个int32类型,共8个 阅读全文
posted @ 2019-12-04 08:38 悦光阴 阅读 (596) 评论 (0)
摘要:数据存储的基本单元是Page,每个Page是8KB,数据文件(mdf和ndf)占用的硬盘空间,逻辑上按照PageNumber进行划分,也就是说,可以把数据文件看作是PageNumber 从0到n的连续Page。硬盘IO的基本单元是Page,这意味着,SQL Server对整个Page执行读写操作。一 阅读全文
posted @ 2019-12-03 09:01 悦光阴 阅读 (66) 评论 (0)
摘要:一个表或Index使用的数据页空间是由IAM Page Chain来管理的。SQL Server 使用一个IAM(Index Allocation Map)Page来管理数据库文件中最多4GB的空间,一个IAM Page映射文件中4GB大小中的区(Extent),区由8个物理地址连续的Page构成, 阅读全文
posted @ 2019-12-02 17:15 悦光阴 阅读 (162) 评论 (0)
摘要:Query Store是SQL Server 2016中引入的、语句级别的性能监控和调优工具,它不仅自动捕获查询(Query)、执行计划(Plan)、运行时统计信息(Runtime)和等待(Wait)统计的信息,而且还可以识别出由于执行计划更改而导致的性能差异,简化了性能故障排除的流程,降低了性能优 阅读全文
posted @ 2019-11-29 15:17 悦光阴 阅读 (321) 评论 (2)
摘要:正则表达式在文本查询方面,不管是速度还是功能,都十分强大。虽然SQL Server数据库可以执行模糊查询(像like子句)和全文查询(Fulltext search),但是这两个子句只能查询简单的模式,无法应对复杂的查询需求。这是因为SQL Server没有执行正则表达式的内置函数,无法直接执行正则 阅读全文
posted @ 2019-11-28 15:00 悦光阴 阅读 (264) 评论 (0)
摘要:本文整理C#正则表达式的元字符,正则表达式是由字符构成的表达式,每个字符代表一个规则,表达式中的字符分为两种类型:普通字符和元字符。普通字符是指字面含义不变的字符,按照完全匹配的方式匹配文本,而元字符具有特殊的含义,代表一类字符。 把文本看作是字符流,每个字符放在一个位置上,例如,正则表达式 “Ro 阅读全文
posted @ 2019-11-22 18:35 悦光阴 阅读 (458) 评论 (0)
摘要:动态数据掩码(Dynamic Data Masking,简称为DDM)能够防止把敏感数据暴露给未经授权的用户。DDM作用于数据表的字段上,在查询结果中隐藏敏感数据。启用DDM不会修改表中的数据,只是把查询结果对未经授权的用户屏蔽,使未授权用户看到的查询结果是被掩码的,例如,第二列是号码列,前7个数字 阅读全文
posted @ 2019-11-07 18:13 悦光阴 阅读 (253) 评论 (0)
摘要:PowerBI Service 有时也称作PowerBI Online,是PowerBI的Saas(Software as a service)部分。在典型的PowerBI开发的工作流程中,用户使用PowerBI Desktop创建Report,然后把该Report发布到PowerBI Servic 阅读全文
posted @ 2019-11-06 21:20 悦光阴 阅读 (462) 评论 (0)
摘要:Power BI支持行级安全(Row-Level Security,RLS)的权限控制,用于限制用户对Dashboard、报表和DataSet的访问。用户浏览的报表是相同的,但是看到的数据却是不同的。 RLS内部通过DAX函数 username() 和 userprincipalname()来实现, 阅读全文
posted @ 2019-11-01 18:01 悦光阴 阅读 (429) 评论 (0)
摘要:SQL Server的安全主体主要分为Login、User和Role,不仅有ID属性,还有Name属性和SID属性,SID是指Security ID。在查看用户和登录的时候,受到模拟上下文的影响。当执行EXECUTE AS命令,切换上下文之后,除了ORIGINAL_LOGIN之外,其他函数都会返回模 阅读全文
posted @ 2019-10-30 13:00 悦光阴 阅读 (135) 评论 (0)
摘要:连接远程桌面(Remote Desktop Connection)出现以下异常, 出现该Issue的原因,我推测是由于winlogon.exe进程没有关闭。 解决方法是使用其他账号登录到远程主机中,把与账号相关的winlogon.exe进程结束。 1,查询会话 使用其他用户的账号登录到远程主机,以管 阅读全文
posted @ 2019-10-28 17:36 悦光阴 阅读 (111) 评论 (0)
摘要:数组索引是指使用中括号 [] 来定位数据元素,不仅可以定位到单个元素,也可以定位到多个元素。索引基于0,并接受从数组末尾开始索引的负索引。 举个例子,正向索引从0开始,从数组开始向末尾依次加1递增;负向索引从-1开始,逐个元素 -1 ,不管使用正向索引还是负向索引,最右侧的元素的索引值是最大的,最左 阅读全文
posted @ 2019-10-10 10:35 悦光阴 阅读 (268) 评论 (0)
摘要:数据框是用于存储数据的二维结构,分为行和列,一行和一列的交叉位置是一个cell,该cell的位置是由行索引和列索引共同确定的。可以通过at/iat,或loc/iloc属性来访问数据框的元素,该属性后跟一个中括号:[row,col],中括号内 row表示行索引或行标签,col表示列索引或列标签。如果省 阅读全文
posted @ 2019-10-09 10:33 悦光阴 阅读 (740) 评论 (0)
摘要:DataFrame的这些操作和Series很相似,这里简单介绍一下。 一,应用和应用映射 apply()函数对每个轴应用一个函数,applymap()函数对每个元素应用一个函数: 定义一个函数fun,使用apply()函数把fun应用到由DataFrame对象的列构成的一维数组上,通常fun函数是由 阅读全文
posted @ 2019-10-08 13:43 悦光阴 阅读 (648) 评论 (0)
摘要:测试的版本:SQL Server 2017 内存优化表上可以创建哈希索引(Hash Index)和内存优化非聚集(NONCLUSTERED)索引,这两种类型的索引也是内存优化的,称作内存优化索引,和基于硬盘的传统索引有很大的区别: 索引结构存储在内存中,没有索引碎片和填充因子 对索引所作的更新不会写 阅读全文
posted @ 2019-09-27 12:50 悦光阴 阅读 (505) 评论 (0)
摘要:长宽格式的转换 宽格式是指:一列或多列作为标识变量(id_vars),其他变量作为度量变量(value_vars),直观上看,这种格式的数据比较宽,举个列子,列名是:id1、id2、var1、var2、var3,一行可以表示多个度量变量的值。 而长格式是指在一行中,除了标识变量(id_vars),其 阅读全文
posted @ 2019-09-26 18:15 悦光阴 阅读 (1880) 评论 (0)
摘要:Index对象负责管理轴标签、轴名称等元数据,是一个不可修改的、有序的、可以索引的ndarry对象。在构建Sereis或DataFrame时,所用到的任何数据或者array-like的标签,都会转换为一个Index对象。Index对象是一个从索引到数据值的映射,当数据是一列时,Index是列索引;当 阅读全文
posted @ 2019-09-26 10:11 悦光阴 阅读 (701) 评论 (0)
摘要:在数组中,用axis(轴)表示维度,对于三维数组,axis参数的取值通常有: 当axis=None时,表示把数组展开为一维数组; 当axis=0时,表示按照行(第一维)进行计算; 当axis=1时,表示按照列(第二维)进行计算; 当axis=2时,表示按照第三维度进行计算。 对NumPy的数组进行操 阅读全文
posted @ 2019-09-25 11:13 悦光阴 阅读 (561) 评论 (0)
摘要:序列内置一些函数,用于循环对序列的元素执行操作。 一,应用和转换函数 应用apply 对序列的各个元素应用函数: 参数注释: func:应用的函数,可以是自定义的函数,或NumPy函数 convert_dtype:默认值是True,尝试把func应用的结果转换为更好的数据类型,如果设置为False, 阅读全文
posted @ 2019-09-24 10:59 悦光阴 阅读 (448) 评论 (0)