农博士育种家软件——现代化智能辅助育种决策管理分析系统

统计应用中经常碰到的问题

　　1、在田间试验中应该使用多少次重复？
　它主要依赖于因子的数量，但又是可以从在特定研究领域中以往的试验结果和经验进行推算的。所选择的α水平（在处理间差异并不真实存在的情况下，差异发生的可能性）和要求的精度都是十分重要的。如果条件不允许设置足够重复的话，就要考虑放弃试验的可能性。在许多情况下，为了获得满意的结果需设置较多重复时，我们可以设置三次或四次重复。

　　2、田间试验的小区应是多大？
　　主要根据试验的目的和其它影响因素的数量，必须依章、务实地考虑问题。另外也应知道，对于土地有限的地区来说，较小的小区就意味着有更多的重复。通过设置更多的重复可以弥补小区面积不足的问题。另外，也可以用其它的方法来提高试验的精确性。

　　3、田间试验中的小区和区组的形状应是什么样？
　　应尽量设置正方形区组和长方形小区，目标是相对的。这些规则允许出现例外。

　　4、某人要进行因子试验，在什么条件下他可以使用因子的随机完全区组设计？在什么时候他可以用裂区设计？
　　析因设置处理的随机完全区组设计更好些，除非存在机械性限制，即一个因素要求的小区面积不同于另一个因素。裂区设计常常对全部小区因素的检验缺乏能力。

　　5、什么时候可以使用不完全区组设计？
　　在由于处理数很大而使区组过大的试验中和想在大区组内对误差更好地控制时，就可以用不完全区组设计。另外，当自然地段小于区组的一个完全重复时，也可以使用这种设计。

　　6、在什么条件下设计试验中可以使用条块？
　　当大型的设备或其它操作要求有较大的小区，条块会使机械操作更方便。分条应在每个区组内独立完成不要跨越区组。

　　7、对于一个给定的试验环境，有多少种设计方法可以选择？
一般来说，由于很多限制因素的存在，对于一种环境通常只有一种或两种合理的设计。通常这是排除那些不合理设计的过程。

　　8、试验设计与处理设计有什么不同？
试验设计是指处理对小区的随机化过程。处理设计是指处理的结构（即它们之间的关系如何）。

　　9、在农业试验中，如何减少变异的影响？
　　A、选择均质的试验单元；B、改进试验技术；C、区组设置；D、设置更多的重复；E、避免过失误差（试验管理的）；F、计算协变量，然后用在协方差的分析中。

　　10、方差分析在什么时候需要数据转换？
　　如果方差分析的假设条件不能满足，就应对数据进行转换。否则就不用转换。注意，有可能会校正过度或对假设条件产生新的破坏。

　　11、平均值可以转换吗？方差需要转换吗？
　　在某些转换中可以这样做，但转换后的平均数经常不用来做比较。（可以用转换后的标准误差来对转换后的平均数进行比较）。不可以。必须保证方差的转换尺度。

　　12、农业试验中的显著性检验或置信限应该使用什么样概率水平？
　　常用0.01和0.05两种。0.05对于农业试验来说似乎更好些，因为在我们采用更有潜力的新方法时不应过分保守。报告实际的概率水平（例如0.035）比只基于给定概率水平下的显著性检验结果来回答是和否要好得多，这可以让读者自己决定在一种特定情形下什么样的概率水平是可以接受的。

　　13、在分析数据中处理缺值的最好方法是什么？
　　A、完全最小二乘法，其处理均方是无偏的。B、利用协方差估计缺值。C、利用Yates 近似法（1933）估计缺值，然后把它插入数据中并加以分析。然后从误差自由度中减去缺区估计的个数。这种方法的缺点在于处理平方和偏差略有提高。

　　14、如果某人做了一系列普通设计的试验，用什么方法综合试验的结果？
　　首先进行单个分析，然后进行方差的综合分析，要保证在综合之前误差方差是非异质的。如果处理结构允许，可以试着在综合分析时对处理平方和分组，然后再用这些分组与位点（或年份）交互，得到交互作用的分组。需要模型做一些假设，以确定适当的检测模式。初步显著性检验有利于确定为了获得一个试验误差的稳定估计值，合并是否是一种合理的选择。

　　15、用随机区组设计来设计试验，分析时却如同是用完全随机设计的，这种情况合理吗？
　　不合理。应该使用针对于实际应用的试验设计的分析方法来分析数据。

　　16、在方差分析中，合并不同来源的变异以获得误差估计值，这合理吗？
　　合并均质性的方差似乎是合理的。

　　17、人们怎么知道是否一套数据需要转换？如果需要，用哪种方法？
　　在转换前后可以测定残差，检查变异系数，对不同部分数据方差的差异进行检验。对二项式数据的反正弦转换有理论方差，因此，在转换时可以把方差分析中的误差与理论方差进行比较。在转换前后我们也可以利用Tukey非加性测验（1949）来检查加和性假设条件。

　　18、什么是合理的变异系数（CV）？
　　这依赖于试验的类型。10%对许多试验来说是比较合适的变异系数（CV）。虫害和病害的研究中经常有较高的CV（20%~25%）。在发展中国家，如果土壤肥力和土壤管理试验的变异系数能保持在15%以下，就被认为是可以接受的。

　　19、如果外部因素对试验处理的影响存在差异，如何进行分析？
　　如果在Y和X（X是协变量）之间存在合理的关系，为了提高精确度和调整协变量中的处理平均值方差，我们就可以考虑使用协方差分析。利用协方差分析就可以确定X与Y之间关系的紧密程度。应该坚持协方差的有关假设条件，它们是：A）协变量是固定的，测量中不存在误差而且独立于处理；B）在排除区组和处理差异后，Y对X的回归是线性的并与处理和区组无关；C）误差是独立正态分布，具有零均值和普通方差。

　　20、使用多重比较如LSD、Duncan's新复极差检验等，会有什么问题？
　　这些方法经常被滥用和误用。如果能确定处理结构，最好作一系列比较。如果不存在这样的处理结构而且必须要使用多重比较方法的话，一般来说，应该有一种多重比较方法最适合该种情况。例如，就可以用Dunnett's 法（1955）来比较对照和各处理，比如在系统法温室试验中把最优值的平均值与其它处理的相比较（如最优值对opt-P处理等）。没有“最好的办法”。但对于肥料试验，用Duncan新复极差测验来检验养分水平的增量却不合适。

　　21、为什么在环境群体是非均质的时候，在一年进行的单个试验不足以得出概括性结果？
　　因为它们是近似值又是暂时性意义的，而且在以后所做的相似试验可能会由于环境的影响而得到相反的趋势。我们通常可以通过增加重复数或提高试验的精确度来改变试验的说服力。

　　22、什么是空间分析？它是如何进入田间试验数据分析的？
　　最近邻分析法是一个例子。我们可以用邻区的残差作为协方差分析中的协变量。利用这项技术通常可以显著提高精确性。来自空间分析的结果看上去很有希望。但在一般应用之前需要进行更多的检验。

　　23、生物学显著性与统计学显著性的差异是什么？
　　因为试验的误差往往很大，具有生物学差异显著性在统计学上却不一定就显著。另一方面，在统计学上有显著性差异，而在生物学上却未必有什么意义。我们可以靠增加重复数或改进试验技术来改变产生统计学显著差异的概率，但却不可能改变生物学显著性。

　　24、单尾检验与双尾检验的使用条件有何差异？
　　除非对一个方向上的差异感兴趣或有期望，否则，就应使用双尾检验。这种期望应基于一定的理论或过去对现象的经验。适当的时候也可以用单尾检验，因为它们更有力。

　　25、我们为什么不为每个处理计算误差而为所有处理计算合并误差估计量？
　　这不是一个好想法。因为这些估计值都是基于很小的自由度，因而都十分不稳定。如果方差是均质的话，最好是利用整个试验的数据计算出一个单独的误差方差。对于上面的规则来说存在许多例外。例如，方差随试验中某一因素（如时间）水平的变化而变化，为了研究误差模式而计算该因素每一水平的标准误就会很有帮助。

　　26、在样本调查时，什么因素决定了样本规模？
　　所需样本的大小依赖于因素的多少，如取样单元中的内在变异、估计平均值的精度和所使用误差率等。在许多时候资金问题是决定样本的大小的上限。

　　27、如果在一个小区内进行取样，取多少样本才能代表整个小区？
　　在每个小区中的采样数量决定于：可以处理多少植物材料、小区内植物变异的水平、是否要求对这种变异进行估计、涉及的成本等。Gomez和Gomez（1984）在他们的一本书中给出了一个公式，用来估计主要基于方差考虑的每个小区的植株数量。

　　28、对于特定的作物，什么是最好的小区取样过程？
　　随机开始（即第一棵植株的选择是随机的），在行上采取系统样本（如每10株采一株）。

　　29、为什么我们严格要求科学取样？
　　科学的样本选择可以确保能利用独立的、正态的推断过程而不会怀疑它们的可用性。

　　30、在确定样本大小时应该考虑取样成本吗？
　　成本问题很重要。在确定样本大小的时候应该认真考虑这个问题。一般来说，确定取样过程的每一个步骤的成本是可能的，虽然这些估计值并非完全准确，但这样估计的样本数会比凭空猜想的要精确得多。