女式马车

欢迎车:关于栈溢出的社区和评论

女式马车

去年夏天,我们写了关于栈溢出评论的第一篇博客文章,关注我们在堆栈溢出时的内部初始工作评级评论以及我们学到的内容。从那时起,我们已经在我们的社区中更广泛地处理了这个评论评级任务。这篇博文分享了我们正在学习的一些内容。

参与我们的社区

我(Jason)编写了一个Web应用程序,它向用户提供了一个来自post-on堆栈溢出的注释线程,并要求用户对线程中的每个注释进行评级。unwelcoming,或辱骂。我们的first blog postshared results from when we asked employees at Stack Overflow,包括开发者,产品经理,和管理人员,评价评论。八月份,我们推出了新的行为守则,以及与这些类别一致的注释的新标志,一个标志表示粗鲁/辱骂,一个标志表示不友好/不友善。今年秋天,我们将评论分类任务扩展到员工以外的更大社区。我们邀请来自三个小组的个人对评论进行评分。

要登录此Web应用并记录数据,每个用户都需要一个堆栈溢出帐户,因此,如果用户还没有帐户,他们就必须创建一个帐户。我们要求参与者在评级评论上至少投入一小时,一次工作时间不超过20分钟。

我们得到了什么样的回应?总体而言,有525名用户花费了至少15分钟或更多的评级评论。他们给出了253807个评分,40358个不同的评论。我们有多少用户和评论评级,对于每种用户?

Type 用户 评论评级
员工 四十六 一万三千三百
Welcome Project 七十九 三万五千八百四十九
慢化剂 一百 103,661
研究清单 三百 十万零九百九十七

主持人通过这个项目展示了他们对我们社区的巨大承诺,as they do consistently day in,日出;参与这个项目的主持人平均每个评论超过1000条。响应我们的博客帖子表示对堆栈溢出的欢迎/包含感兴趣的人也投入了大量时间,评分超过500条评论。

我们可以通过观察cumulative distribution functions对于每种用户;这种情节显示,对于每个评论等级,对许多评论或更低评价的用户所占的百分比。

如果你不习惯解释这种图表,看一看x = 1000,X轴上对应1000条注释的位置。版主的线是最低的,这表明与其他组相比,更多的版主提交了更多的评论评级。

群体差异

不同类型的人以不同的方式经历堆栈溢出。如果我们看一下不同类型的用户聚合的所有评级,不同类型的组如何理解这些关于堆栈溢出的注释?

Type 法恩 不受欢迎的 虐待的
员工 91.8% 7.7% 0.4%
慢化剂 95% 4.8% 0.2%
研究清单 95.6% 4.3% 0.1%
Welcome Project 96.6% 3.3% 0.1%

在堆栈溢出时,内部员工发现最不受欢迎的评论率,然后是堆栈交换版主。We信任和支持我们的主持人,在这个特定的项目中,主持人在评论中展示了他们对不友好和不受欢迎行为的理解。

从我们的研究列表中,经常注册的用户认为不友好的评论率是下一个最低的,以及回复我们博客帖子的用户使堆栈溢出更受欢迎发现所有不友好评论的最低比率。我们如何解释这一点?我们特别邀请那些可能认为自己不活跃的用户加入我们的社区,以获得外界的看法,但是这些用户看到了不受欢迎行为的最低比率。

一个可能的解释是,我们看到了一个真正的影响,我们的网站经验丰富;似乎一个人在堆栈溢出时投入的越多,他们对问题行为越敏感。这些不友好的评论是什么样子的?下面结合实际注释的元素来显示典型示例。

  • 为什么?你想这样做吗?你至少把三个问题混为一谈了。”
  • “很难帮助你解决这样一个小问题。它可能来自代码中的任何一行,我们不得不猜测。”
  • “这到底能解决我的问题吗?“
  • “您不知道如何使用此网站。这里没有人为你编码;阅读文档,然后向我们展示。”
  • “你是什么?事实上试图实现?请学习如何使用调试器。“

我们的项目显示,一个人与堆栈溢出的关联越深(作为员工,或者一个主持人,他们越可能在这样的评论中看到问题。这种效应对于比较那些有相同意见的群体是很有效的,who rated the same number of comments,and other analytical approaches.

Individual differences

每个人的评级分布是什么样子的?

每个人都没有对同一组评论进行评分,而是在不同的时间段内工作,所以我们期望每个个体的结果都有变化。总体而言,每个人感知到的不受欢迎评论的中位数为3.5%,比median percentage for employeesof 6.5%.

为了了解评级机构之间有多少协议,我们可以再看看克里本多夫的阿尔法,a measure that ranges from zero (nobody agrees) to one (perfect agreement).这项措施说明了评级机构的数量,so we can compare agreement among employees to the groups with more raters.克里本多夫的阿尔法是什么?是否有至少三个人评价的评论?

与社会科学家根据评分得出可靠结论的方法相比,α的这些值很低;社会科学家寻找接近0.8或更高的值。Notice that Stack Overflow employees rated more comments as unwelcoming than other groups but agreed with each other about what is unwelcoming and abusive at higher rates at the same time.版主和注册用户之间的协议率最低(尽管仍然如此比不熟悉堆栈溢出的人要高得多)对于自愿帮助使堆栈溢出更受欢迎的用户来说,达成协议的速度要高一些。请记住,这些用户对最低的总体不友好程度;一些抽查表明,这些用户只识别出问题文本的最清晰示例。

影响堆栈溢出交互的另一个因素是名声.我们是否看到评分者对不受欢迎的行为和他们自己的声誉有什么不同?This can help us understand if "power users" (distinguished from moderators) may be driving problems with site culture.

在这个阴谋中没有明确的证据表明有一段关系,表明高信誉用户对不友好行为的感知率与低信誉用户大致相同。我们以前也看到过类似的效果,例如,在我们的年度开发者调查中。当被问到堆栈溢出最糟糕或最恼人的是,所有体验级别和自报告的堆栈溢出活动级别的开发人员都提到了具有严酷交互和站点文化的问题。

所有在一起,this begins to paint a complex and interesting picture of who understands unwelcoming behavior and in what ways.主持人和高信誉用户的可能性一样大,或者更可能的是,与新用户相比,找出不受欢迎的评论。Stack Overflow employees identify more comments as problematic and agree with each other more about what is a problem compared to the other kinds of users in this project.

下一步

那我们从这里去哪里?首先,我们作为员工了解到,我们并不总是以与社区其他成员相同的方式看待问题。当我们继续计划使堆栈溢出成为开发人员更好地学习和共享知识的地方时,我们将记住这一点。

我们计划使用这个数据集来研究如何使用对问题和答案的评论,针对不同体验级别的用户,在不同的社区,还有更多。Look for more blog posts on these issues in upcoming months.我们将继续在堆栈溢出的产品更改中使用此项目的结果,以及直接在机器学习模型中使用这些数据的适当子集。也,2019年,我们将发布此数据集(注释ID,评论评级,以及匿名/随机的评分者ID),以便我们社区和其他社区的其他人可以自己探索这些数据。

没有参与该项目的个人的时间和精力投入,所有这些都不可能实现,我们要感谢每一位自愿帮助我们更好地理解我们网站这一方面的人。谢谢您,为了你的关心和时间。在堆栈溢出时,社区是我们身份的中心,我们致力于使堆栈溢出变得健康,开发人员学习和分享知识的包容性场所。

作者

Julia Silge & Jason Punyon
数据科学家和数据工程师

Related Articles

评论

  1. 基拉莱萨 说:

    I would be interested in seeing the data from the other direction: For users who had their comments marked abusive or unfriendly,他们的整体声誉得分是多少?或者更好,他们发表评论时的声誉如何?

    了解高代表用户是否更礼貌(或更粗鲁)是很有趣的。,以及当用户获得销售代表时,他们变得更有礼貌,以及其他类似的事情。

  2. 也许下一步是考虑和测试老化效应:在这里拥有10万以上声誉的用户,可能比那些不那么新的用户(尽管他们已经在这里呆了足够长的时间,可以看到更多的帖子中的评论,例如代表1K或以上的用户)。

    同样地,最后一个图应该用用户的*贡献类型*对每个点进行加权……那些10万以上的代表用户是否经常参与调节活动,或者他们是否把所有的时间都花在回答问题上?这似乎是对我产生偏见的一个明显的潜在原因——许多用户徘徊在五位数的标记周围,因为他们将大部分时间(甚至大部分时间)和精力转移到清理网站/缓和上,including flagging comments,否决权,关闭投票/删除投票,等。如果10万以上的用户全部时间都在回答,很明显,他们不会花太多时间去看他们自己帖子下的评论(例如他们自己的评论和用户的评论,这些用户倾向于赞赏免费获得典型的专家帮助)。因此,他们不太可能察觉到整体评论的语气或内容有问题。

  3. 这些评论是从哪里来的?是真的随机样本吗?从什么时候开始?根据你拉评论的时间,可能会有一些有趣的影响(因为旧的评论更可能已经被缓和了)。

    1. 伟大的问题,为了简洁起见,我省略了这部分分析。这些评论是从过去一年的几个月中随机抽取的,再从过去的几年中,在特定的几个月里取样,所以我们可以在没有季节性影响的情况下进行比较(因为我们在某些月份有更多的学生)。我不能排除季节性影响,但我们可以看到没有长期趋势。

      1. 有趣的点/关注点,撤消。

        我理解您在想,从中选择评论的池是否包含已经被审阅过的评论(例如,由审阅者或作者隐藏/删除)。如果所选内容仅来自已保存的注释,那就不是随机集会/代表集会。

        朱丽亚你的答复是https://en.wikipedia.org/wiki/Eternal_Septemberphenomenon,但据我所见,这和Undo的曲解有点不同,我也很好奇。

  4. 我看不到任何统计相关性的度量,all of this could just be random noice nicely colored.它缺少对可能导致这些影响的其他原因的分析,研究组的代表性,等。

    我要说的是,这只是伏都教。

  5. 诺沃格特 说:

    你的员工似乎与其他团队有点疏远。“员工”到底是什么意思?所有那些在这个标签下参与的人实际上都是为了谋生的人,亚搏彩票还是包括你所有的员工?

    我这么问是因为它应该是开发人员与开发人员之间的通信。When I talk to a fellow developer,I try to cut out the unnecessary noise aka pleasantries that I would include talking to my boss or the sales people or even the cleaner.请确保我们的评价水平仍然是开发人员对开发人员的问题解决水平,一般民众并不认为这是一种欢迎。

    1. 你可以阅读第一篇博文了解更多细节,但简而言之,主要是开发人员,还有产品经理,社区管理者,以及高管(其中许多是前开发人员,在我们的案例中:
      https://stack overflow.blog/2018/07/10/welcome-wagon-classing-comments-on-stack-overflow/
      没有或没有为生活编码的员工数量非常少,这似乎不太可能解释这种差异。可能是我需要检查的东西,虽然!

  6. 许多粗俗的评论都是用一篇文章来识别真正的问题,说的是需要说的话。他们只是措词不当。你能为这种情况推荐其他的措词吗?

    这不是小事。在英语中,politeness is often conveyed by hedging and extra verbiage.对于ESL扬声器,这可能会引起评论更加困难理解。此外,一些文化(例如,以色列美国聋人)价值直接性,而且会认为过度的暗示评论是不礼貌的。

    1. 这是个很好的问题,我们作为员工和整个社区都在处理的问题。您可以在这里查看一些后续讨论:
      https://meta.stackoverflow.com/questions/377438/how-can-the-example-unwelcoming-comments-be-improved

      1. 马克考克斯 说:

        Julia Silge我是一个开发人员,我喜欢StackOverflow及其在Reddit组之上的社区负责人和肩膀,因为上面的原因-请继续做好工作。

        最好的问候,
        马克考克斯

  7. 我觉得这很有趣,首先,尽管你看到了不同之处,差异不大(每组中位数都在其他组的框中)。但这并不意味着它们没有意义。我想你已经找到了一个解释,解释了员工和最活跃的用户之间,当有关于这些问题的meta和blog帖子时,他们之间似乎发生了一些脱节。这些群体的认知确实存在差异。我认为将其描述为对SO的投资是不公平或没有帮助的,尽管我知道你的意思——员工没有其他的工作,当他们看到这些工作的时候,他们会休息一下。另外,我们从其他的岗位上知道,你已经对这个话题进行了很多深入的内部讨论。我敢打赌,这两个群体之间也可能存在一些人口统计学上的差异。

    我认为这是一项非常有趣和聪明的研究。我是做收视率的人之一,and I found it very challenging.对我来说,它更清楚地表明,我不确定像“不受欢迎”这样的术语在实践中意味着什么。较低的内部评级机构可靠性表明,可能需要建立对该术语的集体理解(也是滥用,但我认为这是另一个问题)。我敢肯定,“欢迎”也是如此。我认为一些“我只是不想再评论”的帖子确实是在说“我不确定什么是好的”。

    1. Agreed.两组间差异不显著

      与员工的差异是一个真正问题的潜在症状,正如博客上关于与用户断开连接的文章所说,但也可能是统计故障/抽样错误。也许参与者以前有过一些偏见,例如the employees who participated had probably took part in previous discussions of comments similar to those and were more trigger-happy when they saw them again.

      最大的发现是低水平的一致性。要始终如一地应用这些规则是很困难的。如果有更多的一致意见的话,找出一些评论是很有用的,if any.

  8. 我是这项研究的参与者之一。One thing I struggled a bit with was the definition of "unwelcoming." This especially comes up around comments like "Why do you want to do this?你至少把三个问题混为一谈了。”

    我认为我们可以同意这样的评论不会不受欢迎,而且措辞可能会更好。我不想收到关于我一个问题的评论。但它也不像大多数不受欢迎的评论那样真的是轻蔑的;它询问问题的背景,以帮助生成适当的答案,大概是因为有xy问题的迹象。

    虽然我们进行了一次社区讨论,讨论诸如“请学习如何使用调试器”之类的评论是多么不受欢迎和无益,我不觉得我们已经就如何构建“你为什么要这样做”这个共同点进行了很多讨论。以一种欢迎的方式提问,或者什么我们认为是不友好的。

  9. 我不同意你90%的克里本多夫拼写。

    1. 哈,非常感谢。现在修理好了。

  10. 卢克拉格 说:

    I think it would be interesting to see how this differs when looking at the reputation of the OP at the time of posting their question where these comment threads originate from.即我们对新用户有多少敌意?

  11. 像这样的事情被认为是“不友好”:“*为什么*你想这样做?You have conflated at least three problems here." The first part is a quite common inquiry,我认识的用户经常用友好的方式对待所有用户。“你*实际上*想要实现什么?”是另外一个。后面是“请学习如何使用调试器”,它,besides being a change of subject,听起来是个好建议。如果你想在这些评论中读到一种卑鄙的语气,那么,要么是我们的博客读者缺乏上下文,要么是评级者的心态不友好。我认为这种评论很常见的一个原因是,用户经常在发布代码时认为问题在于他们的代码,而不是他们的方法。帮助用户,你经常需要知道他们真正想要达到的目标。除了我看到的许多用户,英语不是他们的母语,而看起来直截了当的是他们能做的最好的事情来表达他们的观点。

  12. 约翰逊少校 说:

    >“与此项目中的其他类型用户相比,Stack Overflow员工将更多评论视为有问题的评论,并就什么是问题达成更多共识。”

    什么?这就是你从数据中得出的结论?从这些数据中得出的结论是,与其他群体相比,员工更容易将评论误认为是有问题的。也就是说:你有一种自我选择的偏见,作为堆栈溢出雇员,已经了解了数据。

    除此之外,“社会科学家寻找接近0.8或更高的值,”一张显示没有超过0.37的α的图表告诉我,对于哪些评论有问题,存在大量的分歧,即使是在最志同道合的群体中(这种志同道合很可能是样本*大小*的产物)。

    盐,以及其中的颗粒,在阅读结论时应该采取行动。

    1. 毫不奇怪,I don't agree with your overall characterization here,除了是的,关于哪些评论有问题,存在很多分歧。事实上,我就是这么说的。

      我想指出,虽然,这种衡量评级机构间可靠性的方法,如克里本多夫的阿尔法(alpha),说明了样本量。您可以直接比较一组小评分员和一组大评分员的可靠性度量,因为它是标准化的。

      1. 堆栈溢出用户 说:

        朱丽亚unfortunately you are ignoring the elephant in the room.Krippendroff的alpha的低值表明不同的群体只在极端情况下达成一致,例如,评论完全是粗鲁的或有争议的。因此,您应该非常小心,我们使用这些结果来推荐“堆栈溢出时的产品更改,以及直接在机器学习模型中使用这些数据的适当子集”。As highlighted in your article,从这项研究中你能得出的唯一有效结论是,对于什么是不受欢迎的评论存在很多分歧。

  13. 罗伯特柑橘 说:

    很想知道这对网站聊天有何影响。从最初的欢迎帖子开始,所有聊天活动都有了显著的下降。

  14. 调查数据是否可以下载?就像年度调查一样?如果不是,有没有计划提供?

    1. 对,I talk a little about this at the end of the post.它将在2019年晚些时候根据要求提供。

  15. 你写的是“一个人在堆栈溢出时投入越多,the more sensitive they are to problematic behavior" and "the more deeply an individual is connected to Stack Overflow…the more they are likely to see problems in comments like these."

    基于我对这些不同群体所扮演角色的假设,看起来:有人处理评论引起的问题的可能性越大,他们对可能产生问题的评论越敏感。普通用户并不太关心社区;这是因为,当有人(无论是评论者还是评论者)把他们的鼻子从关节里拿出来时,我们不太可能去处理任何乱七八糟的事情。

  16. Besides the fact that this has really _no_ statistical relevance or doesn't say anything,have you been thinking if the cultural background of people might have an influence on what they think is ok or not?例如,众所周知,美国美国人(在世界其他地方)过于礼貌。

  17. 萨米库门农 说:

    我会再次邀请你帮助我们谁在网站上评论:告诉我们应该如何说这些事情。如果问海报到底想达到什么是“不友好的”,我们该怎么问呢?如果我们不明白,我们怎么能帮忙?

    如果你认为礼貌地说他们应该学会使用调试器也是不友好的,那该怎么说呢?“哦,我注意到你甚至没有尝试调试你发布的部分代码,让我花点时间把它变成一个工作程序,并为您调试它?我知道,夸张,但请在这里提供实际有用的内容。How do we tell people,他们显然不知道他们可以使用调试器,使用一个?它是贸易中的基本工具之一,使用它很容易解决这个问题。

    我相信我不是唯一一个觉得这些事情不友好的人,实际上是非常有用的。所以,我并不惊讶员工们发现更多这些“不友好”的事情。But after you explain how we should phrase these helpful things if this is not acceptable I'm sure we'll be friendly in no time,除了乐于助人。

  18. 约翰·布林格 说:

    我觉得我不能完全同意“一起,这就开始描绘出一幅复杂而有趣的画面,谁能理解不受欢迎的行为,以何种方式,“相反,我认为它描绘了一幅相当简单的画面:所有类别的参与者总体上都能感觉到“不受欢迎”的行为水平很低,however sliced,对那些行为没有太多的一致性。也许有一幅复杂的图画潜伏在那里的某个地方,等待被发现,但我还没有看到任何迹象。我觉得有点奇怪,事实上。好的,简单的解释是,每个人都同意有时候别人说他们不喜欢的话。

    的确,我认为低利率协议是这项研究最有趣的结果。对我来说,不受欢迎行为的感知问题可能在很大程度上是难以解决的:如果人们不同意什么是不受欢迎的,那么我们应该消除什么呢?In this vein,我将感兴趣的是一个以评论为基础来判断意见分歧的分析。也就是说,几乎所有评分者对所研究的意见中有多少是不受欢迎(或更糟)的,大多数人认为不受欢迎的比例是多少?what proportion were rated unwelcoming by a substantial minority,至少有一个人,没有人。

    The 6-ish ratings per comment on average may not be enough to support such a study,但我想看看评论的比例

  19. 回应另一个评论,我想知道,将此示例与使用堆栈溢出作为整体的那些示例相比,其代表性如何,以及更大的编程社区。300个用户是不错的数字,但之前的调查数据显示,与整个编程社区相比,堆栈溢出调查的受访者在几个方面(包括性别)存在明显的偏差。如果在这个数据中也发现了类似的歪斜,这可能是在画一幅与实际情况不同的图画。

  20. Krippendorff的α低于0.67,可以得出这样的结论:StackOverflow员工,版主,其他被调查的用户不能可靠地区分冒犯性评论和非冒犯性评论。因此,版主在回应旗帜方面的作用是实现网站上尊重交流目标的一个关键因素。

  21. 我能从中看到三个大问题。

    1)版主不按经验版主分组。这一点很重要,因为对某件事是否有问题的判断,深受过去导致戏剧化和非戏剧化的经验的影响,这并不像一个没有经验的堆栈溢出员工所想的那样微不足道。相反,经验迥异的群体被聚集在一起。

    2)正确回答适度要求的激励措施在您的团队中差异很大。对员工来说,这是他们的生计。对于版主来说,他们的自我形象。对于其他用户,只是一件事。也许这是一个需要排除的混杂因素。

    3)作为主持人,I would never,总是对自己的评论进行缓和。这似乎是对缓和的误解。这不是一个将好评论和坏评论区分开来的大动作。这是一个减少戏剧的练习(“适度”字面意思是)在互动中。Two loud people having a very direct exchange may not be a problem at all.把一些非常直接的评论放在一个安静的人旁边,这可能会成为虐待。评论不是适度的单位,交互-线程-是。

Leave a Reply

您的电子邮件地址将不会发布。已标记必需字段*

此网站使用Akismet来减少垃圾邮件。了解如何处理评论数据.