女式马车

Welcome Wagon: Community and Comments on Stack Overflow

女式马车

去年夏天,我们写了关于栈溢出评论的第一篇博客文章,关注我们在堆栈溢出时的内部初始工作评级评论以及我们学到的内容。Since then,我们已经在我们的社区中更广泛地处理了这个评论评级任务。这篇博文分享了我们正在学习的一些内容。

参与我们的社区

我(Jason)编写了一个Web应用程序,它向用户提供了一个来自post-on堆栈溢出的注释线程,并要求用户对线程中的每个注释进行评级。unwelcoming,或辱骂。Our第一部落格shared results from when we asked employees at Stack Overflow,包括开发者,product managers,和管理人员,评价评论。八月份,we rolled out our new行为守则,along with new flags for comments that align with these categories,一个标志表示粗鲁/辱骂,一个标志表示不友好/不友善。今年秋天,we extended our comment classification task beyond our employees to our larger community.我们邀请来自三个小组的个人对评论进行评分。

要登录此Web应用并记录数据,每个用户都需要一个堆栈溢出帐户,so users had to make an account if they didn't have one already.我们要求参与者在评级评论上至少投入一小时,一次工作时间不超过20分钟。

What kind of response did we get?总体而言,有525名用户花费了至少15分钟或更多的评级评论。他们给出了253807个评分,40358个不同的评论。我们有多少用户和评论评级,for each kind of user?

Type 用户 Comment Ratings
员工 46 一万三千三百
欢迎工程 七十九 三万五千八百四十九
Moderator 一百 103,661
Research List 三百 十万零九百九十七

主持人通过这个项目展示了他们对我们社区的巨大承诺,as they do consistently day in,日出;参与这个项目的主持人平均每个评论超过1000条。响应我们的博客帖子表示对堆栈溢出的欢迎/包含感兴趣的人也投入了大量时间,rating over 500 comments each.

我们可以通过观察cumulative distribution functions对于每种用户;这种情节显示,对于每个评论等级,对许多评论或更低评价的用户所占的百分比。

如果你不习惯解释这种图表,看一看x = 1000,the location on the x-axis that corresponds to 1,000 comments.The line for the moderators is the lowest,indicating that more moderators submitted more comment ratings compared to the other groups.

群体差异

不同类型的人以不同的方式经历堆栈溢出。If we look at all the ratings made by the different types of users aggregated,不同类型的组如何理解这些关于堆栈溢出的注释?

Type Fine 不受欢迎的 虐待的
员工 91.8% 7.7% 0.4%
Moderator 95% 4.8% 0.2%
Research List 95.6% 4.3% 0.1%
欢迎工程 96.6% 3.3% 0.1%

在堆栈溢出时,内部员工发现最不受欢迎的评论率,然后是堆栈交换版主。We信任和支持我们的主持人,在这个特定的项目中,moderators demonstrated their understanding of unfriendly and unwelcoming behavior in comments.

Regular registered users from our research list perceived the next lowest rate of unfriendly comments,以及回复我们博客帖子的用户使堆栈溢出更受欢迎发现所有不友好评论的最低比率。How can we interpret this?我们特别邀请那些可能认为自己不活跃的用户加入我们的社区,以获得外界的看法,但是这些用户看到了不受欢迎行为的最低比率。

A possible explanation is that we are seeing a real effect of deep experience with our site;似乎一个人在堆栈溢出时投入的越多,the more sensitive they are to problematic behavior.What do these unfriendly comments look like?下面结合实际注释的元素来显示典型示例。

  • 为什么?你想这样做吗?You have conflated at least three problems here."
  • “很难帮助你解决这样一个小问题。它可能来自代码中的任何一行,and we have to guess."
  • "How exactly is this going to solve my problem?!"
  • “您不知道如何使用此网站。这里没有人为你编码;阅读文档,然后向我们展示。”
  • "What are you事实上试图实现?请学习如何使用调试器。“

我们的项目显示,一个人与堆栈溢出的关联越深(作为员工,or a moderator),他们越可能在这样的评论中看到问题。这种效应对于比较那些有相同意见的群体是很有效的,who rated the same number of comments,以及其他分析方法。

Individual differences

What do the distributions of ratings for each individual look like?

Each individual did not rate the same set of comments and worked for different lengths of time,所以我们期望每个个体的结果都有变化。总体而言,the median percentage of perceived unwelcoming comments per individual was 3.5%,quite a bit lower than themedian percentage for employeesof 6.5%.

为了了解评级机构之间有多少协议,我们可以再看看克里本多夫的阿尔法,a measure that ranges from zero (nobody agrees) to one (perfect agreement).这项措施说明了评级机构的数量,so we can compare agreement among employees to the groups with more raters.What is Krippendorff's alpha,是否有至少三个人评价的评论?

These values for alpha are low compared to what social scientists would use to draw reliable conclusions based on the ratings;社会科学家寻找接近0.8或更高的值。Notice that Stack Overflow employees rated more comments as unwelcoming than other groups but agreed with each other about what is unwelcoming and abusive at higher rates at the same time.版主和注册用户之间的协议率最低(尽管仍然如此much higher than for people unfamiliar with Stack Overflow)and the rate of agreement for the users who volunteered to help make Stack Overflow more welcoming was a bit higher.请记住,这些用户对最低的总体不友好程度;some spot-checking indicates these users identified only the clearest examples of problematic text.

影响堆栈溢出交互的另一个因素是名声.我们是否看到评分者对不受欢迎的行为和他们自己的声誉有什么不同?This can help us understand if "power users" (distinguished from moderators) may be driving problems with site culture.

在这个阴谋中没有明确的证据表明有一段关系,表明高信誉用户对不友好行为的感知率与低信誉用户大致相同。我们以前也看到过类似的效果,例如,在我们的年度开发者调查中。When asked what the堆栈溢出最糟糕或最恼人的是,所有体验级别和自报告的堆栈溢出活动级别的开发人员都提到了具有严酷交互和站点文化的问题。

所有在一起,this begins to paint a complex and interesting picture of who understands unwelcoming behavior and in what ways.主持人和高信誉用户的可能性一样大,or even more likely,to identify unwelcoming comments compared to new users.Stack Overflow employees identify more comments as problematic and agree with each other more about what is a problem compared to the other kinds of users in this project.

下一步

So where do we go from here?首先,we as employees learned that we don't always perceive problems in the same way as other members of our community.当我们继续计划使堆栈溢出成为开发人员更好地学习和共享知识的地方时,我们将记住这一点。

我们计划使用这个数据集来研究如何使用对问题和答案的评论,针对不同体验级别的用户,在不同的社区,and more.Look for more blog posts on these issues in upcoming months.We will continue to use the results from this project in product changes on Stack Overflow,as well as directly using appropriate subsets of this data in machine learning models.Also,2019年,我们将发布此数据集(注释ID,comment ratings,以及匿名/随机的评分者ID),以便我们社区和其他社区的其他人可以自己探索这些数据。

没有参与该项目的个人的时间和精力投入,所有这些都不可能实现,我们要感谢每一位自愿帮助我们更好地理解我们网站这一方面的人。谢谢您,为了你的关心和时间。在堆栈溢出时,社区是我们身份的中心,我们致力于使堆栈溢出变得健康,开发人员学习和分享知识的包容性场所。

作者

Julia Silge & Jason Punyon
数据科学家和数据工程师

Related Articles

评论

  1. 基拉莱萨 说:

    I would be interested in seeing the data from the other direction: For users who had their comments marked abusive or unfriendly,他们的整体声誉得分是多少?或者更好,what was their reputation at the time they made the comment?

    了解高代表用户是否更礼貌(或更粗鲁)是很有趣的。,以及当用户获得销售代表时,他们变得更有礼貌,以及其他类似的事情。

  2. 也许下一步是考虑和测试老化效应:在这里拥有10万以上声誉的用户,可能比那些不那么新的用户(尽管他们已经在这里呆了足够长的时间,可以看到更多的帖子中的评论,例如代表1K或以上的用户)。

    同样地,最后一个图应该用用户的*贡献类型*对每个点进行加权……那些10万以上的代表用户是否经常参与调节活动,或者他们是否把所有的时间都花在回答问题上?这似乎是对我产生偏见的一个明显的潜在原因——许多用户徘徊在五位数的标记周围,因为他们将大部分时间(甚至大部分时间)和精力转移到清理网站/缓和上,including flagging comments,downvoting,关闭投票/删除投票,等。如果10万以上的用户全部时间都在回答,很明显,他们不会花太多时间去看他们自己帖子下的评论(例如their own comments and comments of users who tend to be appreciative of receiving typically expert help for free),因此,他们不太可能察觉到整体评论的语气或内容有问题。

  3. 这些评论是从哪里来的?是真的随机样本吗?从什么时候开始?根据你拉评论的时间,可能会有一些有趣的影响(因为旧的评论更可能已经被缓和了)。

    1. 伟大的问题,为了简洁起见,我省略了这部分分析。这些评论是从过去一年的几个月中随机抽取的,再从过去的几年中,在特定的几个月里取样,所以我们可以在没有季节性影响的情况下进行比较(因为我们在某些月份有更多的学生)。I can't rule out the seasonal effects but we can see that there are no long-term trends.

      1. Interesting point/concern,撤消。

        I understand that you're wondering if the pool from which the comments were chosen included comments that had already been moderated (such as hidden/'deleted' by a moderator or the author.).如果所选内容仅来自已保存的注释,那就不是随机集会/代表集会。

        朱丽亚你的答复是https://en.wikipedia.org/wiki/Eternal_Septemberphenomenon,但据我所见,这和Undo的曲解有点不同,and I'm curious about it too.

  4. I don't see any measurement for statistical relevance,all of this could just be random noice nicely colored.它缺少对可能导致这些影响的其他原因的分析,研究组的代表性,等。

    我要说的是,这只是伏都教。

  5. 诺沃格特 说:

    你的员工似乎与其他团队有点疏远。“员工”到底是什么意思?所有那些在这个标签下参与的人实际上都是为了谋生的人,亚搏彩票还是包括你所有的员工?

    我这么问是因为它应该是开发人员与开发人员之间的通信。When I talk to a fellow developer,I try to cut out the unnecessary noise aka pleasantries that I would include talking to my boss or the sales people or even the cleaner.请确保我们的评价水平仍然是开发人员对开发人员的问题解决水平,一般民众并不认为这是一种欢迎。

    1. You can read the first blog post for more details on this,但简而言之,mostly developers,还有产品经理,社区管理者,and executives (many of whom are ex-developers,在我们的案例中:
      https://stack overflow.blog/2018/07/10/welcome-wagon-classing-comments-on-stack-overflow/
      没有或没有为生活编码的员工数量非常少,这似乎不太可能解释这种差异。可能是我需要检查的东西,虽然!

  6. Many of the rude comments are identifying real problems with a post,说的是需要说的话。他们只是措词不当。Could you suggest alternative phrasings for such instances?

    这不是小事。在英语中,politeness is often conveyed by hedging and extra verbiage.对于ESL扬声器,这可能会引起评论more difficult理解。此外,一些文化(例如,以色列美国聋人)价值直接性,而且会认为过度的暗示评论是不礼貌的。

    1. 这是个很好的问题,我们作为员工和整个社区都在处理的问题。您可以在这里查看一些后续讨论:
      https://meta.stackoverflow.com/questions/377438/how-can-the-example-unwelcoming-comments-be-improved

      1. 马克考克斯 说:

        Julia Silge我是一个开发人员,我喜欢StackOverflow及其在Reddit组之上的社区负责人和肩膀,因为上面的原因-请继续做好工作。

        最好的问候,
        马克考克斯

  7. 我觉得这很有趣,首先,尽管你看到了不同之处,差异不大(每组中位数都在其他组的框中)。但这并不意味着它们没有意义。我想你已经找到了一个解释,解释了员工和最活跃的用户之间,当有关于这些问题的meta和blog帖子时,他们之间似乎发生了一些脱节。这些群体的认知确实存在差异。I don't think it's fair or helpful to characterize this as investment in SO,尽管我知道你的意思——员工没有其他的工作,当他们看到这些工作时,他们会休息一下。另外,我们从其他的岗位上知道,你已经对这个话题进行了很多深入的内部讨论。我敢打赌,这两个群体之间也可能存在一些人口统计学上的差异。

    我认为这是一项非常有趣和聪明的研究。I was one of the people who did ratings,and I found it very challenging.对我来说,它更清楚地表明,我不确定像“不受欢迎”这样的术语在实践中意味着什么。较低的内部评级机构可靠性表明,可能需要建立对该术语的集体理解(也是滥用,but I think that's a different issue).I'm sure the same goes for "welcoming." I think some of the "I'm just not going to comment any more" posts that you see are really saying "I'm not sure what is considered okay."

    1. Agreed.两组间差异不显著

      与员工的差异是一个真正问题的潜在症状,as said in the blog post about disconnect with users,but could also be a statistical glitch/sampling error.Perhaps the participants had some previous bias,例如the employees who participated had probably took part in previous discussions of comments similar to those and were more trigger-happy when they saw them again.

      最大的发现是低水平的一致性。要始终如一地应用这些规则是很困难的。如果有更多的一致意见的话,找出一些评论是很有用的,if any.

  8. I was one of the participants in the study.One thing I struggled a bit with was the definition of "unwelcoming." This especially comes up around comments like "Why do you want to do this?You have conflated at least three problems here."

    我认为我们可以同意这样的评论不会不受欢迎,而且措辞可能会更好。我不想收到关于我一个问题的评论。但它也不像大多数不受欢迎的评论那样真的是轻蔑的;它询问问题的背景,以帮助生成适当的答案,大概是因为有xy问题的迹象。

    虽然我们进行了一次社区讨论,讨论诸如“请学习如何使用调试器”之类的评论是多么不受欢迎和无益,我不觉得我们已经就如何构建“你为什么要这样做”这个共同点进行了很多讨论。以一种欢迎的方式提问,或者我们认为不受欢迎的事情。

  9. 我不同意你90%的克里本多夫拼写。

    1. 哈,非常感谢。现在修理好了。

  10. 卢克拉格 说:

    I think it would be interesting to see how this differs when looking at the reputation of the OP at the time of posting their question where these comment threads originate from.即Are we more/less hostile to new users.

  11. Something like this was considered "unfriendly": "*Why* do you want to do this?You have conflated at least three problems here." The first part is a quite common inquiry,我认识的用户经常用友好的方式对待所有用户。“你*实际上*想要实现什么?”是另外一个。后面是“请学习如何使用调试器”,它,besides being a change of subject,sounds like good advice.如果你想在这些评论中读到一种卑鄙的语气,那么,要么是我们的博客读者缺乏上下文,要么是评级者的心态不友好。我认为这种评论很常见的一个原因是,用户经常在发布代码时认为问题在于他们的代码,而不是他们的方法。帮助用户,you often need to know what they were actually trying to achieve.除了我看到的许多用户,英语不是他们的母语,而看起来直截了当的是他们能做的最好的事情来表达他们的观点。

  12. 约翰逊少校 说:

    >“与此项目中的其他类型用户相比,Stack Overflow员工将更多评论视为有问题的评论,并就什么是问题达成更多共识。”

    什么?这就是你从数据中得出的结论?从这些数据中得出的结论是,与其他群体相比,员工更容易将评论误认为是有问题的。That is: there's a self-selection bias that you,作为堆栈溢出雇员,已经了解了数据。

    除此之外,"social scientists look for values close to 0.8 or more," along with a graph that shows no alpha above 0.37 tells me that there's large amounts of disagreement about which comments are problematic,即使是在最志同道合的群体中(这种志同道合很可能是样本*大小*的产物)。

    盐,以及其中的颗粒,在阅读结论时应该采取行动。

    1. 毫不奇怪,I don't agree with your overall characterization here,除了是的,there is a lot of disagreement about which comments are problematic.事实上,我就是这么说的。

      我想指出,虽然,这种衡量评级机构间可靠性的方法,如克里本多夫的阿尔法(alpha),说明了样本量。您可以直接比较一组小评分员和一组大评分员的可靠性度量,因为它是标准化的。

      1. 堆栈溢出用户 说:

        朱丽亚unfortunately you are ignoring the elephant in the room.Krippendroff的alpha的低值表明不同的群体只在极端情况下达成一致,for example where comments are outright rude or argumentative.You should therefore be extremely careful we using these results to recommend "product changes on Stack Overflow,以及直接在机器学习模型中使用这些数据的适当子集”。As highlighted in your article,从这项研究中你能得出的唯一有效结论是,对于什么是不受欢迎的评论存在很多分歧。

  13. 很想知道这对网站聊天有何影响。从最初的欢迎帖子开始,所有聊天活动都有了显著的下降。

  14. 西拉克 说:

    Is the survey data available somewhere for download,就像年度调查一样?如果不是,are there plans to make it available?

    1. 对,I talk a little about this at the end of the post.它将在2019年晚些时候根据要求提供。

  15. You write that "it appears the more invested an individual is here at Stack Overflow,the more sensitive they are to problematic behavior" and "the more deeply an individual is connected to Stack Overflow…the more they are likely to see problems in comments like these."

    基于我对这些不同群体所扮演角色的假设,it looks like: the more likely someone is to have to deal with problems arising from comments,the more sensitive they become to the potential for comments to create a problem.普通用户并不太关心社区;it's that we're far less likely to have to deal with any kerfuffle that arises when someone (either commenter or commentee) gets their nose out of joint.

  16. 除此之外,事实上这确实没有统计上的相关性,或者什么都没有说,have you been thinking if the cultural background of people might have an influence on what they think is ok or not?例如,众所周知,美国美国人(在世界其他地方)过于礼貌。

  17. Sami Kuhmonen 说:

    我会再次邀请你帮助我们谁在网站上评论:告诉我们应该如何说这些事情。如果问海报到底想达到什么是“不友好的”,我们该怎么问呢?如果我们不明白,我们怎么能帮忙?

    如果你认为礼貌地说他们应该学会使用调试器也是不友好的,那该怎么说呢?“哦,我注意到你甚至没有尝试调试你发布的部分代码,让我花点时间把它变成一个工作程序,并为您调试它?I know,夸张,但请在这里提供实际有用的内容。How do we tell people,他们显然不知道他们可以使用调试器,使用一个?它是贸易中的基本工具之一,使用它很容易解决这个问题。

    我相信我不是唯一一个觉得这些事情不友好的人,实际上是非常有用的。So I'm not surprised that employees find more of these "unfriendly" things.But after you explain how we should phrase these helpful things if this is not acceptable I'm sure we'll be friendly in no time,in addition to being helpful.

  18. 约翰·布林格 说:

    我觉得我不能完全同意“一起,这就开始描绘出一幅复杂而有趣的画面,谁能理解不受欢迎的行为,以何种方式,“相反,我认为它描绘了一幅相当简单的画面:所有类别的参与者总体上都能感觉到“不受欢迎”的行为水平很低,however sliced,对那些行为没有太多的一致性。也许有一幅复杂的图画潜伏在那里的某个地方,等待被发现,but I don't yet see a sign of it.我觉得有点奇怪,事实上。好的,simple explanation is that everybody agrees that sometimes others say things that they don't like.

    的确,我认为低利率协议是这项研究最有趣的结果。对我来说,不受欢迎行为的感知问题可能在很大程度上是难以解决的:如果人们不同意什么是不受欢迎的,那么我们应该消除什么呢?In this vein,我将感兴趣的是一个以评论为基础来判断意见分歧的分析。也就是说,几乎所有评分者对所研究的意见中有多少是不受欢迎(或更糟)的,what proportion were rated unwelcoming by a majority,what proportion were rated unwelcoming by a substantial minority,by at least one person,没有人。

    The 6-ish ratings per comment on average may not be enough to support such a study,但我想看看评论的比例

  19. 回应另一个评论,我想知道,将此示例与使用堆栈溢出作为整体的那些示例相比,其代表性如何,以及更大的编程社区。300个用户是不错的数字,但之前的调查数据显示,与整个编程社区相比,堆栈溢出调查的受访者在几个方面(包括性别)存在明显的偏差。如果在这个数据中也发现了类似的歪斜,这可能是在画一幅与实际情况不同的图画。

  20. With a Krippendorff's alpha below 0.67,可以得出这样的结论:StackOverflow员工,版主,其他被调查的用户不能可靠地区分冒犯性评论和非冒犯性评论。因此,版主在回应旗帜方面的作用是实现网站上尊重交流目标的一个关键因素。

  21. 我能从中看到三个大问题。

    1) Moderators are not grouped by experience moderating.这一点很重要,因为对某件事是否有问题的判断,深受过去导致戏剧化和非戏剧化的经验的影响,and this is not as trivial as a non-experienced Stack Overflow employee might think.相反,经验迥异的群体被聚集在一起。

    2) Incentives in answering correctly to the moderation requests vary wildly across your groups.对员工来说,这是他们的生计。For moderators,他们的自我形象。对于其他用户,just a thing.也许这是一个需要排除的混杂因素。

    3)作为主持人,I would never,对自己的评论进行缓和。这似乎是对缓和的误解。It's not a bucketing exercise of dividing good comment from bad comments.It's an exercise in reducing drama ("moderation" literally means that) in _interactions_.Two loud people having a very direct exchange may not be a problem at all.把一些非常直接的评论放在一个安静的人旁边,这可能会成为虐待。评论不是适度的单位,交互-线程-是。

Leave a Reply

您的电子邮件地址将不会发布。已标记必需字段*

此网站使用Akismet来减少垃圾邮件。了解如何处理评论数据.