自然语言处理(NLP)的初步理解

什么是自然语言处理?

NLP 代表自然语言处理。NLP 是人类语言、计算机科学和人工智能的一个子领域。NLP 的目标是向机器教授自然语言。这个想法不仅是机器应该理解,而且它们也应该交流。

根据 Wikipedia 的定义,NLP [它是语言学、计算机科学和人工智能的一个子领域,涉及计算机与人类语言之间的交互,特别是如何对计算机进行编程以处理和分析大量自然语言数据]。

NLP 的需求是什么?

在神经心理学、语言学和语言哲学中,自然语言或普通语言是人类通过使用和重复而自然进化的任何语言,而无需有意识的计划或预谋。自然语言可以采用不同的形式,例如语音或手语。它们与诸如用于计算机编程或研究逻辑的构造语言和形式语言不同。

简而言之,由于使用和重复而在人类中自发进化的任何语言,都被语言学、神经心理学和语言哲学视为自然语言或普通语言。自然语言不同于构造语言,如 Python、Java、C++ 编程语言。

如果我们了解人类历史或人类进化史,我们注意到在几百万年之前我们就像动物一样,但快进几百万年,人类已经进化了。就像人类进入太空一样,他们使用各种技术,而动物们仍然在丛林中离开,并在数百万年中过着同样的生活。所以问题是我们(人类)做了什么而超越了动物。所以我认为有两个因素,第一个因素是沟通和语言。无论我们取得了什么成就,主要因素是我们能够相互交流,我们能够分享我们的想法。我们把很多想法从一代传到另一代,就像书籍一样。语言和交流有助于人类的成长和进化。第二个因素是机器的使用。我们为不同的域创建了很多机器。那台机器帮助人类越来越快地成长和进化。

第三个因素是我们将能够与机器交流,就像我们与人类同胞交流一样。例如,想象一个我们与任何机器(例如 ATM)进行通信的世界。想象一个老人想从ATM机上取钱,但是他不懂界面。ATM机将帮助该人与机器进行通信并协助他取款。

现实世界的应用

我们在日常生活中使用的一些应用程序我们非常了解。Alexa、Siri、Cortana 和聊天机器人都是NLP 应用的示例。

让我们讨论更多的 NLP 应用。

a. 上下文广告:我们知道,在 90 年代,我们过去常常观看比赛、电影或连续剧,充满了各种广告。公司假设有人会购买该产品。但是今天,我们有了 NLP,我们可以处理和观察人们的行为方式,他是什么样的个性,所以我们可以在这里使用有针对性的广告。

我们都知道,我们总是在社交网站上看到不同的广告。那么公司会做什么,他们会检查个人资料、帖子或分析评论,并根据他们确定此人对运动、技术或化妆品感兴趣。在此基础上,他们向我们展示了有针对性的广告。

b. 电子邮件客户端(垃圾邮件过滤、智能回复):我们都知道垃圾邮件。在这种情况下,某家公司向我们发送了一封邮件,如果 Gmail 看起来,这封邮件是垃圾邮件,那么它会自动移至垃圾邮件文件夹,而普通电子邮件则位于普通文件夹中。

还添加了新功能,如果我们收到某人的邮件,那么我们可以看到我们得到了一个聪明的回复(这是一种建议)。建议会根据电子邮件内容显示。

c. 社交媒体:社交媒体中的一项具有挑战性的任务是删除成人内容。就像我们创建了一些社交媒体应用程序,数百万人在其中上传了大量内容,以及我们如何从这些内容中过滤成人内容,或者一些用户正在传播负面或仇恨言论,因此将予以解决。我们可以使用 NLP 解决这些问题。

d. 搜索引擎:我们可以以谷歌搜索引擎为例。在那里我们可以直接向谷歌搜索一些一般性的问题,即印度的首都是什么。所以谷歌将获取数据并在一行中显示答案。

e. 聊天机器人:在当今世界,很多公司都在使用聊天机器人。因此,聊天机器人的交流就像某个人像客户主管一样坐在另一端。假设我们以 Zomato 为例,因为 Zomato 拥有数百万客户,因此他们无法容纳更多的客户主管。因此,聊天机器人有助于解决和提供初始级别的信息。

自然语言处理主要步骤包括:

  1. 分词(只针对中文,英文等西方字母语言已经用空格做好分词了):将文章按词组分开

  2. 词法分析:对于英文,有词头、词根、词尾的拆分,名词、动词、形容词、副词、介词的定性,多种词意的选择。比如DIAMOND,有菱形、棒球场、钻石3个含义,要根据应用选择正确的意思。

  3. 语法分析:通过语法树或其他算法,分析主语、谓语、宾语、定语、状语、补语等句子元素。

  4. 语义分析:通过选择词的正确含义,在正确句法的指导下,将句子的正确含义表达出来。方法主要有语义文法、格文法。

但是以上的分析,仅适用于小规模的实验室研究,远不能应用到实际语言环境中,比如说语法,我们能总结出的语法是有限的,可是日常应用的句子,绝大部分是不遵守语法的,如果让语法包罗所有可能的应用,会出现爆炸的景象。

常见的 NLP 任务

a. 文本/文档分类:文本分类是最基本的 NLP 任务之一,包括根据内容为文本分配类别(标签)。

b. 情感分析:这是一种文本分类,其中 NLP 算法确定文本的正面、负面或中性内涵。用例包括通过分析推文、帖子、评论和其他反应来分析客户的反馈、检测趋势、进行市场研究等。情绪分析可以涵盖从 App Store 上发布新游戏到政治演讲和监管变化的所有内容。

c. 信息检索:假设我们有一些文本,我们必须从该文本中提取名称、位置、日期、产品名称等实体。如果我们必须提取它,任何类似信息的东西都会在检索中出现。

d. 词性标注:这是重要的文本预处理步骤之一。我们做什么,我们拥有的文本,从该文本中,我们为每个单词分配一个词性,就像它是名词或动词或形容词或副词一样。此方法用于聊天机器人,以便聊天机器人可以逐字理解每个单词。

e. 语言检测和机器翻译:我们都知道谷歌翻译使用相同的方法。我们使用谷歌翻译,我们知道这是一个如此强大的应用程序。存在许多语言的地方。即使我们知道一种语言,我们也可以了解其他语言。我们可以将文本数据从一种语言转换为另一种语言。

f. 对话代理:对话代理就像一个聊天机器人,但存在两种聊天机器人。一种是基于文本的,另一种是基于语音的。我们可以举一个 Siri 或 Alexa 的例子,它们都是基于语音的。如果我们谈论电报、远足,或者在 Swiggy 或 Zomato 上,他们有一个基于文本的聊天机器人。

g. 知识图谱和 QA 系统:假设我们有大量的数据库,并且从该数据库中,我们尝试使用某种逻辑连接实体,然后我们制作一个知识图谱,然后我们可以将其转换为一个 Question-Ask 申请。

h. 文本摘要:这基本上就像,假设我们有一篇完整的文章,我们可以从那篇文章中做一个总结。我们可以给出一个小表格。我们可以举的例子之一是 Inshorts 新闻应用程序。所以基本上这个应用程序所做的就是帮助将新闻缩短为 60 字的新闻摘要。

i. 文本生成:我们在日常生活中都使用文本生成。即如果我们看到,在键盘中,当我们根据您之前的打字行为自动键入内容时,它会预测下一个单词,并且我们都知道在与某人聊天时使用了多少。

j. 拼写检查和语法纠正:如果句子形成中出现拼写错误或发生某些语法错误,它会突出显示该单词,以便我们改进该单词或句子。

k. 语音转文本:在这里,我们创建了一个像 Siri 和 Alexa 这样的会话代理。此外,此 NLP 任务用于我们所说的谷歌翻译并将其转换为文本。这也有助于我们用一种语言说话并且我们可以转换成另一种语言。例如,不同国家的人们试图交流,但他们不理解彼此的语言。所以谷歌翻译帮助他们理解彼此的语言并进行交流。

总之,目前ChatGPT的爆火,使得国内各大厂商开始布局人工智能模型的具体应用落地,一切技术都是为了提高人类生产生活而不断的进步,学习永无止境,愿你我共同进步,不被时代的潮流所遗弃。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,324评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,356评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,328评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,147评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,160评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,115评论 1 296
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,025评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,867评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,307评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,528评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,688评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,409评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,001评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,657评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,811评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,685评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,573评论 2 353

推荐阅读更多精彩内容