少妇人妻无码专区视频-精品一区二区三区免费毛片爱-成在线人免费视频-人妻丰满熟妇av无码区hd

專利分析方法 | 流程步驟有哪些?

發(fā)布時間:2025-08-14 點(diǎn)擊:10
WIPO的專利分析專家在github上開辟了WIPO Patent Analytics專欄(https://wipo-analytics.github.io/),專門分享專利分析的相關(guān)技術(shù),其中有一本關(guān)于專利分析開源工具的書The WIPO Manual on Open Source Patent Analytics,這本書我們公眾號在幾年前的文章中介紹過(相關(guān)鏈接:)。不過今年,WIPO的專利分析專家對其內(nèi)容進(jìn)行了更新,出了第二版。今天這篇文章就來介紹一下這本書中對專利分析流程的描述。
很多人有著這樣的誤區(qū):專利分析和其他數(shù)據(jù)分析一樣,無外乎就是三個步驟:在數(shù)據(jù)庫中檢索、下載數(shù)據(jù)、向讀者展示數(shù)據(jù)。但實(shí)際上專利分析的流程可不僅僅是包括上面三個步驟。下圖是WIPO制作的專利分析流程圖。
圖片來源:The WIPO Manual on Open Source Patent Analytics (2nd edition) Chapter 3 The Patent Analytics Workflow | The WIPO Manual on Open Source Patent Analytics (2nd edition) (wipo-analytics.github.io)

步驟1:范圍檢索(Scoping Search)
范圍檢索的目的在于對分析的技術(shù)主題有一個基本的把握。以無人機(jī)技術(shù)為例,為了實(shí)施范圍檢索,首先僅以關(guān)鍵詞“無人機(jī)(drone or drones)”進(jìn)行檢索。
通過范圍檢索,檢索人員可以對檢索結(jié)果有一個初步的了解,并且從檢索到的文獻(xiàn)中獲取一些能夠用于擴(kuò)展檢索的關(guān)鍵詞。例如,對于無人機(jī)技術(shù),除了使用上述的“無人機(jī)(drone or drones)”這個關(guān)鍵詞以外,有些專利文獻(xiàn)中可能還會將其描述為“無人駕駛飛行器(Unmanned Aerial Vehicle)”以及其他的一些術(shù)語。
此外,在科學(xué)文獻(xiàn)和專利文獻(xiàn)中,還會描述“無人機(jī)”的很多用途,如果需要研究某種特定用途的無人機(jī),例如農(nóng)業(yè)植保無人機(jī),我們可以在檢索中對其用途進(jìn)行限定,或者是將某些用途排除在目標(biāo)文獻(xiàn)之外。
步驟2:探索性數(shù)據(jù)可視化(Exploratory data visualization)
數(shù)據(jù)可視化往往被認(rèn)為是數(shù)據(jù)分析流程中的最后環(huán)節(jié)。但其實(shí),在專利分析初期,數(shù)據(jù)可視化可以幫助我們理解數(shù)據(jù)和選擇后續(xù)的分析方向。例如,我們可以利用數(shù)據(jù)可視化來發(fā)現(xiàn)專利申請的趨勢,也可以嘗試?yán)梦谋揪垲惖目梢暬瘉碜R別專利文獻(xiàn)中的技術(shù)分布。
步驟3:確定檢索式(Defined Search)
檢索是一個不斷迭代的過程。基于文獻(xiàn)量的多少和該技術(shù)主題的復(fù)雜程度,可能需要進(jìn)行很多次實(shí)驗(yàn)性的檢索。
在探索檢索的過程中,最好是將探索檢索的過程全都記錄下來,以便在以后還能記得當(dāng)時為什么要這樣檢索,也便于向其他人解釋為什么要構(gòu)建這樣的檢索式。
經(jīng)過不斷迭代的探索性檢索之后,就能夠得到一個確定的檢索式,通過這個檢索式進(jìn)行檢索,以獲得數(shù)據(jù)。
步驟4:核心數(shù)據(jù)集(Core Dataset)
當(dāng)使用最終確定的檢索式在數(shù)據(jù)中進(jìn)行檢索后,下載下來的數(shù)據(jù)集,就是核心數(shù)據(jù)集,也就是我們要進(jìn)行數(shù)據(jù)分析的基礎(chǔ)。但這里要記住的是,不要直接對這個數(shù)據(jù)集進(jìn)行編輯,也就是說,要保留一個原始版本的數(shù)據(jù)集合,以方便后續(xù)出問題的時候可以核對和查找。
步驟5:核心數(shù)據(jù)集的數(shù)據(jù)清理(Cleaning the Core Dataset)
專利分析的數(shù)據(jù)往往是存儲為以下三種格式:
逗號分隔(.csv)或制表符分隔(.tsv)的文件,其中分隔符用于區(qū)分列
Excel格式
JSON格式(javascript對象表示法語言)
在大多數(shù)情況下,這些表中包含具有串聯(lián)信息的列。例如在專利申請人的列中,每一個單元格中可能包含多個人名,如“Google; Alphabet; Smith, Amy”。
在專利分析的實(shí)踐中,包含這種串聯(lián)信息的數(shù)據(jù)列通常包括:國際專利分類、申請人、發(fā)明人。此外,其他的一些數(shù)據(jù)列,比如日期,也有可能包含串聯(lián)的信息。對于這種包含串聯(lián)信息的單元格,應(yīng)當(dāng)把數(shù)據(jù)信息拆分到不同的單元格中,以便于后續(xù)進(jìn)行數(shù)據(jù)分析。
專利數(shù)據(jù)也可以有其他的數(shù)據(jù)格式,例如XML和JSON。不過,這種數(shù)據(jù)格式并不是設(shè)計來給我們?nèi)斯ぷx取的,而是給計算機(jī)讀取的。
步驟5.1 拆分?jǐn)?shù)據(jù)(Splitting Data)
拆分?jǐn)?shù)據(jù)就是將同一個單元格中包含的串聯(lián)信息拆分到不同的單元格中,例如原始下載下來的數(shù)據(jù)表中的申請人列,每一個單元格中有好幾個人名,就需要我們將不同的人名拆分到不同的單元格中,可以使用Excel中的“分列”功能。
在開源數(shù)據(jù)處理工具Open Refine中也可以輕松實(shí)現(xiàn)分列功能。Open Refine是一個網(wǎng)頁版的程序,該網(wǎng)站的用戶還為R和Python編寫了擴(kuò)展包。
步驟5.2 清理數(shù)據(jù)(Cleaning Data)
清理數(shù)據(jù)包括兩個方面的內(nèi)容:
第一種情形,清理噪音。例如,在下載的專利數(shù)據(jù)表中,通常會有申請人列,單元格中會包含多個申請人的姓名,例如,該單元格可能會包含如下信息:
Google Google Inc. Google Inc., Google Inc
這種情況下,雖然申請人都是Google這一家公司,但是由于申請人名稱的變化,例如有無Inc和后面的點(diǎn),都會被計算機(jī)認(rèn)為是不同的申請人。此時需要我們?nèi)斯⑦@種噪音清理。
第二種情形,區(qū)分相同名稱的不同實(shí)體。當(dāng)我們處理發(fā)明人名稱時,往往會發(fā)現(xiàn)一些相同名稱的發(fā)明人,例如Wang Wei, Smith John。如果不加區(qū)分地將這些名字都認(rèn)為是一個人,這將導(dǎo)致發(fā)明人的統(tǒng)計結(jié)果出現(xiàn)錯誤,因此,需要結(jié)合其他的信息,例如申請人、共同發(fā)明人、或者發(fā)明所涉及的技術(shù)主題信息,來確定這些叫同一名字的人是一個人還是多個人。處理這類問題比較好用的開源工具是Open Refine。
其他類型的數(shù)據(jù)清理還包括將日期轉(zhuǎn)換為可用的格式,例如從2021-12-25中提取年份,或者從IPC分類號中提取大類或者小類,例如從C12Q1/68分類號中提取C12Q,以便于對分類號所代表的技術(shù)分布進(jìn)行數(shù)據(jù)統(tǒng)計。
此外,專利分析將越來越多地使用機(jī)器學(xué)習(xí)模型從文本中提取信息,例如概念、化學(xué)名稱、物種名稱、國家或地名以及其他術(shù)語。這使得我們將專利數(shù)據(jù)與其他類型數(shù)據(jù)鏈接起來變成可能,從而獲得更豐富的信息。
步驟6:可視化及報告(Visualize & Report)
專利分析的最后一步即是數(shù)據(jù)可視化和報告撰寫,以使得專利分析的成果能夠適合于我們的目標(biāo)受眾。
實(shí)現(xiàn)數(shù)據(jù)可視化的方式有很多種,在The WIPO Manual on Open Source Patent Analytics (2nd edition)一書中主要介紹了以下幾種:
使用Tableau Public制作數(shù)據(jù)儀表板(Dashboards)
使用Gephi制作網(wǎng)絡(luò)數(shù)據(jù)可視化(Networks)
使用plotly實(shí)現(xiàn)數(shù)據(jù)可視化
使用infographics實(shí)現(xiàn)數(shù)據(jù)可視化
步驟7:小結(jié)
專利分析是一個不斷迭代的過程,它包含許多明確具體的步驟,包括最初的范圍檢索(scoping searches)和探索性數(shù)據(jù)分析(exploratory data analysis)、確定的核心數(shù)據(jù)集(core dataset)、將核心數(shù)據(jù)集拆分為不同的子表格、清理數(shù)據(jù)、將專利數(shù)據(jù)和其他數(shù)據(jù)來源進(jìn)行合并,以及最終的數(shù)據(jù)可視化和報告撰寫。


軟件開發(fā)服務(wù)資質(zhì)認(rèn)證 辦理所需資質(zhì)
深圳市高新技術(shù)企業(yè)認(rèn)定各區(qū)補(bǔ)貼獎勵表
ISO14000:2004版的術(shù)語和定義
怎樣順利通過ISO 9001質(zhì)量管理體系認(rèn)證?八個步驟快速搞定
華為驗(yàn)廠需要注意什么?
認(rèn)證帶你了解ISO9001認(rèn)證標(biāo)志如何使用?
到哪可以辦理綠色環(huán)保產(chǎn)品證書
貿(mào)易公司可以認(rèn)定國家高新企業(yè)嗎?